Model besar bergerak menuju teks panjang, 400 ribu token baru permulaan
Model besar sedang meningkatkan kemampuannya untuk memproses teks panjang dengan kecepatan yang luar biasa. Dari awalnya 4000 token hingga sekarang 400.000 token, kemampuan teks panjang telah menjadi standar baru bagi perusahaan model besar untuk menunjukkan kekuatan teknologi mereka.
Di tingkat internasional, pemain utama seperti OpenAI, Anthropic, dan lainnya telah meningkatkan panjang konteks model. Di dalam negeri, beberapa perusahaan baru juga sedang berusaha mengejar dalam perlombaan ini. Diketahui bahwa saat ini sudah banyak perusahaan model besar terkemuka dan lembaga penelitian yang menjadikan pengembangan panjang konteks sebagai fokus peningkatan teknologi.
Perusahaan-perusahaan ini sangat diminati oleh modal. OpenAI memperoleh hampir 12 miliar dolar pembiayaan, valuasi Anthropic mungkin mencapai 30 miliar dolar, dan valuasi perusahaan baru dalam negeri, Bulan Gelap, telah melampaui 300 juta dolar hanya dalam waktu enam bulan.
Mengapa perusahaan model besar sangat antusias untuk mengatasi teknologi teks panjang? Secara sekilas, ini berarti model dapat memproses teks input yang lebih panjang, dengan kemampuan membaca yang meningkat pesat. Alasan yang lebih mendalam adalah bahwa teknologi teks panjang dapat mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, tidak selalu panjang teks membuat kinerja model lebih baik. Penelitian menunjukkan bahwa kuncinya adalah bagaimana model dapat memanfaatkan informasi konteks secara efisien. Saat ini, eksplorasi panjang teks dalam industri masih jauh dari "titik kritis", 400.000 token mungkin hanya merupakan awal.
Terobosan teknologi teks panjang dapat mengatasi beberapa masalah yang dihadapi oleh model besar di awal, seperti karakter virtual yang melupakan informasi, analisis bidang profesional yang kurang, dan sebagainya. Ini juga merupakan salah satu teknologi kunci yang mendorong penerapan industri, menandakan bahwa model besar telah memasuki fase baru dari LLM ke Long LLM.
Teknologi teks panjang memungkinkan chatbot untuk mencapai fungsi yang lebih profesional, personal, dan mendalam, seperti analisis teks sangat panjang, generasi kode, dan peran bermain. Ini membuka kemungkinan untuk mengembangkan super APP generasi berikutnya.
Namun, teknologi teks panjang menghadapi dilema "segitiga ketidakmungkinan": sulit untuk mengakomodasi panjang teks, perhatian, dan daya komputasi sekaligus. Penyebab utama adalah bahwa jumlah perhitungan mekanisme perhatian diri dalam struktur Transformer tumbuh secara kuadrat seiring dengan panjang konteks.
Industri saat ini terutama menghadapi dengan tiga solusi: menggunakan alat eksternal untuk membantu pengolahan, mengoptimalkan perhitungan perhatian diri, dan mengoptimalkan model. Setiap solusi memiliki kelebihan dan kekurangan, perusahaan model besar perlu mencari titik keseimbangan di antara ketiganya.
Secara keseluruhan, terobosan dalam teknologi teks panjang telah membuka arah pengembangan baru untuk model besar, tetapi masih menghadapi banyak tantangan. Pengembangan di masa depan akan berfokus pada bagaimana menangani teks super panjang secara efisien sambil memastikan kinerja model.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kemampuan teks panjang model besar melonjak, 400.000 token dapat merombak lanskap aplikasi AI.
Model besar bergerak menuju teks panjang, 400 ribu token baru permulaan
Model besar sedang meningkatkan kemampuannya untuk memproses teks panjang dengan kecepatan yang luar biasa. Dari awalnya 4000 token hingga sekarang 400.000 token, kemampuan teks panjang telah menjadi standar baru bagi perusahaan model besar untuk menunjukkan kekuatan teknologi mereka.
Di tingkat internasional, pemain utama seperti OpenAI, Anthropic, dan lainnya telah meningkatkan panjang konteks model. Di dalam negeri, beberapa perusahaan baru juga sedang berusaha mengejar dalam perlombaan ini. Diketahui bahwa saat ini sudah banyak perusahaan model besar terkemuka dan lembaga penelitian yang menjadikan pengembangan panjang konteks sebagai fokus peningkatan teknologi.
Perusahaan-perusahaan ini sangat diminati oleh modal. OpenAI memperoleh hampir 12 miliar dolar pembiayaan, valuasi Anthropic mungkin mencapai 30 miliar dolar, dan valuasi perusahaan baru dalam negeri, Bulan Gelap, telah melampaui 300 juta dolar hanya dalam waktu enam bulan.
Mengapa perusahaan model besar sangat antusias untuk mengatasi teknologi teks panjang? Secara sekilas, ini berarti model dapat memproses teks input yang lebih panjang, dengan kemampuan membaca yang meningkat pesat. Alasan yang lebih mendalam adalah bahwa teknologi teks panjang dapat mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, tidak selalu panjang teks membuat kinerja model lebih baik. Penelitian menunjukkan bahwa kuncinya adalah bagaimana model dapat memanfaatkan informasi konteks secara efisien. Saat ini, eksplorasi panjang teks dalam industri masih jauh dari "titik kritis", 400.000 token mungkin hanya merupakan awal.
Terobosan teknologi teks panjang dapat mengatasi beberapa masalah yang dihadapi oleh model besar di awal, seperti karakter virtual yang melupakan informasi, analisis bidang profesional yang kurang, dan sebagainya. Ini juga merupakan salah satu teknologi kunci yang mendorong penerapan industri, menandakan bahwa model besar telah memasuki fase baru dari LLM ke Long LLM.
Teknologi teks panjang memungkinkan chatbot untuk mencapai fungsi yang lebih profesional, personal, dan mendalam, seperti analisis teks sangat panjang, generasi kode, dan peran bermain. Ini membuka kemungkinan untuk mengembangkan super APP generasi berikutnya.
Namun, teknologi teks panjang menghadapi dilema "segitiga ketidakmungkinan": sulit untuk mengakomodasi panjang teks, perhatian, dan daya komputasi sekaligus. Penyebab utama adalah bahwa jumlah perhitungan mekanisme perhatian diri dalam struktur Transformer tumbuh secara kuadrat seiring dengan panjang konteks.
Industri saat ini terutama menghadapi dengan tiga solusi: menggunakan alat eksternal untuk membantu pengolahan, mengoptimalkan perhitungan perhatian diri, dan mengoptimalkan model. Setiap solusi memiliki kelebihan dan kekurangan, perusahaan model besar perlu mencari titik keseimbangan di antara ketiganya.
Secara keseluruhan, terobosan dalam teknologi teks panjang telah membuka arah pengembangan baru untuk model besar, tetapi masih menghadapi banyak tantangan. Pengembangan di masa depan akan berfokus pada bagaimana menangani teks super panjang secara efisien sambil memastikan kinerja model.