Los grandes modelos avanzan hacia textos largos, 400,000 tokens son solo el comienzo
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, la capacidad de textos largos se ha convertido en un nuevo estándar para que las empresas de grandes modelos muestren su fortaleza tecnológica.
A nivel internacional, principales jugadores como OpenAI, Anthropic, entre otros, han aumentado la longitud del contexto de sus modelos. En el país, algunas empresas emergentes también están compitiendo ferozmente en esta área. Se sabe que actualmente un gran número de empresas de modelos grandes de primer nivel e institutos de investigación están enfocándose en expandir la longitud del contexto como una prioridad en la actualización tecnológica.
Estas empresas son muy apreciadas por el capital. OpenAI ha obtenido casi 12 mil millones de dólares en financiamiento, Anthropic podría alcanzar una valoración de 30 mil millones de dólares, y la nueva empresa emergente china Lado Oscuro de la Luna ha superado los 300 millones de dólares en valoración en solo seis meses.
¿Por qué las empresas de grandes modelos están tan interesadas en dominar la tecnología de texto largo? A primera vista, esto significa que el modelo puede manejar textos de entrada más largos, lo que mejora significativamente su capacidad de lectura. La razón más profunda es que la tecnología de texto largo puede impulsar la aplicación de grandes modelos en campos especializados como las finanzas, el derecho y la investigación científica.
Sin embargo, no siempre una mayor longitud de texto significa un mejor rendimiento del modelo. La investigación muestra que la clave está en cómo el modelo utiliza de manera eficiente la información del contexto. Actualmente, la industria aún no ha tocado el "punto crítico" en la exploración de la longitud del texto; 400,000 tokens pueden ser solo un comienzo.
Los avances en la tecnología de texto largo pueden resolver algunos de los problemas que enfrentan los grandes modelos en sus primeras etapas, como el olvido de información por parte de personajes virtuales y la falta de análisis en campos especializados. También es una de las tecnologías clave para impulsar la aplicación industrial, marcando la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
La tecnología de texto largo permite que los chatbots logren funciones más profesionalizadas, personalizadas y profundas, como el análisis de textos ultra largos, la generación de código y el juego de roles, entre otros. Esto abre la posibilidad de desarrollar la próxima generación de super aplicaciones.
Sin embargo, la tecnología de texto largo enfrenta el dilema del "triángulo imposible": es difícil equilibrar la longitud del texto, la atención y la capacidad de cálculo. La principal razón es que la cantidad de cálculo del mecanismo de autoatención en la estructura del Transformer crece de manera cuadrática con la longitud del contexto.
Actualmente, la industria enfrenta esto principalmente a través de tres soluciones: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo de la autoatención y optimizar el modelo. Cada solución tiene sus ventajas y desventajas, y las empresas de modelos grandes necesitan encontrar un punto de equilibrio entre las tres.
En general, los avances en la tecnología de textos largos han abierto nuevas direcciones de desarrollo para los modelos grandes, pero aún enfrentan numerosos desafíos. El desarrollo futuro se centrará en cómo procesar de manera eficiente textos ultralargos mientras se garantiza el rendimiento del modelo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
3
Compartir
Comentar
0/400
¯\_(ツ)_/¯
· hace15h
El texto ha crecido y la IA también se ha vuelto fuerte.
La capacidad de texto largo de los grandes modelos se dispara, 400,000 tokens podrían redefinir el panorama de las aplicaciones de IA.
Los grandes modelos avanzan hacia textos largos, 400,000 tokens son solo el comienzo
Los grandes modelos están mejorando su capacidad para procesar textos largos a una velocidad asombrosa. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, la capacidad de textos largos se ha convertido en un nuevo estándar para que las empresas de grandes modelos muestren su fortaleza tecnológica.
A nivel internacional, principales jugadores como OpenAI, Anthropic, entre otros, han aumentado la longitud del contexto de sus modelos. En el país, algunas empresas emergentes también están compitiendo ferozmente en esta área. Se sabe que actualmente un gran número de empresas de modelos grandes de primer nivel e institutos de investigación están enfocándose en expandir la longitud del contexto como una prioridad en la actualización tecnológica.
Estas empresas son muy apreciadas por el capital. OpenAI ha obtenido casi 12 mil millones de dólares en financiamiento, Anthropic podría alcanzar una valoración de 30 mil millones de dólares, y la nueva empresa emergente china Lado Oscuro de la Luna ha superado los 300 millones de dólares en valoración en solo seis meses.
¿Por qué las empresas de grandes modelos están tan interesadas en dominar la tecnología de texto largo? A primera vista, esto significa que el modelo puede manejar textos de entrada más largos, lo que mejora significativamente su capacidad de lectura. La razón más profunda es que la tecnología de texto largo puede impulsar la aplicación de grandes modelos en campos especializados como las finanzas, el derecho y la investigación científica.
Sin embargo, no siempre una mayor longitud de texto significa un mejor rendimiento del modelo. La investigación muestra que la clave está en cómo el modelo utiliza de manera eficiente la información del contexto. Actualmente, la industria aún no ha tocado el "punto crítico" en la exploración de la longitud del texto; 400,000 tokens pueden ser solo un comienzo.
Los avances en la tecnología de texto largo pueden resolver algunos de los problemas que enfrentan los grandes modelos en sus primeras etapas, como el olvido de información por parte de personajes virtuales y la falta de análisis en campos especializados. También es una de las tecnologías clave para impulsar la aplicación industrial, marcando la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
La tecnología de texto largo permite que los chatbots logren funciones más profesionalizadas, personalizadas y profundas, como el análisis de textos ultra largos, la generación de código y el juego de roles, entre otros. Esto abre la posibilidad de desarrollar la próxima generación de super aplicaciones.
Sin embargo, la tecnología de texto largo enfrenta el dilema del "triángulo imposible": es difícil equilibrar la longitud del texto, la atención y la capacidad de cálculo. La principal razón es que la cantidad de cálculo del mecanismo de autoatención en la estructura del Transformer crece de manera cuadrática con la longitud del contexto.
Actualmente, la industria enfrenta esto principalmente a través de tres soluciones: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo de la autoatención y optimizar el modelo. Cada solución tiene sus ventajas y desventajas, y las empresas de modelos grandes necesitan encontrar un punto de equilibrio entre las tres.
En general, los avances en la tecnología de textos largos han abierto nuevas direcciones de desarrollo para los modelos grandes, pero aún enfrentan numerosos desafíos. El desarrollo futuro se centrará en cómo procesar de manera eficiente textos ultralargos mientras se garantiza el rendimiento del modelo.