A capacidade de textos longos de grandes modelos disparou, 400 mil tokens podem remodelar o panorama das aplicações de IA.

robot
Geração de resumo em curso

O grande modelo avança para textos longos, 400 mil tokens é apenas o começo

Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Desde os iniciais 4000 tokens até aos atuais 400.000 tokens, a capacidade de textos longos tornou-se um novo padrão para as empresas de grandes modelos demonstrarem a sua força tecnológica.

A nível internacional, principais jogadores como OpenAI e Anthropic elevaram a extensão do contexto dos modelos. No país, algumas novas empresas também estão a esforçar-se para alcançar este setor. Sabe-se que, atualmente, um grande número de empresas de modelos de ponta e instituições de pesquisa estão a focar na expansão da extensão do contexto como uma prioridade de atualização tecnológica.

Essas empresas são muito populares entre os investidores. A OpenAI conseguiu quase 12 bilhões de dólares em financiamento, a Anthropic pode ter uma avaliação de 30 bilhões de dólares, e a nova empresa nacional, Lado Oculto da Lua, já ultrapassou 300 milhões de dólares em avaliação em apenas seis meses.

Por que as empresas de grandes modelos estão tão ansiosas para dominar a tecnologia de textos longos? À primeira vista, isso significa que o modelo pode lidar com textos de entrada mais longos, melhorando significativamente a capacidade de leitura. A razão mais profunda é que a tecnologia de textos longos pode impulsionar a aplicação de grandes modelos em áreas especializadas como finanças, direito e pesquisa científica.

No entanto, o comprimento do texto não significa que o modelo terá um desempenho melhor. Estudos mostram que o crucial é como o modelo utiliza eficientemente a informação contextual. Atualmente, a exploração do comprimento do texto na indústria ainda está longe de atingir o "ponto crítico", 400 mil tokens podem ser apenas o começo.

O avanço da tecnologia de longo texto pode resolver alguns problemas que os grandes modelos enfrentavam no início, como o esquecimento de informações por personagens virtuais e a análise insuficiente em áreas especializadas. É também uma das tecnologias-chave para a implementação de aplicações industriais, marcando a transição dos grandes modelos de LLM para Long LLM.

A tecnologia de texto longo permite que os chatbots implementem funcionalidades mais profissionalizadas, personalizadas e profundas, como análise de texto ultra longo, geração de código, interpretação de papéis, entre outros. Isso possibilita o desenvolvimento da próxima geração de super aplicativos.

No entanto, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade de computação. A principal razão para isso é que o volume de cálculo do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.

Atualmente, a indústria enfrenta a situação principal através de três soluções: utilizando ferramentas externas para auxiliar no processamento, otimizando o cálculo de autoatenção e otimizando o modelo. Cada solução tem suas vantagens e desvantagens, e as empresas de grandes modelos precisam encontrar um equilíbrio entre as três.

De um modo geral, os avanços na tecnologia de textos longos abriram novas direções de desenvolvimento para grandes modelos, mas ainda enfrentam muitos desafios. O desenvolvimento futuro irá centrar-se em como processar eficientemente textos extremamente longos, garantindo ao mesmo tempo o desempenho do modelo.

TOKEN-9.09%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 3
  • Partilhar
Comentar
0/400
¯\_(ツ)_/¯vip
· 18h atrás
O texto ficou longo e a IA também ficou confiante.
Ver originalResponder0
Anon4461vip
· 18h atrás
Token subir ao céu Pequena redação não está preocupada
Ver originalResponder0
SignatureAnxietyvip
· 18h atrás
Ter dinheiro é poder fazer o que se quer.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)