Revolução dos Grandes Modelos: Avanços no Processamento de Longos Textos de 4000 a 400000 tokens

robot
Geração do resumo em andamento

Grande avanço na capacidade de texto longo dos grandes modelos: de 4000 a 400000 tokens

Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400 000 tokens, este salto marca um progresso significativo da inteligência artificial no tratamento de informações complexas.

A nível internacional, a OpenAI, através de várias atualizações, aumentou o comprimento do contexto de entrada do modelo GPT de 4 mil para 32 mil tokens. Ao mesmo tempo, a Anthropic expandiu o comprimento do contexto para 100 mil tokens. O LongLLaMA levou esse número a 256 mil tokens ou até mais.

No país, a Kimi Chat da empresa emergente de grandes modelos, a Dark Side of the Moon, pode suportar entradas de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, também consegue expandir o comprimento do texto do modelo de 7B para 100 mil tokens.

Atualmente, várias empresas e instituições de pesquisa de modelos de grande escala, incluindo OpenAI, Anthropic, Meta e o Lado Escuro da Lua, estão focadas em expandir o comprimento do contexto como uma direção de desenvolvimento prioritária. Estas empresas têm atraído o interesse do mercado de capitais, com avaliações a crescerem continuamente.

A melhoria da capacidade de processamento de textos longos é de grande importância. Ela não apenas amplia o alcance de leitura do modelo, desde textos curtos até romances longos e até obras-primas, mas também promove a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. A tecnologia de textos longos ajuda a melhorar a capacidade de extração e análise de informações, reduzindo a probabilidade de o modelo gerar alucinações.

No entanto, o comprimento do texto não é sempre melhor quanto mais longo for. Estudos mostram que a utilização eficaz do conteúdo contextual pelo modelo é mais importante do que apenas buscar comprimento. Atualmente, a exploração da tecnologia de textos longos na indústria ainda continua, e 400 mil tokens podem ser apenas o começo.

O desenvolvimento da tecnologia de texto longo enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a alocação de atenção e as exigências computacionais. Isso se deve principalmente ao fato de que a complexidade computacional do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.

Para resolver este problema, os investigadores propuseram várias soluções de otimização:

  1. Usar ferramentas externas para ajudar a processar textos longos
  2. Optimização do cálculo do mecanismo de autoatenção
  3. Utilizar métodos de otimização de modelos

Embora o processamento de textos longos continue a apresentar desafios, isso marca a entrada de grandes modelos em uma nova fase de desenvolvimento. No futuro, as empresas de grandes modelos buscarão o melhor equilíbrio entre o comprimento do texto, a alocação de atenção e as necessidades de capacidade computacional, a fim de alcançar uma capacidade de processamento de textos longos mais robusta.

TOKEN3.53%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 3
  • Repostar
  • Compartilhar
Comentário
0/400
BlockchainBouncervip
· 7h atrás
Esta onda até à lua, pato.
Ver originalResponder0
LayerZeroEnjoyervip
· 7h atrás
Que progresso tão rápido! No próximo ano, provavelmente chegará a um milhão.
Ver originalResponder0
SerumSqueezervip
· 7h atrás
Vai haver mais um token a ser lançado?
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)