Grande avanço na capacidade de texto longo dos grandes modelos: de 4000 a 400000 tokens
Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400 000 tokens, este salto marca um progresso significativo da inteligência artificial no tratamento de informações complexas.
A nível internacional, a OpenAI, através de várias atualizações, aumentou o comprimento do contexto de entrada do modelo GPT de 4 mil para 32 mil tokens. Ao mesmo tempo, a Anthropic expandiu o comprimento do contexto para 100 mil tokens. O LongLLaMA levou esse número a 256 mil tokens ou até mais.
No país, a Kimi Chat da empresa emergente de grandes modelos, a Dark Side of the Moon, pode suportar entradas de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, também consegue expandir o comprimento do texto do modelo de 7B para 100 mil tokens.
Atualmente, várias empresas e instituições de pesquisa de modelos de grande escala, incluindo OpenAI, Anthropic, Meta e o Lado Escuro da Lua, estão focadas em expandir o comprimento do contexto como uma direção de desenvolvimento prioritária. Estas empresas têm atraído o interesse do mercado de capitais, com avaliações a crescerem continuamente.
A melhoria da capacidade de processamento de textos longos é de grande importância. Ela não apenas amplia o alcance de leitura do modelo, desde textos curtos até romances longos e até obras-primas, mas também promove a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. A tecnologia de textos longos ajuda a melhorar a capacidade de extração e análise de informações, reduzindo a probabilidade de o modelo gerar alucinações.
No entanto, o comprimento do texto não é sempre melhor quanto mais longo for. Estudos mostram que a utilização eficaz do conteúdo contextual pelo modelo é mais importante do que apenas buscar comprimento. Atualmente, a exploração da tecnologia de textos longos na indústria ainda continua, e 400 mil tokens podem ser apenas o começo.
O desenvolvimento da tecnologia de texto longo enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a alocação de atenção e as exigências computacionais. Isso se deve principalmente ao fato de que a complexidade computacional do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.
Para resolver este problema, os investigadores propuseram várias soluções de otimização:
Usar ferramentas externas para ajudar a processar textos longos
Optimização do cálculo do mecanismo de autoatenção
Utilizar métodos de otimização de modelos
Embora o processamento de textos longos continue a apresentar desafios, isso marca a entrada de grandes modelos em uma nova fase de desenvolvimento. No futuro, as empresas de grandes modelos buscarão o melhor equilíbrio entre o comprimento do texto, a alocação de atenção e as necessidades de capacidade computacional, a fim de alcançar uma capacidade de processamento de textos longos mais robusta.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
9 gostos
Recompensa
9
3
Republicar
Partilhar
Comentar
0/400
BlockchainBouncer
· 5h atrás
Esta onda até à lua, pato.
Ver originalResponder0
LayerZeroEnjoyer
· 5h atrás
Que progresso tão rápido! No próximo ano, provavelmente chegará a um milhão.
Revolução dos Grandes Modelos: Avanços no Processamento de Longos Textos de 4000 a 400000 tokens
Grande avanço na capacidade de texto longo dos grandes modelos: de 4000 a 400000 tokens
Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400 000 tokens, este salto marca um progresso significativo da inteligência artificial no tratamento de informações complexas.
A nível internacional, a OpenAI, através de várias atualizações, aumentou o comprimento do contexto de entrada do modelo GPT de 4 mil para 32 mil tokens. Ao mesmo tempo, a Anthropic expandiu o comprimento do contexto para 100 mil tokens. O LongLLaMA levou esse número a 256 mil tokens ou até mais.
No país, a Kimi Chat da empresa emergente de grandes modelos, a Dark Side of the Moon, pode suportar entradas de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, também consegue expandir o comprimento do texto do modelo de 7B para 100 mil tokens.
Atualmente, várias empresas e instituições de pesquisa de modelos de grande escala, incluindo OpenAI, Anthropic, Meta e o Lado Escuro da Lua, estão focadas em expandir o comprimento do contexto como uma direção de desenvolvimento prioritária. Estas empresas têm atraído o interesse do mercado de capitais, com avaliações a crescerem continuamente.
A melhoria da capacidade de processamento de textos longos é de grande importância. Ela não apenas amplia o alcance de leitura do modelo, desde textos curtos até romances longos e até obras-primas, mas também promove a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. A tecnologia de textos longos ajuda a melhorar a capacidade de extração e análise de informações, reduzindo a probabilidade de o modelo gerar alucinações.
No entanto, o comprimento do texto não é sempre melhor quanto mais longo for. Estudos mostram que a utilização eficaz do conteúdo contextual pelo modelo é mais importante do que apenas buscar comprimento. Atualmente, a exploração da tecnologia de textos longos na indústria ainda continua, e 400 mil tokens podem ser apenas o começo.
O desenvolvimento da tecnologia de texto longo enfrenta o dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a alocação de atenção e as exigências computacionais. Isso se deve principalmente ao fato de que a complexidade computacional do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.
Para resolver este problema, os investigadores propuseram várias soluções de otimização:
Embora o processamento de textos longos continue a apresentar desafios, isso marca a entrada de grandes modelos em uma nova fase de desenvolvimento. No futuro, as empresas de grandes modelos buscarão o melhor equilíbrio entre o comprimento do texto, a alocação de atenção e as necessidades de capacidade computacional, a fim de alcançar uma capacidade de processamento de textos longos mais robusta.