Progrès spectaculaire des capacités des grands modèles en matière de textes longs : de 4000 à 400 000 tokens
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Le saut des 4000 tokens initiaux à aujourd'hui 400 000 tokens marque un progrès significatif de l'intelligence artificielle dans le traitement des informations complexes.
Au niveau international, OpenAI a augmenté la longueur d'entrée contextuelle du modèle GPT de 4 000 à 32 000 tokens grâce à plusieurs mises à jour. Dans le même temps, Anthropic a étendu la longueur du contexte à 100 000 tokens. LongLLaMA a même porté ce chiffre à 256 000 tokens, voire plus.
Dans le pays, la nouvelle entreprise de modèles avancés, le côté obscur de la lune, a lancé Kimi Chat, qui prend en charge l'entrée d'environ 400 000 tokens de texte. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut également étendre la longueur de texte du modèle 7B à 100 000 tokens.
Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche, y compris OpenAI, Anthropic, Meta et Moonlight, se concentrent sur l'extension de la longueur de contexte comme direction de développement clé. Ces entreprises sont généralement prisées par le marché des capitaux, avec des valorisations en hausse.
L'amélioration de la capacité de traitement des longs textes est d'une grande importance. Elle élargit non seulement le champ de lecture du modèle, des courts textes aux romans longs voire aux chefs-d'œuvre, mais elle favorise également l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. La technologie des longs textes contribue à améliorer la capacité d'extraction et d'analyse des informations, réduisant ainsi la possibilité que le modèle produise des hallucinations.
Cependant, la longueur du texte n'est pas nécessairement un indicateur de qualité. Des études montrent que l'utilisation efficace du contenu contextuel par le modèle est plus cruciale que la simple recherche de la longueur. Actuellement, l'exploration des technologies de long texte dans l'industrie se poursuit, 400 000 tokens n'est peut-être qu'un début.
Le développement des technologies de traitement de longs textes est confronté au dilemme des "trois impossibilités" : il est difficile de concilier la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul. Cela provient principalement du fait que la complexité de calcul du mécanisme d'attention auto dans la structure Transformer augmente de manière quadratique avec la longueur du contexte.
Pour résoudre ce problème, les chercheurs ont proposé diverses solutions d'optimisation:
Utiliser des outils externes pour aider à traiter de longs textes
Optimiser le calcul du mécanisme d'attention auto
Utiliser les méthodes d'optimisation de modèle
Bien que le traitement des longs textes pose encore des défis, cela marque une nouvelle étape de développement pour les grands modèles. À l'avenir, les entreprises de grands modèles chercheront à trouver le meilleur compromis entre la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul, afin d'atteindre une capacité de traitement de longs textes plus robuste.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
9 J'aime
Récompense
9
3
Reposter
Partager
Commentaire
0/400
BlockchainBouncer
· Il y a 5h
Cette vague va à la lune, canard.
Voir l'originalRépondre0
LayerZeroEnjoyer
· Il y a 5h
C'est vraiment un progrès rapide. L'année prochaine, on devrait atteindre un million.
Révolution des grands modèles : percée dans le traitement de longs textes de 4000 à 400000 tokens
Progrès spectaculaire des capacités des grands modèles en matière de textes longs : de 4000 à 400 000 tokens
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Le saut des 4000 tokens initiaux à aujourd'hui 400 000 tokens marque un progrès significatif de l'intelligence artificielle dans le traitement des informations complexes.
Au niveau international, OpenAI a augmenté la longueur d'entrée contextuelle du modèle GPT de 4 000 à 32 000 tokens grâce à plusieurs mises à jour. Dans le même temps, Anthropic a étendu la longueur du contexte à 100 000 tokens. LongLLaMA a même porté ce chiffre à 256 000 tokens, voire plus.
Dans le pays, la nouvelle entreprise de modèles avancés, le côté obscur de la lune, a lancé Kimi Chat, qui prend en charge l'entrée d'environ 400 000 tokens de texte. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut également étendre la longueur de texte du modèle 7B à 100 000 tokens.
Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche, y compris OpenAI, Anthropic, Meta et Moonlight, se concentrent sur l'extension de la longueur de contexte comme direction de développement clé. Ces entreprises sont généralement prisées par le marché des capitaux, avec des valorisations en hausse.
L'amélioration de la capacité de traitement des longs textes est d'une grande importance. Elle élargit non seulement le champ de lecture du modèle, des courts textes aux romans longs voire aux chefs-d'œuvre, mais elle favorise également l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. La technologie des longs textes contribue à améliorer la capacité d'extraction et d'analyse des informations, réduisant ainsi la possibilité que le modèle produise des hallucinations.
Cependant, la longueur du texte n'est pas nécessairement un indicateur de qualité. Des études montrent que l'utilisation efficace du contenu contextuel par le modèle est plus cruciale que la simple recherche de la longueur. Actuellement, l'exploration des technologies de long texte dans l'industrie se poursuit, 400 000 tokens n'est peut-être qu'un début.
Le développement des technologies de traitement de longs textes est confronté au dilemme des "trois impossibilités" : il est difficile de concilier la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul. Cela provient principalement du fait que la complexité de calcul du mécanisme d'attention auto dans la structure Transformer augmente de manière quadratique avec la longueur du contexte.
Pour résoudre ce problème, les chercheurs ont proposé diverses solutions d'optimisation:
Bien que le traitement des longs textes pose encore des défis, cela marque une nouvelle étape de développement pour les grands modèles. À l'avenir, les entreprises de grands modèles chercheront à trouver le meilleur compromis entre la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul, afin d'atteindre une capacité de traitement de longs textes plus robuste.