Révolution des grands modèles : percée dans le traitement de longs textes de 4000 à 400000 tokens

robot
Création du résumé en cours

Progrès spectaculaire des capacités des grands modèles en matière de textes longs : de 4000 à 400 000 tokens

Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Le saut des 4000 tokens initiaux à aujourd'hui 400 000 tokens marque un progrès significatif de l'intelligence artificielle dans le traitement des informations complexes.

Au niveau international, OpenAI a augmenté la longueur d'entrée contextuelle du modèle GPT de 4 000 à 32 000 tokens grâce à plusieurs mises à jour. Dans le même temps, Anthropic a étendu la longueur du contexte à 100 000 tokens. LongLLaMA a même porté ce chiffre à 256 000 tokens, voire plus.

Dans le pays, la nouvelle entreprise de modèles avancés, le côté obscur de la lune, a lancé Kimi Chat, qui prend en charge l'entrée d'environ 400 000 tokens de texte. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut également étendre la longueur de texte du modèle 7B à 100 000 tokens.

Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche, y compris OpenAI, Anthropic, Meta et Moonlight, se concentrent sur l'extension de la longueur de contexte comme direction de développement clé. Ces entreprises sont généralement prisées par le marché des capitaux, avec des valorisations en hausse.

L'amélioration de la capacité de traitement des longs textes est d'une grande importance. Elle élargit non seulement le champ de lecture du modèle, des courts textes aux romans longs voire aux chefs-d'œuvre, mais elle favorise également l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. La technologie des longs textes contribue à améliorer la capacité d'extraction et d'analyse des informations, réduisant ainsi la possibilité que le modèle produise des hallucinations.

Cependant, la longueur du texte n'est pas nécessairement un indicateur de qualité. Des études montrent que l'utilisation efficace du contenu contextuel par le modèle est plus cruciale que la simple recherche de la longueur. Actuellement, l'exploration des technologies de long texte dans l'industrie se poursuit, 400 000 tokens n'est peut-être qu'un début.

Le développement des technologies de traitement de longs textes est confronté au dilemme des "trois impossibilités" : il est difficile de concilier la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul. Cela provient principalement du fait que la complexité de calcul du mécanisme d'attention auto dans la structure Transformer augmente de manière quadratique avec la longueur du contexte.

Pour résoudre ce problème, les chercheurs ont proposé diverses solutions d'optimisation:

  1. Utiliser des outils externes pour aider à traiter de longs textes
  2. Optimiser le calcul du mécanisme d'attention auto
  3. Utiliser les méthodes d'optimisation de modèle

Bien que le traitement des longs textes pose encore des défis, cela marque une nouvelle étape de développement pour les grands modèles. À l'avenir, les entreprises de grands modèles chercheront à trouver le meilleur compromis entre la longueur du texte, la répartition de l'attention et les besoins en puissance de calcul, afin d'atteindre une capacité de traitement de longs textes plus robuste.

TOKEN5.74%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • Reposter
  • Partager
Commentaire
0/400
BlockchainBouncervip
· Il y a 5h
Cette vague va à la lune, canard.
Voir l'originalRépondre0
LayerZeroEnjoyervip
· Il y a 5h
C'est vraiment un progrès rapide. L'année prochaine, on devrait atteindre un million.
Voir l'originalRépondre0
SerumSqueezervip
· Il y a 5h
On va encore faire des tokens ?
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)