La revolución de los grandes modelos: un avance en el procesamiento de textos largos de 4000 a 400,000 tokens

robot
Generación de resúmenes en curso

Gran avance en la capacidad de texto largo de los modelos grandes: de 4000 a 400,000 tokens

Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad asombrosa. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, este salto marca un avance significativo de la inteligencia artificial en el manejo de información compleja.

A nivel internacional, OpenAI ha aumentado la longitud de entrada de contexto del modelo GPT de 4 mil a 32 mil tokens en múltiples actualizaciones. Al mismo tiempo, Anthropic ha ampliado la longitud de contexto a 100 mil tokens. LongLLaMA incluso ha llevado este número a 256 mil tokens o más.

En el país, la compañía emergente de modelos grandes, Dark Side of the Moon, ha lanzado Kimi Chat, que admite la entrada de aproximadamente 400,000 tokens de texto. La tecnología LongLoRA, desarrollada en conjunto por la Universidad de Ciencia y Tecnología de Hong Kong y el MIT, también puede ampliar la longitud del texto del modelo de 7B a 100,000 tokens.

Actualmente, numerosas empresas y instituciones de investigación de modelos de gran escala, incluidos OpenAI, Anthropic, Meta y la Cara Oculta de la Luna, están enfocándose en expandir la longitud del contexto como una dirección clave de desarrollo. Estas empresas son generalmente favorecidas por el mercado de capitales, y sus valoraciones están en aumento.

La mejora de la capacidad de procesamiento de textos largos es de gran importancia. No solo amplía el rango de lectura del modelo, desde textos breves hasta novelas largas e incluso obras maestras, sino que también impulsa la aplicación de grandes modelos en campos profesionales como la finanza, el derecho y la investigación científica. La tecnología de textos largos ayuda a mejorar la capacidad de extracción y análisis de información, reduciendo la posibilidad de que el modelo genere alucinaciones.

Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que la utilización efectiva del contenido contextual por parte del modelo es más crucial que simplemente perseguir la longitud. Actualmente, la exploración de tecnologías de textos largos en la industria sigue en curso, 400,000 tokens pueden ser solo un comienzo.

El desarrollo de la tecnología de texto largo enfrenta la dificultad del "triángulo imposible": es difícil equilibrar la longitud del texto, la distribución de la atención y la demanda de potencia de cálculo. Esto se debe principalmente a que la complejidad computacional del mecanismo de autoatención en la estructura Transformer crece cuadráticamente con la longitud del contexto.

Para resolver este problema, los investigadores han propuesto varias soluciones de optimización:

  1. Utilizar herramientas externas para ayudar a procesar textos largos
  2. Optimización del cálculo del mecanismo de autoatención
  3. Utilizar métodos de optimización del modelo

A pesar de los desafíos que aún existen en el procesamiento de textos largos, esto marca una nueva etapa en el desarrollo de los grandes modelos. En el futuro, las empresas de grandes modelos buscarán el mejor equilibrio entre la longitud del texto, la distribución de la atención y las necesidades de potencia de cálculo para lograr una capacidad de procesamiento de textos largos más robusta.

TOKEN5.74%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • Republicar
  • Compartir
Comentar
0/400
BlockchainBouncervip
· hace5h
Esta ola va a la luna, pato
Ver originalesResponder0
LayerZeroEnjoyervip
· hace5h
¿Realmente has progresado tan rápido? El próximo año probablemente alcanzará el millón.
Ver originalesResponder0
SerumSqueezervip
· hace5h
¿Otra vez va a haber token?
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)