La competencia de textos largos de grandes modelos se actualiza, 400,000 tokens podrían convertirse en un nuevo punto de partida.

robot
Generación de resúmenes en curso

Los fabricantes de grandes modelos inician una competencia tecnológica de texto largo, 400,000 tokens podrían ser solo el comienzo

Los grandes modelos están ampliando su capacidad para procesar textos largos a una velocidad sorprendente. Desde 4000 hasta 400,000 tokens, la mejora en esta capacidad es "visible a simple vista".

La capacidad de procesamiento de textos largos parece haberse convertido en un nuevo estándar para los fabricantes de grandes modelos. A nivel internacional, OpenAI ha mejorado varias veces la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente. Su principal competidor, Anthropic, ha ampliado la longitud del contexto a 100,000 tokens. LongLLaMA ha llevado este número a 256,000 tokens e incluso más.

En el ámbito nacional, Kimi Chat, lanzado por la startup de grandes modelos La Cara Oculta de la Luna, puede soportar la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede expandir la longitud del texto de un modelo de 7B a 100,000 tokens, mientras que un modelo de 70B alcanza los 32,000 tokens.

Actualmente, varias de las principales empresas de modelos grandes y instituciones de investigación, incluyendo OpenAI, Anthropic, Meta y la Cara Oculta de la Luna, están enfocándose en expandir la longitud del contexto como una dirección clave de actualización. Estas empresas son sin excepción favorecidas por el mercado de capitales.

OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones; la última valoración de Anthropic podría alcanzar los 30 mil millones de dólares; la valoración de Dark Side of the Moon, que se fundó hace solo seis meses, ya ha superado los 300 millones de dólares y ha completado financiamiento de casi 2 mil millones de yuanes.

¿Por qué las empresas de modelos grandes prestan tanta atención a la tecnología de texto largo? ¿Qué significa expandir la longitud del contexto 100 veces?

A simple vista, esto significa que el modelo puede manejar entradas de texto más largas, mejorando significativamente su capacidad de lectura. Pero el significado más profundo radica en que la tecnología de texto largo está impulsando la implementación de modelos grandes en campos profesionales como las finanzas, la justicia y la investigación científica. Las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son precisamente las direcciones en las que estos campos necesitan una actualización inteligente.

Sin embargo, al igual que con los parámetros del modelo, la longitud del texto no siempre es mejor cuanto más larga sea. La investigación muestra que no se puede establecer una relación directa entre el soporte del modelo para entradas de contexto más largas y la mejora en los resultados. La clave está en cómo el modelo utiliza efectivamente el contenido del contexto.

Actualmente, la exploración de la longitud del texto en la industria aún no ha alcanzado su límite. 400,000 tokens pueden ser solo un comienzo, ya que las compañías de grandes modelos tanto nacionales como internacionales continúan superando esta frontera.

¿Por qué "enrollar" texto largo?

El fundador de la cara oculta de la luna, Yang Zhilin, afirmó que la limitación en la longitud de entrada de los grandes modelos es la causa de muchas dificultades en la implementación de aplicaciones. Esta también es la razón por la cual muchas empresas de grandes modelos se están enfocando actualmente en la tecnología de textos largos.

Por ejemplo, en escenarios de personajes virtuales, debido a la falta de capacidad para manejar textos largos, los personajes olvidan información importante; al desarrollar juegos de asesinato en guiones, la longitud de entrada insuficiente provoca que solo se puedan reducir las reglas y configuraciones; en campos especializados como el derecho y las finanzas, el análisis y la generación de contenido profundo a menudo se ven frustrados.

En el camino hacia aplicaciones nativas de Agent y AI del futuro, el texto largo sigue desempeñando un papel importante. Las tareas de Agent requieren apoyarse en información histórica para la toma de decisiones y las aplicaciones nativas de AI necesitan contexto para mantener una experiencia de usuario coherente y personalizada.

Yang Zhilin sostiene que el límite de los grandes modelos está determinado conjuntamente por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso es proporcional a la cantidad de parámetros, y el número de pasos de ejecución se refiere a la longitud del contexto.

La tecnología de texto largo no solo puede resolver algunos de los problemas criticados en las primeras etapas de los grandes modelos y mejorar ciertas funciones, sino que también es una tecnología clave para avanzar en la implementación de la industria y las aplicaciones. Esto también indica, de manera indirecta, que los grandes modelos generales están entrando en una nueva etapa, de LLM a Long LLM.

A través de Kimi Chat, lanzado en la cara oculta de la luna, podemos echar un vistazo a las funciones de actualización del modelo a gran escala de la fase Long LLM:

Primero está la capacidad de extraer, resumir y analizar información clave de textos extremadamente largos. Por ejemplo, analizar rápidamente el contenido general de un artículo de WeChat, extraer información clave de informes financieros y presentarla en forma de tabla, o realizar preguntas y respuestas sobre un libro completo.

En términos de código, se puede realizar la conversión directa de texto a código, e incluso reproducir el proceso de generación de código según el artículo.

En escenarios de diálogo largos, los robots de diálogo pueden realizar interpretación de roles, mediante la entrada de corpus de personajes públicos, estableciendo el tono y la personalidad, logrando un diálogo uno a uno con personajes específicos.

Estos ejemplos indican que los chatbots están avanzando hacia la especialización, personalización y profundización, lo cual podría ser otra palanca para impulsar la implementación en la industria y crear superaplicaciones.

Yang Zhilin cree que, a diferencia de OpenAI que solo ofrece un producto, ChatGPT, la cara oscura de la luna apunta a la próxima super APP para consumidores: utilizando tecnología de texto largo como punto de partida, se derivarán múltiples aplicaciones a partir de un modelo general básico.

Él juzga que el mercado nacional de modelos grandes se dividirá en dos campos: toB y toC, y en el campo toC aparecerán superaplicaciones basadas en modelos desarrollados internamente.

El dilema del "triángulo imposible" en textos largos

En el ámbito de los textos largos, existe el "triángulo imposible" de la longitud del texto, la atención y la potencia de cálculo. Esto se manifiesta de la siguiente manera: cuanto más largo es el texto, más difícil es concentrar la atención suficiente; con la atención limitada, los textos cortos no pueden interpretar completamente la información compleja; procesar textos largos requiere una gran cantidad de potencia de cálculo, aumentando los costos.

La raíz de este dilema radica en que los modelos grandes existentes se basan principalmente en la estructura Transformer. Aunque el mecanismo de autoatención en esta estructura permite que el modelo supere las limitaciones del orden de la información de entrada, la carga computacional aumenta cuadráticamente con la longitud del contexto.

Esto constituye el primer conjunto de contradicciones en el "triángulo imposible" - la longitud del texto y la atención, y también explica fundamentalmente la razón por la cual las técnicas de texto largo en modelos grandes son difíciles de superar.

Al mismo tiempo, la capacidad de cómputo ha sido un recurso escaso. Ya sea para expandir los parámetros del modelo o la longitud del texto, siempre se debe sopesar el consumo de capacidad de cómputo. Esto ha formado un segundo conjunto de contradicciones entre la longitud del texto y la capacidad de cómputo.

Actualmente hay tres soluciones principales:

  1. Utilizar herramientas externas para ayudar a procesar textos largos, como dividir un texto largo en varios textos cortos.

  2. Optimizar el cálculo del mecanismo de autoatención, como la tecnología LongLoRA que divide textos largos en diferentes grupos para su cálculo.

  3. Optimizar el modelo, como LongLLaMA que logra la extrapolación a secuencias más largas a través de un ajuste fino.

El dilema del "triángulo imposible" en textos largos puede ser difícil de resolver por completo en el corto plazo, pero también deja claro el camino de exploración para los fabricantes de modelos grandes: buscar el mejor punto de equilibrio entre la longitud del texto, la atención y el costo computacional, que pueda manejar suficiente información y, al mismo tiempo, tener en cuenta las limitaciones de cálculo de atención y costo computacional.

TOKEN6.83%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Republicar
  • Compartir
Comentar
0/400
Rekt_Recoveryvip
· hace2h
alcista en las ganancias del token... desearía que mi portafolio pudiera pump como estos números fr fr
Ver originalesResponder0
ForkTroopervip
· 08-11 05:57
¡El rendimiento de la envoltura no para! ¿Cuándo podremos envolver hasta el nivel de un millón?
Ver originalesResponder0
rugged_againvip
· 08-11 04:18
Los jugadores continúan girando, el partido de tokens seguramente ganará.
Ver originalesResponder0
OnchainDetectivevip
· 08-09 23:45
Jeje, la competencia técnica parece amistosa, pero detrás de ella claramente hay una cadena de blanqueo de capital de potencia computacional, un típico enfrentamiento de quema de dinero.
Ver originalesResponder0
ApeWithAPlanvip
· 08-09 23:42
¿Qué sentido tiene otra competencia de apilamiento de números?
Ver originalesResponder0
RugPullProphetvip
· 08-09 23:34
¿No puede aguantar esta ola la pequeña fábrica?
Ver originalesResponder0
AirdropFreedomvip
· 08-09 23:32
Pequeñas ganancias de 50 mil dólares~ no son tontos, son mineros. Desde que empecé a jugar hasta ahora, siempre persiguiendo las ganancias.

Generar comentarios en el idioma especificado: chino

No quiero correr tras el token, es una carrera que nunca alcanzaré~
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)