Dilemas y avances de la IA en Web3: exploración de la estrategia de rodear las ciudades desde el campo

Dilemas y direcciones futuras del desarrollo de Web3 AI

Las acciones de Nvidia alcanzan un nuevo máximo histórico, y los avances en modelos multimodales han profundizado aún más la barrera tecnológica de la IA en Web2. Desde la alineación semántica hasta la comprensión visual, desde incrustaciones de alta dimensión hasta fusión de características, los modelos complejos están integrando, a una velocidad sin precedentes, diversas formas de expresión, construyendo una fortaleza de IA cada vez más cerrada. El mercado de acciones de EE. UU. también ha respondido afirmativamente con acciones concretas, ya sea acciones relacionadas con criptomonedas o acciones de IA, todas han mostrado un pequeño mercado alcista.

Sin embargo, esta ola parece tener poca relación con el campo de las criptomonedas. Los recientes intentos en el ámbito de Web3 AI, especialmente en la exploración de la dirección de los Agentes, presentan una gran desviación en la dirección: intentar ensamblar un sistema modular multimodal al estilo Web2 con una estructura descentralizada es, en realidad, un desajuste tanto técnico como de pensamiento. En un contexto donde la acoplamiento de módulos es extremadamente fuerte, la distribución de características es altamente inestable y la demanda de poder computacional se concentra cada vez más, resulta difícil que la modularidad multimodal tenga un lugar en el entorno de Web3.

El futuro de la Web3 AI no radica en la simple imitación, sino en un rodeo estratégico. Desde la alineación semántica en espacios de alta dimensión, hasta el cuello de botella de información en mecanismos de atención, y la alineación de características bajo potencia de cómputo heterogénea, la Web3 AI necesita adoptar una estrategia táctica de "rodear las ciudades desde el campo".

Web3 AI basado en un modelo multimodal plano, la falta de alineación semántica causa un bajo rendimiento

En los sistemas multimodales de la moderna IA Web2, "alineación semántica" es el proceso de mapear información de diferentes modalidades en un mismo espacio semántico, permitiendo que el modelo entienda y compare los significados intrínsecos detrás de estas señales que originalmente son muy diferentes en forma. El espacio de incrustación de alta dimensión es clave para lograr este objetivo.

Sin embargo, el protocolo Web3 Agent es difícil de implementar en incrustaciones de alta dimensión. La mayoría de los Web3 Agents simplemente encapsulan API existentes en "Agentes" independientes, careciendo de un espacio de incrustación centralizado unificado y de un mecanismo de atención cruzada entre módulos. Esto provoca que la información no pueda interactuar de manera multidimensional y multinivel entre los módulos, funcionando únicamente como una línea de ensamblaje lineal, mostrando una única funcionalidad y sin poder formar una optimización de circuito cerrado integral.

Para lograr un agente inteligente de cadena completa con barreras de entrada en la industria, es necesario superar los cuellos de botella mediante modelado conjunto de extremo a extremo, incrustaciones unificadas entre módulos, así como ingeniería sistemática de entrenamiento y despliegue colaborativos. Sin embargo, el mercado actualmente no muestra tal demanda.

En un espacio de baja dimensión, el mecanismo de atención no se puede diseñar de manera precisa.

Los modelos multimodales de alto nivel requieren mecanismos de atención diseñados de manera precisa. El mecanismo de atención es esencialmente una forma de asignar dinámicamente los recursos computacionales, permitiendo que el modelo "se centre" selectivamente en las partes más relevantes al procesar una entrada de cierta modalidad.

La inteligencia artificial de Web2, al diseñar mecanismos de atención, tiene como idea central asignar dinámicamente "pesos de atención" a cada elemento al procesar secuencias, permitiendo que se concentre en la información más relevante. Este diseño combina de manera ingeniosa "interacción global" con "complejidad controlable".

Sin embargo, es difícil lograr una programación de atención unificada en la IA Web3 basada en módulos. En primer lugar, el mecanismo de atención depende de un espacio de Query-Key-Value unificado, mientras que los formatos de datos y distribuciones devueltos por las API independientes son diversos. En segundo lugar, la arquitectura modular de la IA Web3 carece de la capacidad de ponderación dinámica paralela y múltiple, lo que impide simular la programación detallada en el mecanismo de atención. Por último, hay una falta de contexto central compartido en tiempo real entre los módulos, lo que imposibilita la asociación y el enfoque global entre módulos.

La modularidad discontinua provoca que la fusión de características se quede en un ensamblaje estático superficial.

"Fusión de características" se refiere a la combinación adicional de vectores de características obtenidos de diferentes modalidades después de ser procesados, basándose en alineación y atención, para su uso directo en tareas posteriores. Web3 AI actualmente se encuentra en la etapa más simple de concatenación, ya que las condiciones previas para la fusión dinámica de características: el espacio de alta dimensión y un mecanismo de atención preciso, no pueden cumplirse.

La IA de Web2 tiende a un entrenamiento conjunto de extremo a extremo, procesando simultáneamente características multimodales en el mismo espacio de alta dimensión, optimizando de manera colaborativa junto con la capa de tareas descendentes a través de capas de atención y fusión. En comparación, la IA de Web3 adopta más el enfoque de ensamblaje de módulos discretos, careciendo de un objetivo de entrenamiento unificado y de flujo de gradiente entre módulos.

El proceso de fusión de características de Web2 AI incluye múltiples operaciones de interacción de alto orden, como la concatenación de vectores, la suma y la agrupación bilineal, que pueden capturar asociaciones complejas y profundas entre modalidades. Por otro lado, las salidas de los agentes de Web3 AI a menudo solo contienen unos pocos campos o indicadores clave, lo que resulta en una dimensión de características extremadamente baja, dificultando la expresión de información intermodal sutil.

Las barreras en la industria de la IA se profundizan, pero los puntos de dolor aún no se han manifestado

El sistema multimodal de IA Web2 es un proyecto de ingeniería extremadamente grande que requiere una gran cantidad de datos, un potente poder de cálculo, algoritmos avanzados y una implementación ingenieril compleja. Esto constituye una barrera industrial muy fuerte y también crea la ventaja competitiva central de unos pocos equipos líderes.

La IA Web3 debería adoptar una estrategia táctica de "rural rodeando la ciudad", probando en pequeñas escalas en escenarios marginales y asegurando una base sólida antes de esperar la aparición de escenarios centrales. La ventaja de la IA Web3 radica en su descentralización, siendo aplicable a estructuras ligeras, tareas que se pueden paralelizar y motivar, como el ajuste fino de LoRA, tareas de postentrenamiento de alineación de comportamiento, entrenamiento y etiquetado de datos a través de crowdfunding, entrenamiento de modelos básicos pequeños y entrenamiento colaborativo en dispositivos periféricos, entre otros.

Sin embargo, en esta etapa, las barreras de la IA Web2 apenas están comenzando a formarse, lo que representa una fase temprana de competencia entre las principales empresas. Solo cuando los beneficios de la IA Web2 se agoten por completo, los puntos débiles que deje serán la oportunidad para que la IA Web3 entre en juego. Antes de eso, los proyectos de IA Web3 necesitan elegir cuidadosamente sus puntos de entrada, asegurándose de poder iterar y actualizar sus productos en pequeños escenarios, y mantener suficiente flexibilidad para adaptarse a las cambiantes demandas del mercado.

AGENT-4.33%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
DogeBachelorvip
· 08-13 08:56
¡Eso es lo correcto! hhh
Ver originalesResponder0
SatoshiSherpavip
· 08-13 08:56
El mercado tecnológico solo toma a la gente por tonta.
Ver originalesResponder0
CryptoComedianvip
· 08-13 08:52
¡NVIDIA sube tanto que ni los tontos puedo comprar!
Ver originalesResponder0
TokenStormvip
· 08-13 08:41
Las pruebas en cadena son todas falsas.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)