Web3 AI Dilemas e Quebras: Exploração da Estratégia de Cercar as Cidades a Partir do Campo

Dificuldades no desenvolvimento da Web3 AI e direções futuras

As ações da Nvidia atingem um novo recorde, o avanço dos modelos multimodais aprofunda ainda mais a barreira tecnológica da IA Web2. Desde o alinhamento semântico até a compreensão visual, desde a incorporação de alta dimensão até a fusão de características, modelos complexos estão integrando, a uma velocidade sem precedentes, várias formas de expressão, construindo uma fortaleza de IA cada vez mais fechada. O mercado de ações dos EUA também reconheceu isso com ações concretas, tanto as ações relacionadas a criptomoedas quanto as ações de IA estão apresentando um pequeno mercado em alta.

No entanto, essa onda parece ter pouca relação com o campo das criptomoedas. As tentativas recentes no campo da IA Web3, especialmente na exploração da direção de Agentes, apresentam um desvio significativo: tentar montar um sistema modular multimodal no estilo Web2 usando uma estrutura descentralizada é, de fato, um desalinhamento tanto técnico quanto conceitual. Com a forte acoplabilidade dos módulos, a distribuição de características altamente instável e a necessidade de poder computacional cada vez mais concentrada, a modularidade multimodal tem dificuldade em se estabelecer no ambiente Web3.

O futuro da Web3 AI não está na simples imitação, mas sim na estratégia de contorno. Desde o alinhamento semântico em espaços de alta dimensão, passando pelo gargalo de informação nos mecanismos de atenção, até o alinhamento de características sob poder computacional heterogêneo, a Web3 AI precisa adotar a estratégia tática de " cercar as cidades a partir do campo".

Web3 AI baseado em um modelo multimodal plano, a desalinhar semântica leva a um desempenho reduzido

No sistema multimodal da Web2 AI moderna, "alinhamento semântico" é o processo de mapear informações de diferentes modalidades para o mesmo espaço semântico, permitindo que o modelo compreenda e compare os significados subjacentes de sinais originalmente diferentes em forma. O espaço de incorporação de alta dimensão é a chave para alcançar este objetivo.

No entanto, o protocolo Web3 Agent é difícil de implementar embeddings de alta dimensão. A maioria dos Web3 Agents é simplesmente a encapsulação de APIs prontas em "Agents" independentes, faltando um espaço de embedding central unificado e um mecanismo de atenção intermodal. Isso leva a que a informação não possa interagir de forma multifacetada e em múltiplos níveis entre os módulos, funcionando apenas como um pipeline linear, exibindo uma única funcionalidade, sem conseguir formar uma otimização de ciclo fechado global.

Para realizar um agente inteligente de cadeia completa com barreiras de entrada na indústria, é necessário um modelo conjunto de ponta a ponta, uma incorporação unificada entre módulos e uma engenharia sistemática de treinamento e implantação colaborativos para superar os gargalos. Mas atualmente, o mercado não apresentou tal demanda.

No espaço de baixa dimensão, o mecanismo de atenção não pode ser projetado de forma precisa

Modelos multimodais de alto nível requerem mecanismos de atenção projetados com precisão. O mecanismo de atenção é essencialmente uma forma de alocar dinamicamente os recursos computacionais, permitindo que o modelo "foque" seletivamente nas partes mais relevantes ao processar uma entrada de determinada modalidade.

A IA do Web2, ao projetar mecanismos de atenção, tem como ideia central, ao processar sequências, alocar dinamicamente "pesos de atenção" a cada elemento, permitindo que se concentre nas informações mais relevantes. Este design combina habilmente "interação global" com "complexidade controlada".

No entanto, a Web3 AI baseada em módulos tem dificuldade em implementar um agendamento de atenção unificado. Primeiro, o mecanismo de atenção depende de um espaço de Query-Key-Value unificado, enquanto os formatos e distribuições de dados retornados pelas APIs independentes variam. Em segundo lugar, a arquitetura modular da Web3 AI carece da capacidade de ponderação dinâmica paralela e multi-caminho, não conseguindo simular o agendamento fino no mecanismo de atenção. Por último, falta um contexto central compartilhado em tempo real entre os módulos, impedindo a realização de associações e focos globais entre módulos.

A modularização discreta leva a uma fusão de características que permanece em uma junção estática superficial.

"Fusão de características" é a combinação adicional de vetores de características obtidos após o processamento de diferentes modalidades, com base em alinhamento e atenção, para uso direto em tarefas posteriores. A Web3 AI atualmente está no estágio mais simples de concatenação, uma vez que as condições prévias para a fusão dinâmica de características – espaço de alta dimensão e mecanismos de atenção precisos – não podem ser atendidas.

A IA do Web2 tende a treinar de forma conjunta e de ponta a ponta, processando simultaneamente características multimodais em um mesmo espaço de alta dimensão, otimizando em conjunto com a camada de tarefas subsequentes através de camadas de atenção e fusão. Em contraste, a IA do Web3 adota mais a abordagem de montagem de módulos discretos, carecendo de um objetivo de treinamento unificado e de fluxo de gradiente entre os módulos.

O processo de fusão de características da IA Web2 inclui várias operações de interação de alta ordem, como concatenação de vetores, adição e pooling bilinear, que conseguem capturar associações complexas e profundas entre diferentes modalidades. Por outro lado, as saídas dos agentes da IA Web3 costumam conter apenas alguns campos ou indicadores chave, resultando em uma dimensão de características extremamente baixa, tornando difícil a expressão de informações intermodais sutis.

Barreiras da indústria de IA se aprofundam, mas os pontos de dor ainda não se manifestaram

O sistema multimodal de IA do Web2 é um projeto de engenharia extremamente grande, que requer uma enorme quantidade de dados, poder computacional robusto, algoritmos avançados e implementações de engenharia complexas. Isso cria barreiras industriais muito fortes e também forma a vantagem competitiva central de algumas equipes líderes.

A IA Web3 deve adotar a estratégia tática de "cercar as cidades a partir do campo", testando em pequena escala em cenários periféricos, garantindo uma base sólida antes de esperar pela emergência de cenários centrais. A vantagem da IA Web3 reside na descentralização, sendo adequada para estruturas leves, tarefas que podem ser paralelizadas e incentivadas, como ajuste fino LoRA, tarefas de pós-treinamento de alinhamento de comportamento, treinamento e rotulagem de dados crowdsourced, treinamento de pequenos modelos básicos e treinamento colaborativo em dispositivos de borda.

No entanto, neste estágio, as barreiras da IA Web2 estão apenas começando a se formar, sendo esta a fase inicial da competição entre as principais empresas. Apenas quando os benefícios da IA Web2 desaparecerem quase completamente, os pontos problemáticos que restarem serão a oportunidade para a IA Web3. Até lá, os projetos de IA Web3 precisam escolher cuidadosamente seus pontos de entrada, garantindo que possam iterar e atualizar seus produtos continuamente em pequenos cenários, e manter flexibilidade suficiente para se adaptar às demandas de mercado em constante mudança.

AGENT-4.53%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Repostar
  • Compartilhar
Comentário
0/400
DogeBachelorvip
· 08-13 08:56
É isso mesmo, hhh
Ver originalResponder0
SatoshiSherpavip
· 08-13 08:56
O mercado tecnológico é só fazer as pessoas de parvas.
Ver originalResponder0
CryptoComedianvip
· 08-13 08:52
A NVIDIA subiu tanto que eu não consigo nem comprar idiotas!
Ver originalResponder0
TokenStormvip
· 08-13 08:41
na cadeia o backtest é tudo falso
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)