Nuevos cuellos de botella en el desarrollo de la IA: los datos en cadena abren la era de la financiarización de datos

robot
Generación de resúmenes en curso

Nuevos cuellos de botella en el desarrollo de la IA: suministro y calidad de datos

Con el rápido aumento de la escala de los modelos de inteligencia artificial y la capacidad de cálculo, un problema clave que ha sido ignorado está emergiendo gradualmente: el suministro de datos. El próximo gran desafío que enfrenta la industria de la IA ya no es la arquitectura del modelo o la potencia de cálculo de los chips, sino cómo convertir los datos de comportamiento humano dispersos en recursos verificables, estructurados y amigables con la IA. Esta percepción no solo revela las contradicciones estructurales en el desarrollo de la IA, sino que también esboza un panorama completamente nuevo de la "financiarización de datos", donde los datos se convertirán en un factor de producción central que es medible, negociable y que puede ser valorado.

De la competencia de potencia de cálculo a la escasez de datos: las contradicciones estructurales en la industria de la IA

El desarrollo de la IA ha sido impulsado durante mucho tiempo por el doble motor de "modelo-potencia de cálculo". Desde la revolución del aprendizaje profundo, la escala de parámetros del modelo ha pasado de millones a billones, y la demanda de potencia de cálculo ha crecido de manera exponencial. Según estadísticas, el costo de entrenar un modelo de lenguaje avanzado ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria se centra en "modelos más grandes" y "chips más rápidos", una crisis del lado de la oferta de datos está surgidiendo silenciosamente.

Los "datos orgánicos" generados por los humanos han alcanzado el techo de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad disponible públicamente en Internet es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere consumir datos en el nivel de aproximadamente 10^13 palabras. Esto significa que la piscina de datos existente solo puede soportar el entrenamiento de 10 modelos de igual escala. Lo más grave es que los datos duplicados y el contenido de baja calidad representan más del 60%, lo que comprime aún más la oferta de datos efectivos. Cuando el modelo comienza a "devorar" los datos que genera, la degradación del rendimiento del modelo debido a la "contaminación de datos" se ha convertido en una preocupación para la industria.

La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos" en lugar de "activos estratégicos" que requieren un cuidadoso cultivo. Los modelos y la potencia de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, verificación y transacción de datos aún se encuentran en un estado "primitivo". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en la cadena de la red de criptomonedas son la clave para desbloquear este dilema.

Datos en cadena: la "base de datos de comportamiento humano" que AI necesita urgentemente

En el contexto de la escasez de datos, los datos en cadena de las redes de criptomonedas muestran un valor único. En comparación con los datos del internet tradicional, los datos en cadena poseen de forma natural la veracidad de la "alineación de incentivos": cada transacción, cada interacción de contrato, cada comportamiento de dirección de billetera está directamente vinculado con el capital real y es inmutable. Estos datos se consideran como "los datos de comportamiento de alineación de incentivos humanos más concentrados en internet", que se reflejan en tres dimensiones:

  1. "Señales de intención" del mundo real: los datos en cadena registran el comportamiento de decisión votado con dinero real, reflejando directamente el juicio del usuario sobre el valor del proyecto, la preferencia de riesgo y la estrategia de asignación de fondos. Estos datos "avalados por capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.

  2. Cadena de "comportamiento" rastreable: La transparencia de la blockchain permite que el comportamiento del usuario sea completamente rastreable. El historial de transacciones, protocolos de interacción y cambios de activos de una dirección de billetera conforman una coherente "cadena de comportamiento". Estos datos de comportamiento estructurados son la "muestra de razonamiento humano" más escasa para los modelos de IA actuales.

  3. Acceso "sin permisos" en un ecosistema abierto: A diferencia de la cerradura de los datos de las empresas tradicionales, los datos en la cadena son abiertos y no requieren permisos. Cualquier desarrollador puede obtener datos originales a través de exploradores de blockchain o API de datos, proporcionando una fuente de datos "sin barreras" para el entrenamiento de modelos de IA.

Sin embargo, la apertura de los datos en cadena también ha traído desafíos: estos datos existen en forma de "registros de eventos", son "señales crudas" no estructuradas, que necesitan ser limpiadas, normalizadas y relacionadas para que puedan ser utilizadas por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas en miles de millones de eventos fragmentados.

Super Red de Datos: el "sistema operativo inteligente" de datos en la cadena

Para abordar el problema de la fragmentación de datos en la cadena, la industria ha propuesto el concepto de red de datos super, un "sistema operativo inteligente en cadena" diseñado específicamente para IA. Su objetivo central es transformar las señales en cadena dispersas en datos estructurados, verificables y amigables con la IA, que sean combinables en tiempo real. Este sistema incluye varios componentes clave:

  1. Estándares de datos abiertos: unificar la definición y la forma de descripción de los datos en la cadena, para que los modelos de IA puedan "comprender" directamente la lógica empresarial detrás de los datos, reduciendo el costo de fricción en el desarrollo de IA.

  2. Mecanismo de verificación de datos: asegurar la autenticidad de los datos a través de la red de validadores de blockchain, resolviendo el problema de confianza de la verificación de datos centralizada tradicional.

  3. Capa de disponibilidad de datos de alto rendimiento: a través de la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos en la cadena por segundo, satisfaciendo las demandas de datos de baja latencia y alto rendimiento de las aplicaciones de IA.

La era de la financiarización de los datos: cuando los datos se convierten en "capital" negociable

El objetivo final de la red de datos superpoderosa es impulsar a la industria de la IA hacia la era de la financiarización de los datos: los datos ya no son "material de entrenamiento" pasivo, sino "capital" activo, que puede ser valorado, negociado y valorizado. La realización de esta visión depende de la transformación de los datos en cuatro propiedades clave:

  1. Estructurado: de "señal original" a "activo utilizable"
  2. Combinable: la libertad de combinación de datos al estilo de "bloques de Lego"
  3. Verificable: "respaldo de crédito" de los datos
  4. Realizable: la "materialización del valor" de los datos

En esta nueva era, los proveedores de datos pueden monetizar datos estructurados directamente, los desarrolladores pueden combinar diferentes fuentes de datos para crear aplicaciones innovadoras, y los usuarios pueden obtener ingresos al compartir datos en la cadena de bloques de forma anónima. El valor de los datos será determinado por la oferta y la demanda del mercado, formando un ecosistema completamente nuevo de "capital de datos".

Conclusión: Revolución de datos, la próxima década de la IA

La evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "finidad" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en la cadena, desde la "desorden" de las señales fragmentadas hasta la "orden" de los datos estructurados, desde los "recursos gratuitos" de los datos hasta la "capitalización de activos" de la financiarización de datos, una superred de datos está reconfigurando la lógica subyacente de la industria de la IA.

En esta nueva era, los datos se convertirán en el puente que conecta la IA con el mundo real: los agentes de trading perciben el sentimiento del mercado a través de datos en la cadena, las aplicaciones autónomas optimizan sus servicios a través de datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos al compartir datos. Así como la red eléctrica dio lugar a la revolución industrial, la red de computación dio origen a la revolución de Internet, y la superred de datos está dando lugar a la "revolución de datos" de la IA.

Las aplicaciones nativas de IA de próxima generación no solo requieren modelos potentes, sino también soporte de datos confiables, programables y de alta calidad. Cuando los datos finalmente se valoren como se merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
0/400
AirdropHunter9000vip
· Hace21m
La potencia computacional para qué sirve, los datos son la clave.
Ver originalesResponder0
MEVSupportGroupvip
· hace18h
Los datos se han convertido en una nueva razón para tomar a la gente por tonta.
Ver originalesResponder0
MEVHunterZhangvip
· hace18h
Después de tanto tiempo, ¡volvemos a la recolección de datos!
Ver originalesResponder0
SerumSqueezervip
· hace18h
Datos con nuevos tontos.
Ver originalesResponder0
LiquidityNinjavip
· hace18h
¿Cómo jugar sin datos? Estancado.
Ver originalesResponder0
Hash_Banditvip
· hace18h
al igual que el ajuste de dificultad de minería... los datos son el nuevo cuello de botella fr fr
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)