Новая瓶颈 в развитии ИИ: в блокчейне данные открывают эпоху финансовизации данных

robot
Генерация тезисов в процессе

Новая瓶颈 в развитии ИИ: поставка и качество данных

С ростом масштабов искусственных интеллектов и вычислительных мощностей, одна ключевая проблема, которую игнорировали, постепенно выходит на поверхность — поставка данных. Следующий крупный вызов, с которым столкнется индустрия ИИ, больше не будет связан с архитектурой моделей или вычислительной мощностью чипов, а с тем, как преобразовать разрозненные данные о человеческом поведении в проверяемые, структурированные, дружественные к ИИ ресурсы. Это понимание не только раскрывает структурное противоречие в развитии ИИ, но и очерчивает совершенно новую картину эпохи "финансирования данных", в которой данные станут измеримым, торгуемым и добавляющим стоимость основным производственным фактором.

От соревнований по вычислительной мощности до нехватки данных: структурные противоречия в индустрии ИИ

Развитие ИИ на протяжении долгого времени управляется двойным двигателем "модель-вычислительная мощность". С момента революции глубокого обучения масштаб параметров модели увеличился с миллионов до триллионов, а потребность в вычислительной мощности возросла в геометрической прогрессии. Согласно статистике, стоимость обучения продвинутой большой языковой модели уже превышает 100 миллионов долларов, из которых 90% идет на аренду кластеров GPU. Однако, пока отрасль сосредоточена на "больших моделях" и "быстрых чипах", кризис со стороны поставок данных тихо надвигается.

"Органические данные", созданные человеком, достигли потолка роста. Например, в случае текстовых данных, общее количество качественных текстов, доступных в Интернете, составляет примерно 10^12 слов, в то время как для обучения модели с одним триллионом параметров требуется около 10^13 слов. Это означает, что существующий пул данных может поддерживать обучение только 10 моделей одинакового масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" данные, созданные ими самими, "загрязнение данных" приводит к ухудшению производительности моделей, что стало серьезной проблемой для отрасли.

Корень этого противоречия заключается в том, что индустрия ИИ долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", который нужно тщательно развивать. Модели и вычислительные мощности уже образовали зрелую рыночную систему, но производство, очистка, проверка и торговля данными все еще находятся в "исходном состоянии". Следующее десятилетие ИИ станет десятилетием "инфраструктуры данных", а данные на цепочке криптосетей станут ключом к решению этой проблемы.

Данные на блокчейне: "База данных человеческого поведения", необходимая AI

На фоне нехватки данных данные на блокчейне криптосетей демонстрируют уникальную ценность. В отличие от традиционных интернет-данных, данные на блокчейне обладают подлинностью "согласования стимулов" — каждая транзакция, каждое взаимодействие с контрактом, каждое действие адреса кошелька напрямую связано с реальным капиталом и не может быть изменено. Эти данные считаются "самыми концентрированными данными о человеческом согласовании стимулов в Интернете", что проявляется в трех измерениях:

  1. Реальные "сигналы намерений": данные на блокчейне фиксируют решения, принимаемые с использованием реальных денег, что напрямую отражает оценку пользователем ценности проекта, его склонность к риску и стратегию распределения средств. Такие данные, "подкрепленные капиталом", имеют очень высокую ценность для обучения способности принятия решений AI.

  2. Прослеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции, взаимодействующие протоколы и изменения активов одного адреса кошелька формируют последовательную "цепочку действий". Эти структурированные данные о поведении являются наиболее дефицитными "образцами человеческого мышления" для современных моделей ИИ.

  3. Открытая экосистема "без разрешений": в отличие от закрытости данных традиционных предприятий, данные в блокчейне открыты и не требуют разрешений. Любой разработчик может получить оригинальные данные через блокчейн-браузер или API данных, предоставляя "безбарьерный" источник данных для обучения моделей ИИ.

Однако открытость данных на блокчейне также представляет собой вызов: эти данные существуют в виде "журналов событий", являются неструктурированными "сырьевыми сигналами", которые необходимо очистить, стандартизировать и связать, чтобы их можно было использовать в моделях ИИ. В настоящее время "уровень структурированной трансформации" данных на блокчейне составляет менее 5%, и множество высоко ценимых сигналов теряются среди миллиардов фрагментированных событий.

Суперданные сети: "умная операционная система" для данных на блокчейне

Для решения проблемы фрагментации данных в блокчейне в отрасли было предложено понятие суперданных сети — «умной операционной системы в блокчейне», специально разработанной для ИИ. Ее основная цель — преобразовать разрозненные сигналы блокчейна в структурированные, проверяемые, совместимые в реальном времени данные, дружественные к ИИ. Эта система включает несколько ключевых компонентов:

  1. Открытые стандарты данных: унификация определения и описания данных в блокчейне, позволяющая моделям ИИ "понимать" бизнес-логику, стоящую за данными, и снижать трение в процессе разработки ИИ.

  2. Механизм проверки данных: обеспечение достоверности данных с помощью сети валидаторов блокчейна, решение проблемы доверия традиционной централизованной проверки данных.

  3. Уровень доступности данных с высокой пропускной способностью: оптимизируя алгоритмы сжатия данных и протоколы передачи, обеспечивается обработка сотен тысяч событий в блокчейне в реальном времени, удовлетворяющая требованиям приложений ИИ по низкой задержке и высокой пропускной способности.

Эпоха финансовизации данных: когда данные становятся торговым "капиталом"

Конечная цель суперсетевой данных заключается в том, чтобы продвинуть AI-индустрию в эпоху финансовизации данных — данные больше не являются пассивным "тренировочным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать его стоимость. Реализация этого видения зависит от преобразования данных в четыре основные характеристики:

  1. Структурирование: от "исходного сигнала" до "доступного актива"
  2. Комбинируемость: свобода комбинации данных в стиле "Лего".
  3. Проверяемый: "кредитное одобрение" данных
  4. Ликвидность: "реализация ценности" данных

В эту новую эпоху поставщики данных могут напрямую монетизировать структурированные данные, разработчики могут комбинировать различные источники данных для создания инновационных приложений, а пользователи могут получать прибыль, делясь анонимизированными ончейн-данными. Ценность данных будет определяться рыночным спросом и предложением, формируя совершенно новую экосистему "капитал данных".

Заключение: Данные революция, следующее десятилетие ИИ

Эволюция ИИ на самом деле является эволюцией инфраструктуры данных. От "ограниченности" данных, генерируемых человеком, до "обнаружения ценности" данных на блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченных" структурированных данных, от "бесплатного ресурса" данных до "капитальных активов" финансовизации данных, суперданные сети начинают переосмыслять базовую логику индустрии ИИ.

В эту новую эпоху данные станут мостом, соединяющим ИИ и реальный мир — торговые агенты воспринимают рыночные настроения через данные на блокчейне, автономные приложения оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход через совместное использование данных. Как электрическая сеть вызвала промышленную революцию, так и сеть вычислительных мощностей вызвала революцию в интернете, суперсеть данных сейчас порождает "революцию данных" в ИИ.

Приложения следующего поколения на основе ИИ требуют не только мощных моделей, но и надежной, программируемой, высококачественной поддержки данных. Когда данные наконец получат должную ценность, ИИ сможет по-настоящему раскрыть силу, способную изменить мир.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
MEVSupportGroupvip
· 9ч назад
Данные стали новой причиной для того, чтобы играть для лохов.
Посмотреть ОригиналОтветить0
MEVHunterZhangvip
· 9ч назад
Так долго磨了, снова вернулись к сбору данных.
Посмотреть ОригиналОтветить0
SerumSqueezervip
· 9ч назад
Данные снова пополнились неудачниками.
Посмотреть ОригиналОтветить0
LiquidityNinjavip
· 9ч назад
Нет данных, как играть, застрял.
Посмотреть ОригиналОтветить0
Hash_Banditvip
· 9ч назад
так же, как корректировка сложности майнинга... данные стали новым узким местом, честно говоря
Посмотреть ОригиналОтветить0
  • Закрепить