Зі швидким зростанням масштабів моделей штучного інтелекту та обчислювальної потужності, одне ключове питання, яке було проігнороване, поступово виходить на поверхню — постачання даних. Наступним великим викликом, з яким стикається індустрія ШІ, є не архітектура моделі чи обчислювальна потужність чіпів, а те, як перетворити розрізнені дані про людську поведінку на перевірні, структуровані, дружні до ШІ ресурси. Це усвідомлення не тільки виявляє структурні суперечності розвитку ШІ, але й окреслює зовсім нову епоху "фінансування даних", в якій дані стануть вимірювальним, торгованим і таким, що може приносити додаткову вартість, основним виробничим фактором.
Від конкуренції потужності до нестачі даних: структурні суперечності в галузі ШІ
Розвиток штучного інтелекту довгий час спирався на двоє рушіїв: "модель-обчислювальна потужність". З моменту революції глибокого навчання обсяг параметрів моделей зріс з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. За статистикою, витрати на навчання одного передового великого мовного моделю перевищили 100 мільйонів доларів, з яких 90% йдуть на оренду GPU-кластерів. Однак, коли галузь зосереджується на "більших моделях" та "швидших чіпах", криза на стороні постачання даних тихо наближається.
Створені людьми "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальна кількість високоякісних текстів, доступних в Інтернеті, становить приблизно 10^12 слів, тоді як для навчання моделі з 100 мільярдами параметрів потрібно близько 10^13 слів. Це означає, що існуючий пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще гірше, частка повторних даних та низькоякісного контенту перевищує 60%, що ще більше стискає постачання ефективних даних. Коли модель починає "поглинати" дані, які вона сама генерує, "забруднення даних" призводить до зниження продуктивності моделі, що стало тривожним сигналом для галузі.
Цей конфлікт має своїм корінням те, що індустрія ШІ протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного виховання. Моделі та обчислювальна потужність вже створили зрілу ринкову систему, але виробництво, очищення, верифікація та торгівля даними все ще перебувають у "первісному стані". Наступні десять років для ШІ стануть десятиліттям "інфраструктури даних", а дані на блокчейні криптосетей є ключем до вирішення цієї проблеми.
Данні на блокчейні: "База даних людської поведінки", необхідна для ШІ
На фоні нестачі даних, онлайнові дані криптовалютних мереж демонструють унікальну цінність. У порівнянні з традиційними даними Інтернету, онлайнові дані природно мають "істинність стимулів" — кожна транзакція, кожна взаємодія з контрактом, кожна дія адреси гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані вважаються "найконцентрованішими даними про поведінку людських стимулів на Інтернеті", що проявляється в трьох вимірах:
Реальні "сигнали намірів": дані на блокчейні записують рішення, прийняті за допомогою справжніх грошей, які безпосередньо відображають оцінку користувачем вартості проекту, ризикові переваги та стратегії розподілу капіталу. Ці дані, які "підтверджені капіталом", мають високу цінність для навчання рішень штучного інтелекту.
Можливість відстеження "ланцюгів поведінки": прозорість блокчейну дозволяє повністю відстежувати дії користувачів. Історія транзакцій, протоколи взаємодії та зміни активів одного гаманця складають узгоджений "ланцюг поведінки". Ці структуровані дані про поведінку є найдефіцитнішими "зразками людського міркування" для сучасних AI-моделей.
Відкритий екосистеми "бездозвільний доступ": на відміну від закритості даних традиційних підприємств, дані на блокчейні є відкритими та не потребують дозволу. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання AI-моделей.
Однак відкритість даних на блокчейні також приносить виклики: ці дані існують у формі "журналів подій", є неструктурованими "сигналами", які потрібно очистити, стандартизувати та пов'язати, щоб їх могли використовувати моделі ШІ. На сьогоднішній день "структурована конверсія" даних на блокчейні становить менше 5%, велика кількість цінних сигналів прихована серед мільярдів фрагментованих подій.
Супердані мережа: "інтелектуальна операційна система" для даних на блокчейні
Щоб вирішити проблему фрагментації даних в блокчейні, галузь запропонувала концепцію суперданих-мережі — "інтелектуальної операційної системи на блокчейні", спеціально розробленої для ШІ. Її основна мета полягає в перетворенні розрізнених сигналів блокчейну на структуровані, перевіряються, в реальному часі комбіновані дані, дружні до ШІ. Ця система містить кілька ключових компонентів:
Відкритий стандарт даних: єдина дефініція та опис способу даних на блокчейні, що дозволяє AI моделям безпосередньо "розуміти" бізнес-логіку, що стоїть за даними, знижуючи витрати на розробку AI.
Механізм верифікації даних: забезпечення достовірності даних за допомогою мережі валідаторів блокчейну, вирішення проблеми довіри традиційної централізованої верифікації даних.
Високопродуктивний рівень доступності даних: шляхом оптимізації алгоритмів стиснення даних та протоколів передачі, досягається обробка сотень тисяч онлайнових подій за секунду в реальному часі, що відповідає вимогам AI-застосунків щодо низької затримки та високої пропускної здатності.
Ера фінансової даних: коли дані стають торгівельним "капіталом"
Кінцевою метою супермережі даних є сприяння переходу індустрії штучного інтелекту в еру фіналізації даних — дані більше не є пасивним "матеріалом для навчання", а є активним "капіталом", який може бути оцінений, обмінюваний, підвищений у вартості. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структурованість: від "початкового сигналу" до "корисного активу"
Комбінований: "Лего"-стиль свободи комбінацій даних
Можливість перевірки: "кредитна підтримка" даних
Реалізація: "реалізація вартості" даних
У цю нову еру постачальники даних можуть монетизувати структуровані дані безпосередньо, розробники можуть комбінувати різні джерела даних для створення інноваційних застосунків, користувачі можуть отримувати дохід, ділячись анонімними даними в ланцюзі. Цінність даних буде визначатися ринковим попитом і пропозицією, утворюючи абсолютно нову екосистему "капіталу даних".
Висновок: Революція даних, наступні десять років AI
Еволюція ШІ насправді є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людьми, до "виявлення вартості" даних на блокчейні, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" фіналізації даних, супермережа даних радикально змінює базову логіку індустрії ШІ.
У цю нову еру дані стануть мостом, що з'єднує ШІ з реальним світом — торгові агенти за допомогою даних на блокчейні сприймають ринкові настрої, автономні додатки оптимізують послуги за допомогою даних про поведінку користувачів, а звичайні користувачі отримують безперервний дохід, ділячись даними. Як електрична мережа стала каталізатором промислової революції, мережа обчислювальної потужності стала каталізатором інтернет-революції, так і супермережа даних стає каталізатором "революції даних" в ШІ.
Наступне покоління нативних додатків штучного інтелекту потребує не лише потужних моделей, але й надійної, програмованої, високоякісної підтримки даних. Коли дані нарешті отримають належну цінність, штучний інтелект зможе справді звільнити силу, що змінює світ.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
6 лайків
Нагородити
6
6
Репост
Поділіться
Прокоментувати
0/400
AirdropHunter9000
· 12год тому
Обчислювальна потужність на що потрібна, дані - це корінь життя.
Переглянути оригіналвідповісти на0
MEVSupportGroup
· 08-16 16:58
Дані стали новим обманом для дурнів.
Переглянути оригіналвідповісти на0
MEVHunterZhang
· 08-16 16:55
Мололи так довго, знову повернулися до збору даних!
Переглянути оригіналвідповісти на0
SerumSqueezer
· 08-16 16:48
Дані знову з новими невдахами.
Переглянути оригіналвідповісти на0
LiquidityNinja
· 08-16 16:44
Як грати без даних, затискаючи?
Переглянути оригіналвідповісти на0
Hash_Bandit
· 08-16 16:36
так само як і коригування складності видобутку... дані - нове вузьке місце насправді
Новий бар'єр у розвитку ШІ: дані у блокчейні відкривають епоху фіналізації даних
Новий瓶颈 розвитку ШІ: постачання та якість даних
Зі швидким зростанням масштабів моделей штучного інтелекту та обчислювальної потужності, одне ключове питання, яке було проігнороване, поступово виходить на поверхню — постачання даних. Наступним великим викликом, з яким стикається індустрія ШІ, є не архітектура моделі чи обчислювальна потужність чіпів, а те, як перетворити розрізнені дані про людську поведінку на перевірні, структуровані, дружні до ШІ ресурси. Це усвідомлення не тільки виявляє структурні суперечності розвитку ШІ, але й окреслює зовсім нову епоху "фінансування даних", в якій дані стануть вимірювальним, торгованим і таким, що може приносити додаткову вартість, основним виробничим фактором.
Від конкуренції потужності до нестачі даних: структурні суперечності в галузі ШІ
Розвиток штучного інтелекту довгий час спирався на двоє рушіїв: "модель-обчислювальна потужність". З моменту революції глибокого навчання обсяг параметрів моделей зріс з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. За статистикою, витрати на навчання одного передового великого мовного моделю перевищили 100 мільйонів доларів, з яких 90% йдуть на оренду GPU-кластерів. Однак, коли галузь зосереджується на "більших моделях" та "швидших чіпах", криза на стороні постачання даних тихо наближається.
Створені людьми "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальна кількість високоякісних текстів, доступних в Інтернеті, становить приблизно 10^12 слів, тоді як для навчання моделі з 100 мільярдами параметрів потрібно близько 10^13 слів. Це означає, що існуючий пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще гірше, частка повторних даних та низькоякісного контенту перевищує 60%, що ще більше стискає постачання ефективних даних. Коли модель починає "поглинати" дані, які вона сама генерує, "забруднення даних" призводить до зниження продуктивності моделі, що стало тривожним сигналом для галузі.
Цей конфлікт має своїм корінням те, що індустрія ШІ протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного виховання. Моделі та обчислювальна потужність вже створили зрілу ринкову систему, але виробництво, очищення, верифікація та торгівля даними все ще перебувають у "первісному стані". Наступні десять років для ШІ стануть десятиліттям "інфраструктури даних", а дані на блокчейні криптосетей є ключем до вирішення цієї проблеми.
Данні на блокчейні: "База даних людської поведінки", необхідна для ШІ
На фоні нестачі даних, онлайнові дані криптовалютних мереж демонструють унікальну цінність. У порівнянні з традиційними даними Інтернету, онлайнові дані природно мають "істинність стимулів" — кожна транзакція, кожна взаємодія з контрактом, кожна дія адреси гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані вважаються "найконцентрованішими даними про поведінку людських стимулів на Інтернеті", що проявляється в трьох вимірах:
Реальні "сигнали намірів": дані на блокчейні записують рішення, прийняті за допомогою справжніх грошей, які безпосередньо відображають оцінку користувачем вартості проекту, ризикові переваги та стратегії розподілу капіталу. Ці дані, які "підтверджені капіталом", мають високу цінність для навчання рішень штучного інтелекту.
Можливість відстеження "ланцюгів поведінки": прозорість блокчейну дозволяє повністю відстежувати дії користувачів. Історія транзакцій, протоколи взаємодії та зміни активів одного гаманця складають узгоджений "ланцюг поведінки". Ці структуровані дані про поведінку є найдефіцитнішими "зразками людського міркування" для сучасних AI-моделей.
Відкритий екосистеми "бездозвільний доступ": на відміну від закритості даних традиційних підприємств, дані на блокчейні є відкритими та не потребують дозволу. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що забезпечує "безбар'єрне" джерело даних для навчання AI-моделей.
Однак відкритість даних на блокчейні також приносить виклики: ці дані існують у формі "журналів подій", є неструктурованими "сигналами", які потрібно очистити, стандартизувати та пов'язати, щоб їх могли використовувати моделі ШІ. На сьогоднішній день "структурована конверсія" даних на блокчейні становить менше 5%, велика кількість цінних сигналів прихована серед мільярдів фрагментованих подій.
Супердані мережа: "інтелектуальна операційна система" для даних на блокчейні
Щоб вирішити проблему фрагментації даних в блокчейні, галузь запропонувала концепцію суперданих-мережі — "інтелектуальної операційної системи на блокчейні", спеціально розробленої для ШІ. Її основна мета полягає в перетворенні розрізнених сигналів блокчейну на структуровані, перевіряються, в реальному часі комбіновані дані, дружні до ШІ. Ця система містить кілька ключових компонентів:
Відкритий стандарт даних: єдина дефініція та опис способу даних на блокчейні, що дозволяє AI моделям безпосередньо "розуміти" бізнес-логіку, що стоїть за даними, знижуючи витрати на розробку AI.
Механізм верифікації даних: забезпечення достовірності даних за допомогою мережі валідаторів блокчейну, вирішення проблеми довіри традиційної централізованої верифікації даних.
Високопродуктивний рівень доступності даних: шляхом оптимізації алгоритмів стиснення даних та протоколів передачі, досягається обробка сотень тисяч онлайнових подій за секунду в реальному часі, що відповідає вимогам AI-застосунків щодо низької затримки та високої пропускної здатності.
Ера фінансової даних: коли дані стають торгівельним "капіталом"
Кінцевою метою супермережі даних є сприяння переходу індустрії штучного інтелекту в еру фіналізації даних — дані більше не є пасивним "матеріалом для навчання", а є активним "капіталом", який може бути оцінений, обмінюваний, підвищений у вартості. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
У цю нову еру постачальники даних можуть монетизувати структуровані дані безпосередньо, розробники можуть комбінувати різні джерела даних для створення інноваційних застосунків, користувачі можуть отримувати дохід, ділячись анонімними даними в ланцюзі. Цінність даних буде визначатися ринковим попитом і пропозицією, утворюючи абсолютно нову екосистему "капіталу даних".
Висновок: Революція даних, наступні десять років AI
Еволюція ШІ насправді є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людьми, до "виявлення вартості" даних на блокчейні, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" фіналізації даних, супермережа даних радикально змінює базову логіку індустрії ШІ.
У цю нову еру дані стануть мостом, що з'єднує ШІ з реальним світом — торгові агенти за допомогою даних на блокчейні сприймають ринкові настрої, автономні додатки оптимізують послуги за допомогою даних про поведінку користувачів, а звичайні користувачі отримують безперервний дохід, ділячись даними. Як електрична мережа стала каталізатором промислової революції, мережа обчислювальної потужності стала каталізатором інтернет-революції, так і супермережа даних стає каталізатором "революції даних" в ШІ.
Наступне покоління нативних додатків штучного інтелекту потребує не лише потужних моделей, але й надійної, програмованої, високоякісної підтримки даних. Коли дані нарешті отримають належну цінність, штучний інтелект зможе справді звільнити силу, що змінює світ.