Новий фокус AI-індустрії: цінність інфраструктури даних та даних у блокчейні
З ростом параметрів моделей штучного інтелекту до трильйонів, обчислювальна потужність вимірюється сотнями мільярдів операцій за секунду, дані стали ключовим гальмом у розвитку ШІ. Майбутні інновації в індустрії ШІ більше не будуть визначатися архітектурою моделей або обчислювальною потужністю чіпів, а залежатимуть від того, як перетворити фрагментовані дані про людську поведінку на ресурси, які можна перевірити, структуровані та безпосередньо використовувані ШІ. Ця тенденція виявляє структурні суперечності, з якими стикається сучасний розвиток ШІ, а також окреслює абсолютно нову картину епохи "фінансизації даних", в якій дані стануть основним виробничим фактором, що підлягає вимірюванню, торгівлі та доданій вартості, як електрика та обчислювальна потужність.
Дані, з якими стикається AI-індустрія
Розвиток ШІ протягом тривалого часу двигався завдяки "модель-обчислювальна потужність". З моменту революції глибокого навчання параметри моделей зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зростає в експоненційній прогресії. За оцінками, вартість навчання сучасної великої мовної моделі вже перевищила 100 мільйонів доларів, з яких 90% йде на оренду GPU-кластерів. Однак, коли галузь зосереджується на "більших моделях" та "швидших чіпах", криза на стороні постачання даних тихо наближається.
Генеровані людьми "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальна кількість високоякісних текстів, доступних для веб-сканування, становить близько 10^12 слів, тоді як для навчання моделі з трильйоном параметрів потрібно близько 10^13 слів. Це означає, що наявний пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще гірша ситуація полягає в тому, що частка повторюваних даних і контенту низької якості перевищує 60%, що ще більше скорочує постачання ефективних даних. Коли моделі починають "поглинати" дані, які вони самі генерують, "забруднення даних" призводить до деградації продуктивності моделей, що стає серйозною тривогою для галузі.
Ця суперечність має своїм корінням: індустрія ШІ тривалий час розглядає дані як "безкоштовний ресурс", а не як "стратегічний актив", що потребує ретельного вирощування. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему, але виробництво, очищення, верифікація та обмін даними все ще перебувають у "дикунську епоху". Наступні десять років для ШІ стануть "десятиліттям інфраструктури даних", а дані з криптосетей у блокчейні є ключем до розв'язання цієї проблеми.
У блокчейні дані: "База даних людської поведінки", найбільш необхідна для ШІ
На фоні дефіциту даних, дані у блокчейні криптографічної мережі демонструють незамінну цінність. На відміну від традиційних інтернет-даних, дані у блокчейні природно мають автентичність "узгодження стимулів". Кожна трансакція, кожна взаємодія з контрактом, кожна дія адреси гаманця прямо пов'язана з реальним капіталом та є незмінною. Ці дані можна визначити як "найконцентрованіші дані про узгоджені дії людських стимулів в Інтернеті", що конкретно проявляється в трьох вимірах:
Реальні "сигнали наміру" світу: дані у блокчейні фіксують рішення, за які було проголосовано справжніми грошима, що безпосередньо відображає оцінку користувачем цінності проєкту, ризикові уподобання та стратегії розподілу капіталу. Ці дані, що "підтверджуються капіталом", мають надзвичайну цінність для тренування рішень штучного інтелекту.
Доступний для відстеження "ланцюг поведінки": прозорість у блокчейні дозволяє повністю відстежувати діяльність користувачів. Історія транзакцій гаманця, протоколи, з якими він взаємодіяв, зміни в активі формують єдиний "ланцюг поведінки". Ці структуровані дані про поведінку є найдефіцитнішими "зразками людського мислення" для нинішніх AI моделей.
Відкриває екосистему «безліцензійного доступу»: у блокчейні дані відкриті та не потребують дозволу. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що забезпечує «безперешкодне» джерело даних для навчання AI моделей.
Проте відкритість даних у блокчейні також приносить виклики: ці дані існують у формі "журналу подій", є неструктурованими "сигналами", які потрібно очистити, стандартизувати та зв'язати, щоб їх можна було використовувати в моделях ШІ. Наразі "структурований коефіцієнт перетворення" даних у блокчейні складає менше 5%, і значна кількість цінних сигналів загублена серед десятків мільярдів фрагментованих подій.
"операційна система" даних у блокчейні
Щоб вирішити проблему фрагментації даних у блокчейні, в індустрії було запропоновано концепцію "ланцюгової розумної операційної системи", спеціально розроблену для ШІ. Її основна мета полягає у перетворенні розосереджених сигналів у блокчейні на структуровані, перевіряємі, що комбінуються в реальному часі дані, готові до використання в ШІ. Ця система містить такі ключові компоненти:
Відкритий стандарт даних: уніфікувати визначення та опис даних у блокчейні, забезпечуючи, щоб моделі ШІ не потребували адаптації до різних форматів даних ланцюгів або протоколів, а могли безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.
Механізм верифікації даних: забезпечує достовірність даних за допомогою механізму консенсусу у блокчейні. Коли система обробляє подію у блокчейні, вузли верифікації перехресно перевіряють хеш-значення даних, інформацію про підпис та стан у блокчейні, щоб забезпечити повну відповідність вихідних структурованих даних з оригінальними даними у блокчейні.
Високопропускний шар доступності даних: шляхом оптимізації алгоритмів стиснення даних і протоколів передачі, забезпечується реальна обробка сотень тисяч подій у блокчейні на секунду. Таке проєктування дозволяє системі підтримувати вимоги до реальних даних великих масштабів AI-додатків.
Візія епохи "фінансової цифровізації"
Ціль цієї операційної системи даних у блокчейні полягає в тому, щоб просунути індустрію ШІ в еру "фінансування даних" — дані більше не є пасивним "матеріалом для навчання", а є активним "капіталом", що може бути оцінене, обміняне та прирощене. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структуровані дані: перетворення вихідних даних у блокчейні в структуровані дані, які можуть бути безпосередньо використані AI-моделями.
Можливість комбінування: структуровані дані можна вільно комбінувати, як Lego, розширюючи межі використання даних.
Можливість перевірки: забезпечення достовірності та простежуваності даних за допомогою технології у блокчейні.
Можливість монетизації: постачальники даних можуть безпосередньо монетизувати структуровані дані, а їхня вартість визначається ринковим попитом і пропозицією.
У цю нову еру дані стануть мостом між ШІ та реальним світом. Торгові агенти можуть відчувати ринкові настрої через у блокчейні дані, автономні програми можуть оптимізувати послуги через дані поведінки користувачів, а звичайні користувачі можуть отримувати постійний прибуток через обмін даними.
Коли ми говоримо про майбутнє ШІ, ми не повинні зосереджуватися лише на "інтелектуальних характеристиках" моделей, але також потрібно звернути увагу на "дані, які підтримують інтелект". Еволюція ШІ, по суті, є еволюцією інфраструктури даних. Від "обмеженості" даних, згенерованих людиною, до "виявлення цінності" даних у блокчейні, від "хаосу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "фінансування даних" як "капітального активу", ці перетворення переосмислюють базову логіку індустрії ШІ.
Так само, як електричні мережі сприяли промисловій революції, мережі обчислювальної потужності сприяли інтернет-революції, а мережі даних зараз сприяють "революції даних" в AI. Наступне покоління AI-додатків потребує не лише моделей або гаманців, а й даних, які не потребують довіри, програмовані та з високим сигналом. Коли дані нарешті отримають належну цінність, AI зможе дійсно вивільнити сили, здатні змінити світ.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
9 лайків
Нагородити
9
5
Поділіться
Прокоментувати
0/400
AirdropDreamBreaker
· 2год тому
Монетизація даних, так? Невдахи нова назва.
Переглянути оригіналвідповісти на0
MevWhisperer
· 3год тому
У блокчейні дані дійсно стали останнім часом досить популярними.
Переглянути оригіналвідповісти на0
ZkProofPudding
· 3год тому
Якось здається, що розганяють концепцію, а? Хе-хе.
Новий фокус у промисловості штучного інтелекту: дані у блокчейні стають ключем до подолання вузьких місць у даних
Новий фокус AI-індустрії: цінність інфраструктури даних та даних у блокчейні
З ростом параметрів моделей штучного інтелекту до трильйонів, обчислювальна потужність вимірюється сотнями мільярдів операцій за секунду, дані стали ключовим гальмом у розвитку ШІ. Майбутні інновації в індустрії ШІ більше не будуть визначатися архітектурою моделей або обчислювальною потужністю чіпів, а залежатимуть від того, як перетворити фрагментовані дані про людську поведінку на ресурси, які можна перевірити, структуровані та безпосередньо використовувані ШІ. Ця тенденція виявляє структурні суперечності, з якими стикається сучасний розвиток ШІ, а також окреслює абсолютно нову картину епохи "фінансизації даних", в якій дані стануть основним виробничим фактором, що підлягає вимірюванню, торгівлі та доданій вартості, як електрика та обчислювальна потужність.
Дані, з якими стикається AI-індустрія
Розвиток ШІ протягом тривалого часу двигався завдяки "модель-обчислювальна потужність". З моменту революції глибокого навчання параметри моделей зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зростає в експоненційній прогресії. За оцінками, вартість навчання сучасної великої мовної моделі вже перевищила 100 мільйонів доларів, з яких 90% йде на оренду GPU-кластерів. Однак, коли галузь зосереджується на "більших моделях" та "швидших чіпах", криза на стороні постачання даних тихо наближається.
Генеровані людьми "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальна кількість високоякісних текстів, доступних для веб-сканування, становить близько 10^12 слів, тоді як для навчання моделі з трильйоном параметрів потрібно близько 10^13 слів. Це означає, що наявний пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще гірша ситуація полягає в тому, що частка повторюваних даних і контенту низької якості перевищує 60%, що ще більше скорочує постачання ефективних даних. Коли моделі починають "поглинати" дані, які вони самі генерують, "забруднення даних" призводить до деградації продуктивності моделей, що стає серйозною тривогою для галузі.
Ця суперечність має своїм корінням: індустрія ШІ тривалий час розглядає дані як "безкоштовний ресурс", а не як "стратегічний актив", що потребує ретельного вирощування. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему, але виробництво, очищення, верифікація та обмін даними все ще перебувають у "дикунську епоху". Наступні десять років для ШІ стануть "десятиліттям інфраструктури даних", а дані з криптосетей у блокчейні є ключем до розв'язання цієї проблеми.
У блокчейні дані: "База даних людської поведінки", найбільш необхідна для ШІ
На фоні дефіциту даних, дані у блокчейні криптографічної мережі демонструють незамінну цінність. На відміну від традиційних інтернет-даних, дані у блокчейні природно мають автентичність "узгодження стимулів". Кожна трансакція, кожна взаємодія з контрактом, кожна дія адреси гаманця прямо пов'язана з реальним капіталом та є незмінною. Ці дані можна визначити як "найконцентрованіші дані про узгоджені дії людських стимулів в Інтернеті", що конкретно проявляється в трьох вимірах:
Реальні "сигнали наміру" світу: дані у блокчейні фіксують рішення, за які було проголосовано справжніми грошима, що безпосередньо відображає оцінку користувачем цінності проєкту, ризикові уподобання та стратегії розподілу капіталу. Ці дані, що "підтверджуються капіталом", мають надзвичайну цінність для тренування рішень штучного інтелекту.
Доступний для відстеження "ланцюг поведінки": прозорість у блокчейні дозволяє повністю відстежувати діяльність користувачів. Історія транзакцій гаманця, протоколи, з якими він взаємодіяв, зміни в активі формують єдиний "ланцюг поведінки". Ці структуровані дані про поведінку є найдефіцитнішими "зразками людського мислення" для нинішніх AI моделей.
Відкриває екосистему «безліцензійного доступу»: у блокчейні дані відкриті та не потребують дозволу. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що забезпечує «безперешкодне» джерело даних для навчання AI моделей.
Проте відкритість даних у блокчейні також приносить виклики: ці дані існують у формі "журналу подій", є неструктурованими "сигналами", які потрібно очистити, стандартизувати та зв'язати, щоб їх можна було використовувати в моделях ШІ. Наразі "структурований коефіцієнт перетворення" даних у блокчейні складає менше 5%, і значна кількість цінних сигналів загублена серед десятків мільярдів фрагментованих подій.
"операційна система" даних у блокчейні
Щоб вирішити проблему фрагментації даних у блокчейні, в індустрії було запропоновано концепцію "ланцюгової розумної операційної системи", спеціально розроблену для ШІ. Її основна мета полягає у перетворенні розосереджених сигналів у блокчейні на структуровані, перевіряємі, що комбінуються в реальному часі дані, готові до використання в ШІ. Ця система містить такі ключові компоненти:
Відкритий стандарт даних: уніфікувати визначення та опис даних у блокчейні, забезпечуючи, щоб моделі ШІ не потребували адаптації до різних форматів даних ланцюгів або протоколів, а могли безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.
Механізм верифікації даних: забезпечує достовірність даних за допомогою механізму консенсусу у блокчейні. Коли система обробляє подію у блокчейні, вузли верифікації перехресно перевіряють хеш-значення даних, інформацію про підпис та стан у блокчейні, щоб забезпечити повну відповідність вихідних структурованих даних з оригінальними даними у блокчейні.
Високопропускний шар доступності даних: шляхом оптимізації алгоритмів стиснення даних і протоколів передачі, забезпечується реальна обробка сотень тисяч подій у блокчейні на секунду. Таке проєктування дозволяє системі підтримувати вимоги до реальних даних великих масштабів AI-додатків.
Візія епохи "фінансової цифровізації"
Ціль цієї операційної системи даних у блокчейні полягає в тому, щоб просунути індустрію ШІ в еру "фінансування даних" — дані більше не є пасивним "матеріалом для навчання", а є активним "капіталом", що може бути оцінене, обміняне та прирощене. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структуровані дані: перетворення вихідних даних у блокчейні в структуровані дані, які можуть бути безпосередньо використані AI-моделями.
Можливість комбінування: структуровані дані можна вільно комбінувати, як Lego, розширюючи межі використання даних.
Можливість перевірки: забезпечення достовірності та простежуваності даних за допомогою технології у блокчейні.
Можливість монетизації: постачальники даних можуть безпосередньо монетизувати структуровані дані, а їхня вартість визначається ринковим попитом і пропозицією.
У цю нову еру дані стануть мостом між ШІ та реальним світом. Торгові агенти можуть відчувати ринкові настрої через у блокчейні дані, автономні програми можуть оптимізувати послуги через дані поведінки користувачів, а звичайні користувачі можуть отримувати постійний прибуток через обмін даними.
Коли ми говоримо про майбутнє ШІ, ми не повинні зосереджуватися лише на "інтелектуальних характеристиках" моделей, але також потрібно звернути увагу на "дані, які підтримують інтелект". Еволюція ШІ, по суті, є еволюцією інфраструктури даних. Від "обмеженості" даних, згенерованих людиною, до "виявлення цінності" даних у блокчейні, від "хаосу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "фінансування даних" як "капітального активу", ці перетворення переосмислюють базову логіку індустрії ШІ.
Так само, як електричні мережі сприяли промисловій революції, мережі обчислювальної потужності сприяли інтернет-революції, а мережі даних зараз сприяють "революції даних" в AI. Наступне покоління AI-додатків потребує не лише моделей або гаманців, а й даних, які не потребують довіри, програмовані та з високим сигналом. Коли дані нарешті отримають належну цінність, AI зможе дійсно вивільнити сили, здатні змінити світ.