Новый фокус в сфере искусственного интеллекта: ценность инфраструктуры данных и данных в блокчейне
С ростом масштабов параметров моделей искусственного интеллекта до триллиона и вычислительной мощности, измеряемой в сотнях миллиардов операций в секунду, данные стали ключевым узким местом в развитии ИИ. Будущее инноваций в ИИ-индустрии больше не будет определяться архитектурой моделей или вычислительной мощностью чипов, а будет зависеть от того, как преобразовать фрагментированные данные о человеческом поведении в проверяемые, структурированные ресурсы, которые ИИ может использовать напрямую. Эта тенденция раскрывает структурные противоречия, с которыми сталкивается текущее развитие ИИ, одновременно очерчивая новую эпоху "финансирования данных", в которой данные станут основным производственным фактором, измеримым, торговым и подлежащим увеличению, как электроэнергия и вычислительная мощность.
Проблемы с данными, с которыми сталкивается AI-индустрия
Развитие ИИ долгое время стимулировалось двойным ядром "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели выросли с миллионов до триллионов, а потребность в вычислительной мощности увеличивается в экспоненциальной прогрессии. По оценкам, стоимость обучения современного большого языкового модели уже превышает 100 миллионов долларов, из которых 90% идут на аренду кластеров GPU. Однако, когда отрасль сосредотачивается на "больших моделях" и "быстрых чипах", кризис со стороны поставок данных тихо приближается.
Сгенерированные человеком "органические данные" достигли предела роста. На примере текстовых данных, общий объем высококачественных текстов, доступных для веб-сканирования в Интернете, составляет примерно 10^12 слов, тогда как для обучения модели с сотнями миллиардов параметров требуется примерно 10^13 слов данных. Это означает, что существующий пул данных может поддерживать обучение лишь 10 моделей одинакового размера. Более того, доля дублирующихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" собственные сгенерированные данные, деградация производительности модели из-за "загрязнения данных" становится серьезной проблемой в отрасли.
Корень этого противоречия заключается в том, что AI-индустрия долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", который требует тщательного ухода. Модели и вычислительная мощность уже сформировали зрелую рыночную систему, но производство, очистка, валидация и торговля данными все еще находятся в "диком времени". Следующие десять лет AI будут десятилетием "инфраструктуры данных", и данные в блокчейне криптосетей являются ключом к разрешению этой проблемы.
Данные в блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, данные в блокчейне криптосетей демонстрируют неоспоримую ценность. По сравнению с данными традиционного интернета, данные в блокчейне обладают природной подлинностью "выравнивания стимулов". Каждая транзакция, каждое взаимодействие с контрактом, каждое поведение адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные можно определить как "самые концентрированные данные о выравнивании человеческих стимулов в интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": данные в блокчейне фиксируют решения, сделанные с помощью реальных средств, что напрямую отражает оценку пользователем ценности проекта, его предпочтения в отношении рисков и стратегии распределения капитала. Такие данные, "подтвержденные капиталом", имеют крайне высокую ценность для тренировки способности принятия решений AI.
Отслеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать поведение пользователей. Исторические транзакции по одному адресам кошельков, взаимодействия с протоколами и изменения в активе формируют последовательную "цепочку действий". Эти структурированные данные о поведении являются теми самыми "образцами человеческого рассуждения", которых не хватает современным моделям ИИ.
Открытая экосистема "без лицензии": данные в блокчейне открыты и не требуют лицензии. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет "безбарьерный" источник данных для обучения AI-моделей.
Однако открытость данных в блокчейне также создает проблемы: эти данные существуют в форме "журналов событий", являются неструктурированными "сырыми сигналами", которые необходимо очистить, стандартизировать и связать, чтобы их могли использовать модели ИИ. В настоящее время "уровень структурированного преобразования" данных в блокчейне составляет менее 5%, и большое количество высокоценных сигналов теряется среди миллиардов фрагментированных событий.
"Операционная система" для данных в блокчейне
Чтобы решить проблему фрагментации данных в блокчейне, в отрасли была предложена концепция "умной операционной системы в блокчейне", специально разработанная для ИИ. Ее основной целью является преобразование рассеянных сигналов в блокчейне в структурированные, проверяемые, готовые к ИИ данные, которые могут быть собраны в реальном времени. Эта система включает в себя следующие ключевые компоненты:
Открытые стандарты данных: унификация определения и описания данных в блокчейне, чтобы модели ИИ могли напрямую "понимать" бизнес-логику данных без необходимости адаптации к различным цепочкам или протоколам.
Механизм верификации данных: обеспечение подлинности данных с помощью механизма консенсуса в блокчейне. Когда система обрабатывает событие в цепочке, узлы верификации перекрестно проверяют хэш-значения данных, информацию о подписи и состояние в блокчейне, чтобы гарантировать, что структурированные данные на выходе полностью соответствуют исходным данным в блокчейне.
Уровень доступности данных с высокой пропускной способностью: оптимизируя алгоритмы сжатия данных и протоколы передачи, достигается обработка сотен тысяч событий в блокчейне в реальном времени каждую секунду. Такой дизайн позволяет системе поддерживать требования к данным в реальном времени для масштабных AI-приложений.
Видение эпохи "финансирования данных"
Конечная цель этой операционной системы для данных в блокчейне заключается в том, чтобы продвинуть индустрию ИИ в эпоху "финансирования данных" — данные больше не являются пассивным "учебным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать его стоимость. Реализация этого видения зависит от преобразования данных в четыре основные характеристики:
Структурированные: преобразование исходных данных в блокчейне в структурированные данные, которые могут быть непосредственно использованы моделями ИИ.
Комбинируемость: структурированные данные могут свободно комбинироваться, как строительные блоки Лего, расширяя границы применения данных.
Проверяемый: обеспечивает подлинность и прослеживаемость данных с помощью технологии в блокчейне.
Ликвидность: Поставщики данных могут напрямую монетизировать структурированные данные, а стоимость данных определяется рыночным спросом и предложением.
В эту новую эпоху данные станут мостом, соединяющим ИИ и реальный мир. Торговые агенты могут воспринимать рыночные настроения через цепочные данные, автономные приложения могут оптимизировать услуги на основе пользовательских данных, а обычные пользователи могут получать постоянный доход через обмен данными.
Когда мы говорим о будущем ИИ, мы не должны сосредотачиваться только на "уровне интеллекта" моделей, но также должны обращать внимание на "данные" как основу, поддерживающую интеллект. Эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От "ограниченности" данных, создаваемых человеком, до "открытия ценности" данных в блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "финансирования данных" как "капитальных активов", эти трансформации перестраивают базовую логику индустрии ИИ.
Как электрическая сеть вызвала промышленную революцию, так и вычислительная сеть вызвала интернет-революцию, а сеть данных сейчас порождает "данные революцию" ИИ. Приложения следующего поколения ИИ требуют не только моделей или кошельков, но и надежных, программируемых, высокосигнальных данных без необходимости доверия. Когда данные, наконец, получат заслуженную ценность, ИИ сможет по-настоящему раскрыть силу, способную изменить мир.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
9 Лайков
Награда
9
5
Поделиться
комментарий
0/400
AirdropDreamBreaker
· 8ч назад
Монетизация данных, да? Новое название неудачников.
Посмотреть ОригиналОтветить0
MevWhisperer
· 8ч назад
Данные в блокчейне действительно стали немного популярными в последнее время.
Посмотреть ОригиналОтветить0
ZkProofPudding
· 8ч назад
Почему кажется, что это просто очередная волна концепций, хе хе.
Новая фокусировка в индустрии ИИ: данные в блокчейне становятся ключом к преодолению瓶颈 данных
Новый фокус в сфере искусственного интеллекта: ценность инфраструктуры данных и данных в блокчейне
С ростом масштабов параметров моделей искусственного интеллекта до триллиона и вычислительной мощности, измеряемой в сотнях миллиардов операций в секунду, данные стали ключевым узким местом в развитии ИИ. Будущее инноваций в ИИ-индустрии больше не будет определяться архитектурой моделей или вычислительной мощностью чипов, а будет зависеть от того, как преобразовать фрагментированные данные о человеческом поведении в проверяемые, структурированные ресурсы, которые ИИ может использовать напрямую. Эта тенденция раскрывает структурные противоречия, с которыми сталкивается текущее развитие ИИ, одновременно очерчивая новую эпоху "финансирования данных", в которой данные станут основным производственным фактором, измеримым, торговым и подлежащим увеличению, как электроэнергия и вычислительная мощность.
Проблемы с данными, с которыми сталкивается AI-индустрия
Развитие ИИ долгое время стимулировалось двойным ядром "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели выросли с миллионов до триллионов, а потребность в вычислительной мощности увеличивается в экспоненциальной прогрессии. По оценкам, стоимость обучения современного большого языкового модели уже превышает 100 миллионов долларов, из которых 90% идут на аренду кластеров GPU. Однако, когда отрасль сосредотачивается на "больших моделях" и "быстрых чипах", кризис со стороны поставок данных тихо приближается.
Сгенерированные человеком "органические данные" достигли предела роста. На примере текстовых данных, общий объем высококачественных текстов, доступных для веб-сканирования в Интернете, составляет примерно 10^12 слов, тогда как для обучения модели с сотнями миллиардов параметров требуется примерно 10^13 слов данных. Это означает, что существующий пул данных может поддерживать обучение лишь 10 моделей одинакового размера. Более того, доля дублирующихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" собственные сгенерированные данные, деградация производительности модели из-за "загрязнения данных" становится серьезной проблемой в отрасли.
Корень этого противоречия заключается в том, что AI-индустрия долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", который требует тщательного ухода. Модели и вычислительная мощность уже сформировали зрелую рыночную систему, но производство, очистка, валидация и торговля данными все еще находятся в "диком времени". Следующие десять лет AI будут десятилетием "инфраструктуры данных", и данные в блокчейне криптосетей являются ключом к разрешению этой проблемы.
Данные в блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, данные в блокчейне криптосетей демонстрируют неоспоримую ценность. По сравнению с данными традиционного интернета, данные в блокчейне обладают природной подлинностью "выравнивания стимулов". Каждая транзакция, каждое взаимодействие с контрактом, каждое поведение адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные можно определить как "самые концентрированные данные о выравнивании человеческих стимулов в интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": данные в блокчейне фиксируют решения, сделанные с помощью реальных средств, что напрямую отражает оценку пользователем ценности проекта, его предпочтения в отношении рисков и стратегии распределения капитала. Такие данные, "подтвержденные капиталом", имеют крайне высокую ценность для тренировки способности принятия решений AI.
Отслеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать поведение пользователей. Исторические транзакции по одному адресам кошельков, взаимодействия с протоколами и изменения в активе формируют последовательную "цепочку действий". Эти структурированные данные о поведении являются теми самыми "образцами человеческого рассуждения", которых не хватает современным моделям ИИ.
Открытая экосистема "без лицензии": данные в блокчейне открыты и не требуют лицензии. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет "безбарьерный" источник данных для обучения AI-моделей.
Однако открытость данных в блокчейне также создает проблемы: эти данные существуют в форме "журналов событий", являются неструктурированными "сырыми сигналами", которые необходимо очистить, стандартизировать и связать, чтобы их могли использовать модели ИИ. В настоящее время "уровень структурированного преобразования" данных в блокчейне составляет менее 5%, и большое количество высокоценных сигналов теряется среди миллиардов фрагментированных событий.
"Операционная система" для данных в блокчейне
Чтобы решить проблему фрагментации данных в блокчейне, в отрасли была предложена концепция "умной операционной системы в блокчейне", специально разработанная для ИИ. Ее основной целью является преобразование рассеянных сигналов в блокчейне в структурированные, проверяемые, готовые к ИИ данные, которые могут быть собраны в реальном времени. Эта система включает в себя следующие ключевые компоненты:
Открытые стандарты данных: унификация определения и описания данных в блокчейне, чтобы модели ИИ могли напрямую "понимать" бизнес-логику данных без необходимости адаптации к различным цепочкам или протоколам.
Механизм верификации данных: обеспечение подлинности данных с помощью механизма консенсуса в блокчейне. Когда система обрабатывает событие в цепочке, узлы верификации перекрестно проверяют хэш-значения данных, информацию о подписи и состояние в блокчейне, чтобы гарантировать, что структурированные данные на выходе полностью соответствуют исходным данным в блокчейне.
Уровень доступности данных с высокой пропускной способностью: оптимизируя алгоритмы сжатия данных и протоколы передачи, достигается обработка сотен тысяч событий в блокчейне в реальном времени каждую секунду. Такой дизайн позволяет системе поддерживать требования к данным в реальном времени для масштабных AI-приложений.
Видение эпохи "финансирования данных"
Конечная цель этой операционной системы для данных в блокчейне заключается в том, чтобы продвинуть индустрию ИИ в эпоху "финансирования данных" — данные больше не являются пассивным "учебным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать его стоимость. Реализация этого видения зависит от преобразования данных в четыре основные характеристики:
Структурированные: преобразование исходных данных в блокчейне в структурированные данные, которые могут быть непосредственно использованы моделями ИИ.
Комбинируемость: структурированные данные могут свободно комбинироваться, как строительные блоки Лего, расширяя границы применения данных.
Проверяемый: обеспечивает подлинность и прослеживаемость данных с помощью технологии в блокчейне.
Ликвидность: Поставщики данных могут напрямую монетизировать структурированные данные, а стоимость данных определяется рыночным спросом и предложением.
В эту новую эпоху данные станут мостом, соединяющим ИИ и реальный мир. Торговые агенты могут воспринимать рыночные настроения через цепочные данные, автономные приложения могут оптимизировать услуги на основе пользовательских данных, а обычные пользователи могут получать постоянный доход через обмен данными.
Когда мы говорим о будущем ИИ, мы не должны сосредотачиваться только на "уровне интеллекта" моделей, но также должны обращать внимание на "данные" как основу, поддерживающую интеллект. Эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От "ограниченности" данных, создаваемых человеком, до "открытия ценности" данных в блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "финансирования данных" как "капитальных активов", эти трансформации перестраивают базовую логику индустрии ИИ.
Как электрическая сеть вызвала промышленную революцию, так и вычислительная сеть вызвала интернет-революцию, а сеть данных сейчас порождает "данные революцию" ИИ. Приложения следующего поколения ИИ требуют не только моделей или кошельков, но и надежных, программируемых, высокосигнальных данных без необходимости доверия. Когда данные, наконец, получат заслуженную ценность, ИИ сможет по-настоящему раскрыть силу, способную изменить мир.