El nuevo enfoque de la industria de la IA: infraestructura de datos y el valor de los datos on-chain
Con la escala de parámetros de los modelos de inteligencia artificial superando el billón y la capacidad de cálculo medida en billones de operaciones por segundo, los datos se han convertido en el principal cuello de botella para el desarrollo de la IA. La innovación en la industria de la IA en el futuro ya no estará dominada por la arquitectura de modelos o la potencia de cálculo de chips, sino que dependerá de cómo convertir los datos de comportamiento humano fragmentados en recursos verificables, estructurados y utilizables directamente por la IA. Esta tendencia revela las contradicciones estructurales que enfrenta actualmente el desarrollo de la IA, al mismo tiempo que esboza un nuevo panorama de la "financiarización de datos"; en esta era, los datos se convertirán en un factor de producción central, medible, negociable y capaz de ser valorizado, al igual que la electricidad y la potencia de cálculo.
Dilemas de datos que enfrenta la industria de la IA
El desarrollo de la IA ha sido impulsado durante mucho tiempo por el "modelo-potencia de cálculo" en doble núcleo. Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones a billones, y la demanda de potencia de cálculo ha crecido de manera exponencial. Se estima que el costo de entrenar un modelo de lenguaje avanzado ya supera los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria se centra en "modelos más grandes" y "chips más rápidos", está surgiendo silenciosamente una crisis del lado de la oferta de datos.
Los "datos orgánicos" generados por los humanos han alcanzado un techo de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad en Internet que se puede rastrear públicamente es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de 100 mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras. Esto significa que la piscina de datos existente solo puede sostener el entrenamiento de 10 modelos de igual escala. Lo más grave es que más del 60% de los datos son duplicados o de baja calidad, lo que reduce aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos que ellos mismos generan, la degradación del rendimiento del modelo causada por la "contaminación de datos" se ha convertido en una preocupación en la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos", en lugar de "activos estratégicos" que necesitan ser cultivados con cuidado. Los modelos y la potencia de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era primitiva". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en cadena de las redes criptográficas son la clave para desbloquear este dilema.
Datos on-chain: la "base de datos de comportamiento humano" más necesaria para la IA
En el contexto de la escasez de datos, los datos on-chain de las redes de criptomonedas muestran un valor insustituible. En comparación con los datos del internet tradicional, los datos on-chain poseen de forma inherente la autenticidad de la "alineación de incentivos". Cada transacción, cada interacción de contrato y cada comportamiento de una dirección de billetera están directamente vinculados a capital real y son inalterables. Estos datos pueden definirse como "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", lo que se manifiesta en tres dimensiones:
Señales de "intención" del mundo real: los datos en cadena registran decisiones tomadas mediante votos con dinero real, reflejando directamente el juicio de los usuarios sobre el valor del proyecto, sus preferencias de riesgo y sus estrategias de asignación de fondos. Estos datos de "respaldo de capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.
Cadena de "comportamiento" rastreable: La transparencia de la blockchain permite que el comportamiento de los usuarios sea completamente rastreable. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos poseídos, forman una cadena de "comportamiento" coherente. Estos datos de comportamiento estructurados son precisamente las "muestras de razonamiento humano" más escasas para los modelos de IA actuales.
Acceso "sin permisos" a un ecosistema abierto: los datos on-chain son abiertos y no requieren permisos. Cualquier desarrollador puede acceder a los datos originales a través de un explorador de blockchain o una API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA.
Sin embargo, la apertura de los datos on-chain también trae desafíos: estos datos existen en forma de "registros de eventos", son "señales en bruto" no estructuradas que necesitan ser limpiadas, normalizadas y relacionadas para ser utilizadas por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos on-chain es inferior al 5%, y una gran cantidad de señales de alto valor se encuentran enterradas en miles de millones de eventos fragmentados.
"Sistema operativo" de datos on-chain
Para resolver el problema de la fragmentación de datos on-chain, la industria ha propuesto un concepto de "sistema operativo inteligente on-chain" diseñado específicamente para la IA. Su objetivo principal es convertir las señales on-chain dispersas en datos estructurados, verificables y listos para la IA en tiempo real. Este sistema incluye los siguientes componentes clave:
Estándares de datos abiertos: unificar la definición y la forma de descripción de los datos on-chain, asegurando que el modelo de IA no necesite adaptarse a diferentes formatos de datos de cadenas o protocolos, y pueda "entender" directamente la lógica empresarial detrás de los datos.
Mecanismo de verificación de datos: se asegura la veracidad de los datos a través del mecanismo de consenso de la cadena de bloques. Cuando el sistema procesa un evento en cadena, los nodos de verificación cruzan los valores hash de los datos, la información de firma y el estado en cadena, asegurando que los datos estructurados generados coincidan completamente con los datos originales en la cadena.
Capa de disponibilidad de datos de alto rendimiento: mediante la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos on-chain por segundo. Este diseño permite que el sistema soporte la demanda de datos en tiempo real de aplicaciones de IA a gran escala.
Visión de la era de la "financiarización de datos"
El objetivo final de este sistema operativo de datos en la cadena es impulsar a la industria de la IA hacia la era de la "financiarización de datos"—los datos ya no son un "material de entrenamiento" pasivo, sino un "capital" activo, que puede ser valorado, negociado y apreciado. La realización de esta visión depende de la transformación de los datos en cuatro atributos clave:
Estructurado: convertir los datos originales en cadena en datos estructurados que puedan ser llamados directamente por el modelo de IA.
Combinable: Los datos estructurados se pueden combinar libremente como bloques de Lego, expandiendo los límites de aplicación de los datos.
Verificable: Asegurar la autenticidad y la trazabilidad de los datos a través de la tecnología blockchain.
Monetizable: los proveedores de datos pueden monetizar datos estructurados directamente, y el valor de los datos es determinado por la oferta y la demanda del mercado.
En esta nueva era, los datos se convertirán en el puente que conecta la IA con el mundo real. Los agentes de comercio pueden percibir el sentimiento del mercado a través de datos on-chain, las aplicaciones autónomas pueden optimizar servicios mediante datos de comportamiento del usuario, y los usuarios comunes pueden obtener ingresos sostenidos a través del intercambio de datos.
Cuando hablamos del futuro de la IA, no debemos centrarnos únicamente en el "nivel de inteligencia" del modelo, sino también en el "suelo de datos" que sustenta esa inteligencia. La evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por humanos hasta el "descubrimiento de valor" de los datos en cadena, desde la "desorden" de señales fragmentadas hasta la "orden" de datos estructurados, desde los datos como "recurso gratuito" hasta la "financiarización de datos" como "activo de capital", estas transformaciones están redefiniendo la lógica subyacente de la industria de la IA.
Así como las redes eléctricas dieron origen a la revolución industrial, las redes de computación dieron lugar a la revolución de Internet, y las redes de datos están impulsando la "revolución de datos" de la IA. Las aplicaciones de IA de próxima generación no solo necesitan modelos o billeteras, sino también datos programables, de alto valor y sin necesidad de confianza. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
9 me gusta
Recompensa
9
5
Compartir
Comentar
0/400
AirdropDreamBreaker
· hace2h
La monetización de datos, ¿verdad? Nueva forma de llamar a los tontos.
Ver originalesResponder0
MevWhisperer
· hace3h
Los datos on-chain ciertamente se han vuelto un poco populares recientemente.
Ver originalesResponder0
ZkProofPudding
· hace3h
¿Por qué siento que están especulando con un concepto? Jeje
Nuevo enfoque en la industria de la IA: los datos on-chain se convierten en la clave para romper el cuello de botella de los datos
El nuevo enfoque de la industria de la IA: infraestructura de datos y el valor de los datos on-chain
Con la escala de parámetros de los modelos de inteligencia artificial superando el billón y la capacidad de cálculo medida en billones de operaciones por segundo, los datos se han convertido en el principal cuello de botella para el desarrollo de la IA. La innovación en la industria de la IA en el futuro ya no estará dominada por la arquitectura de modelos o la potencia de cálculo de chips, sino que dependerá de cómo convertir los datos de comportamiento humano fragmentados en recursos verificables, estructurados y utilizables directamente por la IA. Esta tendencia revela las contradicciones estructurales que enfrenta actualmente el desarrollo de la IA, al mismo tiempo que esboza un nuevo panorama de la "financiarización de datos"; en esta era, los datos se convertirán en un factor de producción central, medible, negociable y capaz de ser valorizado, al igual que la electricidad y la potencia de cálculo.
Dilemas de datos que enfrenta la industria de la IA
El desarrollo de la IA ha sido impulsado durante mucho tiempo por el "modelo-potencia de cálculo" en doble núcleo. Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones a billones, y la demanda de potencia de cálculo ha crecido de manera exponencial. Se estima que el costo de entrenar un modelo de lenguaje avanzado ya supera los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria se centra en "modelos más grandes" y "chips más rápidos", está surgiendo silenciosamente una crisis del lado de la oferta de datos.
Los "datos orgánicos" generados por los humanos han alcanzado un techo de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad en Internet que se puede rastrear públicamente es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de 100 mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras. Esto significa que la piscina de datos existente solo puede sostener el entrenamiento de 10 modelos de igual escala. Lo más grave es que más del 60% de los datos son duplicados o de baja calidad, lo que reduce aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos que ellos mismos generan, la degradación del rendimiento del modelo causada por la "contaminación de datos" se ha convertido en una preocupación en la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos", en lugar de "activos estratégicos" que necesitan ser cultivados con cuidado. Los modelos y la potencia de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era primitiva". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en cadena de las redes criptográficas son la clave para desbloquear este dilema.
Datos on-chain: la "base de datos de comportamiento humano" más necesaria para la IA
En el contexto de la escasez de datos, los datos on-chain de las redes de criptomonedas muestran un valor insustituible. En comparación con los datos del internet tradicional, los datos on-chain poseen de forma inherente la autenticidad de la "alineación de incentivos". Cada transacción, cada interacción de contrato y cada comportamiento de una dirección de billetera están directamente vinculados a capital real y son inalterables. Estos datos pueden definirse como "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", lo que se manifiesta en tres dimensiones:
Señales de "intención" del mundo real: los datos en cadena registran decisiones tomadas mediante votos con dinero real, reflejando directamente el juicio de los usuarios sobre el valor del proyecto, sus preferencias de riesgo y sus estrategias de asignación de fondos. Estos datos de "respaldo de capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.
Cadena de "comportamiento" rastreable: La transparencia de la blockchain permite que el comportamiento de los usuarios sea completamente rastreable. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos poseídos, forman una cadena de "comportamiento" coherente. Estos datos de comportamiento estructurados son precisamente las "muestras de razonamiento humano" más escasas para los modelos de IA actuales.
Acceso "sin permisos" a un ecosistema abierto: los datos on-chain son abiertos y no requieren permisos. Cualquier desarrollador puede acceder a los datos originales a través de un explorador de blockchain o una API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA.
Sin embargo, la apertura de los datos on-chain también trae desafíos: estos datos existen en forma de "registros de eventos", son "señales en bruto" no estructuradas que necesitan ser limpiadas, normalizadas y relacionadas para ser utilizadas por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos on-chain es inferior al 5%, y una gran cantidad de señales de alto valor se encuentran enterradas en miles de millones de eventos fragmentados.
"Sistema operativo" de datos on-chain
Para resolver el problema de la fragmentación de datos on-chain, la industria ha propuesto un concepto de "sistema operativo inteligente on-chain" diseñado específicamente para la IA. Su objetivo principal es convertir las señales on-chain dispersas en datos estructurados, verificables y listos para la IA en tiempo real. Este sistema incluye los siguientes componentes clave:
Estándares de datos abiertos: unificar la definición y la forma de descripción de los datos on-chain, asegurando que el modelo de IA no necesite adaptarse a diferentes formatos de datos de cadenas o protocolos, y pueda "entender" directamente la lógica empresarial detrás de los datos.
Mecanismo de verificación de datos: se asegura la veracidad de los datos a través del mecanismo de consenso de la cadena de bloques. Cuando el sistema procesa un evento en cadena, los nodos de verificación cruzan los valores hash de los datos, la información de firma y el estado en cadena, asegurando que los datos estructurados generados coincidan completamente con los datos originales en la cadena.
Capa de disponibilidad de datos de alto rendimiento: mediante la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos on-chain por segundo. Este diseño permite que el sistema soporte la demanda de datos en tiempo real de aplicaciones de IA a gran escala.
Visión de la era de la "financiarización de datos"
El objetivo final de este sistema operativo de datos en la cadena es impulsar a la industria de la IA hacia la era de la "financiarización de datos"—los datos ya no son un "material de entrenamiento" pasivo, sino un "capital" activo, que puede ser valorado, negociado y apreciado. La realización de esta visión depende de la transformación de los datos en cuatro atributos clave:
Estructurado: convertir los datos originales en cadena en datos estructurados que puedan ser llamados directamente por el modelo de IA.
Combinable: Los datos estructurados se pueden combinar libremente como bloques de Lego, expandiendo los límites de aplicación de los datos.
Verificable: Asegurar la autenticidad y la trazabilidad de los datos a través de la tecnología blockchain.
Monetizable: los proveedores de datos pueden monetizar datos estructurados directamente, y el valor de los datos es determinado por la oferta y la demanda del mercado.
En esta nueva era, los datos se convertirán en el puente que conecta la IA con el mundo real. Los agentes de comercio pueden percibir el sentimiento del mercado a través de datos on-chain, las aplicaciones autónomas pueden optimizar servicios mediante datos de comportamiento del usuario, y los usuarios comunes pueden obtener ingresos sostenidos a través del intercambio de datos.
Cuando hablamos del futuro de la IA, no debemos centrarnos únicamente en el "nivel de inteligencia" del modelo, sino también en el "suelo de datos" que sustenta esa inteligencia. La evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por humanos hasta el "descubrimiento de valor" de los datos en cadena, desde la "desorden" de señales fragmentadas hasta la "orden" de datos estructurados, desde los datos como "recurso gratuito" hasta la "financiarización de datos" como "activo de capital", estas transformaciones están redefiniendo la lógica subyacente de la industria de la IA.
Así como las redes eléctricas dieron origen a la revolución industrial, las redes de computación dieron lugar a la revolución de Internet, y las redes de datos están impulsando la "revolución de datos" de la IA. Las aplicaciones de IA de próxima generación no solo necesitan modelos o billeteras, sino también datos programables, de alto valor y sin necesidad de confianza. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.