top of page

Twitter, Reddit y las guerras de datos de IA

  • Aug 5, 2023
  • 5 min read

Updated: Jan 18, 2024

Twitter y Reddit están comenzando a cobrar por sus APIs y esto parece ser el inicio de una batalla para controlar los datos, y el impacto en la IA no puede ser subestimado.

Twitter and Reddit charging for their APIs has kick has kicked off a battle to control data online

Se está gestando una tormenta en línea sobre el control de los datos y tendrá repercusiones masivas para la IA. Mientras que la salida de ChatGPT y los generadores de imágenes atraen la mayor parte de la atención, los datos de entrada están siendo casi completamente pasados por alto. Tengo un tremendo respeto por los científicos y programadores que han dado vida a la IA, pero la clave para la Inteligencia Artificial y el Aprendizaje Automático en la práctica es el dato. La razón de esto es que la tecnología tiende a proliferar. Con gran parte de la comunidad de código abierto trabajando en la IA (lo cual es admirable), el software y los modelos reales no serán los diferenciadores clave en esta carrera armamentista de inteligencia artificial.


Una vez que el software exista, solo aquellos con los datos necesarios podrán utilizarlo. Elon Musk lo sabe, al igual que los moderadores de Reddit. Entonces, es cierto que ninguno de estos grupos podría estar pensando específicamente en los datos para modelos de IA, pero ambos han tomado medidas drásticas recientemente para proteger los datos que consideran suyos.

Tecnología 101


La base de cualquier conferencia sobre tecnología es "Basura entra, basura sale". Y para parafrasear eso un poco, el valor de un software, desde una base de datos básica hasta la IA más compleja, depende enormemente de la calidad de los datos que introduzcas. Durante muchos años, los datos en Internet, especialmente los datos de acceso público, se consideraban de libre acceso. Podías ver todos los tweets (en teoría) a través de la aplicación de Twitter, entonces, ¿por qué no proporcionar acceso ilimitado a granel a los desarrolladores a través de APIs? Hasta hace poco, esto no era un problema. Sin embargo, a medida que la IA se ha expandido y el valor de los datos ha sido notado con mayor agudeza.

API significa Interfaz de Programación de Aplicaciones. Puede sonar técnico, pero en este contexto, puedes considerar una API como tener un acceso posterior o acceso a granel a una plataforma. Por ejemplo, podrías usar una API de Twitter para recuperar todos los mensajes que mencionan "IA" de una sola vez, en lugar de navegar por la aplicación durante horas.

Datos de Twitter y APIs


Es posible que hayas visto los titulares sobre Twitter, ahora conocido como X, limitando cuánto pueden usar las personas la aplicación. Puedes leer más detalles aquí, pero en resumen, Elon Musk ha llegado a la conclusión de que los datos de Twitter, en su forma agregada, son un conjunto de datos única y útil. Sí, tu tuit sobre lo que comiste para el desayuno podría ser de interés para tus seguidores. Sin embargo, con bots que recopilan datos de Twitter de todos, podría ser mucho más útil ver las tendencias de lo que miles de usuarios están comiendo para el desayuno. O, qué políticos les gustan. Este enfoque se ha utilizado para predecir elecciones y comerciar en los mercados financieros, y es vital para muchas herramientas altamente rentables de análisis de sentimiento. Twitter siempre ha permitido que otras aplicaciones accedan a sus datos a granel a través de APIs sin costo o con un costo mínimo. Ahora, han aumentado considerablemente el precio.


Moderadores Reddit y APIs


De manera similar, los moderadores de Reddit han estado protestando por los recientes aumentos de precio en las APIs. Históricamente, Reddit ha permitido que aplicaciones de terceros accedan a subreddits a través de APIs sin costo alguno. Sin embargo, con crecientes conversaciones sobre una oferta pública inicial (IPO), los ejecutivos de Reddit están interesados en aumentar los ingresos. Por lo tanto, han añadido un cargo significativo por el uso de estas APIs, lo que ha causado gran descontento entre los moderadores que esencialmente gestionan los datos. Esto ha obligado a muchas aplicaciones a cerrar, incluida la muy popular aplicación para iOS llamada Apollo.

Vale la pena señalar que los moderadores de Reddit no son empleados de la empresa. Generalmente, están motivados por una pasión por los subreddits que moderan y muchos dedican una gran cantidad de tiempo sin una recompensa directa.

¿Por qué les importan los datos y las APIs?


Probablemente sea tan simple como querer ser dueños de lo que crean. Dudo mucho que los moderadores de Reddit se vean del mismo lado que Twitter, pero en este contexto hay similitudes. Los valiosos datos de Twitter solo existen gracias a la infraestructura de Twitter y a su base de usuarios. Twitter asume el costo, por lo que no quieren que otras aplicaciones u organizaciones con fines de lucro se beneficien.


Los valiosos datos de Reddit solo existen gracias a los moderadores. Sí, existen algunos costos técnicos para alojar Reddit, pero el papel de los moderadores es impresionante. Hay más de un millón de comunidades en Reddit y 140,000 subreddits activos. Cada uno de estos tiene entre uno y 25 moderadores. Se estima que estos moderadores ahorran a la empresa millones cada año, pero en realidad, el beneficio es mucho más que simplemente los dólares ahorrados. Facebook, YouTube y otras compañías de redes sociales tienen moderadores para mantener estándares legales y de políticas (es decir, sin violencia). Los moderadores de Reddit aseguran que los subreddits se mantengan en el tema y realmente cultivan un alto nivel de contenido.


¿Qué sigue para las APIs de Twitter y Reddit?


Ni Elon Musk ni los moderadores de Reddit están interesados en que otros se beneficien indebidamente o limiten el uso de los datos que ayudan a curar. (Puede haber más complejidades, pero este es al menos en parte el caso). Muchas herramientas de análisis de sentimientos impulsadas por IA han tenido que apagar sus fuentes de Twitter porque los datos simplemente son demasiado costosos. Los hilos de Reddit que históricamente eran públicos ahora se están volviendo privados para bloquear la recolección de datos pagados a través de las APIs. Algunos subreddits han sido marcados como NSFW (advertencia de contenido para adultos) en protesta. Reddit ahora amenaza con eliminar a los moderadores que no cumplan. Hasta dónde llegará esto es imposible de decir, pero creo que estamos apenas en las primeras etapas de las batallas de datos de IA.


Poseer los Datos, Poseer el Software


Estos dos ejemplos son solo los disparos de advertencia en lo que espero que se convierta en una guerra total por el control de los datos en línea. A medida que la IA avanza y se vuelve más accesible, la demanda de datos únicos se disparará. La ventaja de una herramienta de análisis de sentimientos de IA ya no estará en quién puede acceder al software, sino en quién controla el flujo de datos. Lo mismo ocurre con el reconocimiento facial, la encuesta electoral, el marketing y innumerables otros campos que se han acostumbrado a aprovechar los datos a granel en línea. Pronto, aquellos que posean los datos esencialmente poseerán el software.

 
 
bottom of page