Reddit comenzará a cobrarle por entrenar modelos de IA a partir de sus archivos extremadamente humanos
Si está en el negocio de enseñar un modelo de lenguaje grande (LLM) a una IA y quiere que aprenda del subreddit u/420NarutoConspiracy, pronto tendrá que pagar por ello.
Steve Huffman, fundador y director ejecutivo del agregador de debates y noticias sociales Reddit, le dijo recientemente a The New York Times que planea cobrar a las empresas que acceden a su API para extraer 18 años de contenido creado principalmente por humanos. Los detalles de los nuevos términos y condiciones están disponibles en el siguiente anuncio en Reddit .
La API seguirá siendo gratuita para los desarrolladores que trabajan en bots y otras herramientas de Reddit, y para los investigadores que trabajan en proyectos académicos o sin fines de lucro. Pero el simple hecho de usar las discusiones de Reddit para fines de capacitación en IA tendrá un costo, cuya cantidad exacta debería surgir en las próximas semanas.
“El conjunto de datos de Reddit es realmente valioso”, dijo Huffman en una entrevista con el Times. “Pero no tenemos que regalar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita.
“Rastrear Reddit, crear valor y no devolver ese valor a nuestros usuarios es algo con lo que tenemos problemas. Ahora es el momento de que hagamos las cosas bien”.
Los comentarios y conversaciones en Reddit se han convertido en un rico recurso para aprender LLM de IA. ChatGPT y Google Bard citan los datos de Reddit como una de sus fuentes. En su análisis de solo un subconjunto (12 millones) del conjunto de datos de generación de imágenes de difusión estable (2300 millones), Andy Baio y Simon Willison señalaron que «las plataformas de contenido generado por el usuario han sido una gran fuente de datos de imágenes» . Las fuentes de datos para muchas IA publicadas hoy por The Washington Post encontraron que «la compilación de texto de enlaces altamente calificados por los usuarios de Reddit» está incluida en GPT-3.
Si bien Reddit tiene la intención de restringir el acceso a la IA, tiene la intención de proporcionar a los desarrolladores y moderadores mejores herramientas para trabajar dentro de sus comunidades. Las aplicaciones de Reddit para iOS y Android ofrecerán formas de ver rápidamente la historia de un usuario, actualizar las reglas de la comunidad y manejar mejor múltiples colas de modificación.
El cambio de Reddit al acceso a la API se produce cuando la empresa saldrá a bolsa en la segunda mitad de 2023, según The Information. La empresa ha solicitado de forma confidencial una oferta pública inicial en diciembre de 2021 . Según Reuters , esperaba una valoración de $ 15 mil millones, pero retrasó la presentación hasta que mejoraron las condiciones del mercado, especialmente en torno a las empresas tecnológicas.
Deja una respuesta