Если вы занимаетесь обучением ИИ большой языковой модели (LLM) и хотите, чтобы он учился на сабреддите u/420NarutoConspiracy, вам вскоре придется заплатить за это.
Стив Хаффман, основатель и генеральный директор агрегатора социальных новостей и дискуссий Reddit, недавно сообщил The New York Times , что планирует взимать с компаний, получающих доступ к его API, плату за извлечение 18-летнего контента, в основном созданного людьми. Подробная информация о новых условиях доступна в следующем объявлении на Reddit .
API по-прежнему будет бесплатным для разработчиков, работающих над ботами и другими инструментами Reddit, а также для исследователей, работающих над академическими или некоммерческими проектами. Но простое использование обсуждений на Reddit для целей обучения ИИ будет стоить денег, точная сумма которых должна появиться в ближайшие недели.
«Набор данных Reddit действительно ценен», — сказал Хаффман в интервью Times. «Но мы не обязаны бесплатно отдавать всю эту ценность некоторым из крупнейших компаний мира.
«Сканирование Reddit, создание ценности и отказ от ее возврата нашим пользователям — это то, с чем у нас есть проблемы. Настало время нам все исправить».
Комментарии и обсуждения на Reddit стали богатым ресурсом для изучения LLM в области ИИ. ChatGPT и Google Bard ссылаются на данные Reddit как на один из своих источников. В своем анализе всего одного подмножества (12 миллионов) набора данных для генерации изображений Stable Diffusion (2,3 миллиарда) Энди Байо и Саймон Уиллисон отметили, что «платформы пользовательского контента были огромным источником данных изображений». Источники данных для многих ИИ, опубликованные сегодня The Washington Post, обнаружили, что «составление текста из ссылок, высоко оцененных пользователями Reddit», включено в GPT-3.
Хотя Reddit намеревается ограничить доступ к ИИ, он намерен предоставить разработчикам и модераторам более совершенные инструменты для работы в своих сообществах. Приложения Reddit для iOS и Android предложат способы быстрого просмотра истории пользователя, обновления правил сообщества и лучшей обработки нескольких очередей модов.
Согласно The Information, изменение Reddit в доступе к API произошло, поскольку компания собирается стать публичной во второй половине 2023 года . Компания конфиденциально подала заявку на первичное публичное размещение акций в декабре 2021 года . По данным Reuters , компания надеялась на оценку в 15 миллиардов долларов, но отложила подачу заявки до тех пор, пока не улучшатся рыночные условия, особенно вокруг технологических компаний.