Революция генеративного ИИ началась — как мы к ней пришли?

Прогресс в системах искусственного интеллекта часто кажется цикличным. Каждые несколько лет компьютеры внезапно получают возможность делать то, на что раньше никогда не были способны. «Вот!» — заявляют истинные сторонники ИИ: «Век общего искусственного интеллекта близок!» «Ерунда!» — говорят скептики. «Помните беспилотные автомобили?»

Истина обычно лежит где-то посередине.

Мы находимся в другом цикле, на этот раз с генеративным ИИ. В заголовках СМИ преобладают новости об искусстве искусственного интеллекта, но есть и беспрецедентный прогресс во многих совершенно несопоставимых областях. Во всем, от видео до биологии, программирования, письма, перевода и многого другого, ИИ развивается такими же невероятными темпами.

Почему все это происходит сейчас?

Возможно, вы знакомы с последними разработками в мире ИИ. Вы видели отмеченные наградами работы, слышали интервью умерших людей и читали о прорывах в сворачивании белков. Но эти новые системы искусственного интеллекта не просто создают классные демонстрации в исследовательских лабораториях. Они быстро превращаются в практические инструменты и настоящие коммерческие продукты, которые может использовать каждый.

Есть причина, по которой все произошло сразу. Все достижения основаны на новом классе моделей ИИ, более гибких и мощных, чем все, что было раньше. Поскольку они впервые использовались для языковых задач, таких как ответы на вопросы и написание эссе, их часто называют большими языковыми моделями (LLM). GPT3 от OpenAI, BERT от Google и т. д. — все это LLM.

Но эти модели чрезвычайно гибкие и адаптируемые. Одни и те же математические структуры оказались настолько полезными в компьютерном зрении, биологии и многом другом, что некоторые исследователи стали называть их «мастер-моделями», чтобы лучше сформулировать их роль в современном ИИ.

Откуда взялись эти базовые модели и как они вырвались из языка, чтобы управлять тем, что мы видим в ИИ сегодня?

Основа моделей фундамента

В машинном обучении есть святая троица: модели, данные и расчеты. Модели — это алгоритмы, которые принимают входные данные и производят выходные данные. Данные относятся к примерам, на которых обучаются алгоритмы. Чтобы чему-то научиться, должно быть достаточно данных с достаточной полнотой, чтобы алгоритмы могли дать полезный результат. Модели должны быть достаточно гибкими, чтобы отражать сложность данных. И, наконец, должна быть достаточная вычислительная мощность для запуска алгоритмов.

Первая современная революция ИИ произошла с глубоким обучением в 2012 году, когда началось решение задач компьютерного зрения с помощью сверточных нейронных сетей (СНС). CNN похожи по структуре на зрительную кору. Они существуют с 1990-х годов, но до сих пор не нашли практического применения из-за высоких требований к вычислительной мощности.

Однако в 2006 году Nvidia выпустила CUDA, язык программирования, который позволял использовать графические процессоры в качестве суперкомпьютеров общего назначения. В 2009 году исследователи искусственного интеллекта из Стэнфорда представили Imagenet — коллекцию помеченных изображений, используемых для обучения алгоритмов компьютерного зрения. В 2012 году AlexNet объединила CNN, обученные на GPU, с данными Imagenet, чтобы создать лучший визуальный классификатор, который когда-либо видел мир. Оттуда вырвались глубокое обучение и искусственный интеллект.

CNN, набор данных ImageNet и графические процессоры были волшебной комбинацией, которая открыла огромный прогресс в области компьютерного зрения. 2012 год вызвал бум интереса к глубокому обучению и породил целые отрасли, например, связанные с автономным вождением. Но мы быстро поняли, что у этого поколения глубокого обучения есть пределы. CNN были хороши для зрения, но в других областях не было прорыва в моделировании. Один огромный пробел был в обработке естественного языка (NLP), то есть в том, чтобы заставить компьютеры понимать и работать с нормальным человеческим языком, а не с кодом.

Проблема понимания и работы с языком принципиально отличается от проблемы работы с образами. Язык обработки требует работы с последовательностями слов, где важен порядок. Кошка остается кошкой независимо от того, где она находится на изображении, но есть большая разница между «этот читатель узнает об ИИ» и «ИИ узнает об этом читателе».

До недавнего времени исследователи полагались на такие модели, как рекуррентные нейронные сети (RNN) и долговременную кратковременную память (LSTM), для своевременной обработки и анализа данных. Эти модели были эффективны при распознавании коротких последовательностей, таких как произносимые слова из коротких фраз, но сталкивались с трудностями при распознавании более длинных предложений и абзацев. Просто память этих моделей была недостаточно развита, чтобы уловить всю сложность и богатство идей и понятий, возникающих при объединении предложений в абзацы и эссе. Они отлично подходили для простых голосовых помощников в стиле Siri и Alexa, но не более того.

Получение правильных данных для обучения было еще одной проблемой. ImageNet представлял собой набор из 100 000 помеченных изображений, для создания которых требовались значительные человеческие усилия, в основном аспиранты и работники Amazon Mechanical Turk. И ImageNet на самом деле был вдохновлен и смоделирован на основе более старого проекта под названием WordNet , который пытался создать размеченный набор данных для английской лексики. Хотя в Интернете нет недостатка в тексте, создание значимого набора данных для обучения компьютера работе с человеческим языком помимо отдельных слов занимает невероятно много времени. И ярлыки, которые вы создаете для одного приложения на одних и тех же данных, могут не применяться к другой задаче.

Почему все это происходит сейчас?

Основа моделей фундамента

Добавить комментарий Отменить ответ