Генеративна революція штучного інтелекту почалася – як ми до неї дійшли?
Прогрес у системах штучного інтелекту часто здається циклічним. Кожні кілька років комп’ютери раптом стають здатними робити те, чого вони ніколи не могли робити раніше. «Ось!» — заявляють справжні прихильники штучного інтелекту: «Епоха загального штучного інтелекту наближається!» «Дурниці!» — кажуть скептики. «Пам’ятаєте безпілотні автомобілі?»
Істина зазвичай десь посередині.
Ми перебуваємо в іншому циклі, цього разу з генеративним ШІ. У заголовках засобів масової інформації переважають новини про мистецтво штучного інтелекту, але також спостерігається безпрецедентний прогрес у багатьох абсолютно різних сферах. У всьому, від відео до біології, програмування, письма, перекладу тощо, штучний інтелект розвивається такими ж неймовірними темпами.
Чому все це відбувається зараз?
Можливо, ви знайомі з останніми розробками у світі ШІ. Ви бачили роботи, відзначені нагородами, чули інтерв’ю мертвих людей і читали про прориви в згортанні білка. Але ці нові системи ШІ не просто створюють класні демонстрації в дослідницьких лабораторіях. Вони швидко перетворюються на практичні інструменти та справжні комерційні продукти, якими може користуватися кожен.
Є причина, чому все сталося відразу. Усі досягнення базуються на новому класі моделей ШІ, які є більш гнучкими та потужними, ніж будь-які попередні. Оскільки вперше їх використовували для мовних завдань, таких як відповіді на запитання та написання есе, їх часто називають великими мовними моделями (LLM). GPT3 від OpenAI, BERT від Google тощо є магістрами права.
Але ці моделі надзвичайно гнучкі та адаптивні. Ті самі математичні структури виявилися настільки корисними в комп’ютерному зорі, біології тощо, що деякі дослідники почали називати їх «майстер-моделями», щоб краще сформулювати їх роль у сучасному ШІ.
Звідки взялися ці основні моделі і як вони вийшли з мови, щоб створити те, що ми бачимо в ШІ сьогодні?
Основи моделей фундаментів
У машинному навчанні є свята трійця: моделі, дані та обчислення. Моделі — це алгоритми, які приймають вхідні дані та створюють вихідні дані. Дані стосуються прикладів, на яких навчаються алгоритми. Щоб чогось навчитися, має бути достатньо повних даних, щоб алгоритми могли дати корисний результат. Моделі мають бути достатньо гнучкими, щоб відображати складність даних. І, нарешті, має бути достатньо обчислювальної потужності для запуску алгоритмів.
Перша сучасна революція штучного інтелекту сталася з глибоким навчанням у 2012 році, коли почалося вирішення проблем комп’ютерного зору за допомогою згорткових нейронних мереж (CNN). CNN за будовою подібні до зорової кори. Вони існують з 1990-х років, але ще не стали практичними через високі вимоги до обчислювальної потужності.
Однак у 2006 році Nvidia випустила CUDA, мову програмування, яка дозволила використовувати графічні процесори як суперкомп’ютери загального призначення. У 2009 році дослідники штучного інтелекту зі Стенфорда представили Imagenet, колекцію позначених зображень, які використовуються для навчання алгоритмів комп’ютерного зору. У 2012 році AlexNet об’єднав навчені GPU CNN з даними Imagenet, щоб створити найкращий візуальний класифікатор, який коли-небудь бачив світ. Глибоке навчання та штучний інтелект вириваються звідти.
CNN, набір даних ImageNet і графічні процесори були чарівною комбінацією, яка відкрила величезний прогрес у комп’ютерному зорі. 2012 рік викликав бум інтересу до глибокого навчання та породив цілі індустрії, наприклад, пов’язані з автономним водінням. Але ми швидко зрозуміли, що це покоління глибокого навчання має обмеження. CNN були корисні для зору, але в інших областях не було такого прориву в моделюванні. Одна величезна прогалина була в обробці природної мови (NLP), тобто в тому, щоб змусити комп’ютери розуміти та працювати з нормальною людською мовою, а не з кодом.
Проблема розуміння мови і роботи з нею принципово відрізняється від проблеми роботи з образами. Мова обробки вимагає роботи з послідовністю слів, порядок яких важливий. Кіт залишається котом, де б він не був на зображенні, але є велика різниця між «цей читач дізнається про ШІ» та «ШІ дізнається про цього читача».
До недавнього часу дослідники покладалися на такі моделі, як рекурентні нейронні мережі (RNN) і довготривала короткочасна пам’ять (LSTM), щоб своєчасно обробляти й аналізувати дані. Ці моделі були ефективними при розпізнаванні коротких послідовностей, таких як вимовлені слова з коротких фраз, але мали проблеми з довшими реченнями та абзацами. Просто пам’ять цих моделей була недостатньо розвинена, щоб вловити складність і багатство ідей і понять, які виникають при об’єднанні речень в абзаци і есе. Вони чудово підійшли для простих голосових помічників у стилі Siri та Alexa, але не більше.
Ще одним викликом було отримання правильних даних для навчання. ImageNet являв собою набір із 100 000 зображень із мітками, для створення яких потрібні значні людські зусилля, в основному аспіранти та працівники Amazon Mechanical Turk. І ImageNet був фактично натхненний і змодельований на старішому проекті під назвою WordNet , який намагався створити позначений набір даних для англійської лексики. Хоча в Інтернеті немає нестачі тексту, створення значущого набору даних для навчання комп’ютера працювати з людською мовою, окрім окремих слів, займає неймовірно багато часу. А ярлики, які ви створюєте для однієї програми на тих самих даних, можуть не застосовуватися до іншого завдання.
Залишити відповідь