생성 AI 혁명이 시작되었습니다. 우리는 어떻게 거기에 도달했습니까?
인공 지능 시스템의 발전은 종종 주기적인 것처럼 보입니다. 몇 년마다 컴퓨터는 이전에는 결코 할 수 없었던 일을 갑자기 할 수 있게 됩니다. “여기!”진정한 AI 신봉자들은 “일반인공지능 시대가 다가왔다!”고 선언합니다. “말도 안돼!” 회의론자들은 말한다. “자율주행차를 기억하시나요?”
진실은 대개 중간 어딘가에 있습니다.
우리는 이번에는 생성 AI와 함께 또 다른 주기에 있습니다. 미디어 헤드라인은 인공 지능 기술에 대한 뉴스가 지배적이지만 완전히 이질적인 많은 영역에서 전례 없는 발전이 이루어지고 있습니다. 비디오에서 생물학, 프로그래밍, 글쓰기, 번역 등에 이르기까지 모든 분야에서 AI는 놀라운 속도로 발전하고 있습니다.
이 모든 일이 지금 일어나고 있는 이유는 무엇입니까?
AI 세계의 최신 개발에 대해 잘 알고 계실 것입니다. 당신은 수상 경력에 빛나는 작품을 보았고, 죽은 사람들의 인터뷰를 들었고, 단백질 폴딩의 돌파구에 대해 읽었습니다. 그러나 이러한 새로운 AI 시스템은 연구실에서 멋진 데모를 생성하는 데 그치지 않습니다. 누구나 사용할 수 있는 실용적인 도구와 진정한 상용 제품으로 빠르게 진화하고 있습니다.
이 모든 일이 한 번에 일어난 데는 이유가 있습니다. 모든 성과는 이전에 나온 어떤 것보다 더 유연하고 강력한 AI 모델의 새로운 클래스를 기반으로 합니다. 질문에 답하고 에세이를 작성하는 것과 같은 언어 작업에 처음 사용되었기 때문에 종종 대규모 언어 모델(LLM)이라고 합니다. OpenAI의 GPT3, Google의 BERT 등은 모두 LLM입니다.
그러나 이러한 모델은 매우 유연하고 적응력이 뛰어납니다. 동일한 수학적 구조가 컴퓨터 비전, 생물학 등에서 매우 유용하다는 것이 입증되었기 때문에 일부 연구자들은 현대 AI에서 그 역할을 더 잘 표현하기 위해 “마스터 모델”이라고 부릅니다.
이러한 기본 모델은 어디에서 왔으며 오늘날 우리가 AI에서 보는 것을 구동하기 위해 어떻게 언어에서 벗어났습니까?
기초 모델의 기초
기계 학습에는 모델, 데이터 및 계산이라는 삼위일체가 있습니다. 모델은 입력을 받아 출력을 생성하는 알고리즘입니다. 데이터는 알고리즘이 훈련된 예제를 나타냅니다. 무언가를 배우기 위해서는 알고리즘이 유용한 결과를 생성할 수 있도록 충분한 완전성을 가진 충분한 데이터가 있어야 합니다. 모델은 데이터의 복잡성을 반영할 만큼 충분히 유연해야 합니다. 마지막으로 알고리즘을 실행하기에 충분한 컴퓨팅 성능이 있어야 합니다.
컨볼루션 신경망(CNN)으로 컴퓨터 비전 문제를 해결하기 시작한 2012년 딥 러닝으로 최초의 현대 AI 혁명이 일어났습니다. CNN은 구조상 시각 피질과 유사합니다. 1990년대부터 존재했지만 컴퓨팅 성능에 대한 높은 요구로 인해 아직 실용화되지 않았습니다.
그러나 2006년 Nvidia는 GPU를 범용 슈퍼컴퓨터로 사용할 수 있게 해주는 프로그래밍 언어인 CUDA를 출시했습니다. 2009년에 Stanford의 AI 연구원은 컴퓨터 비전 알고리즘을 교육하는 데 사용되는 레이블이 지정된 이미지 모음인 Imagenet을 도입했습니다. 2012년 AlexNet은 GPU 훈련된 CNN을 Imagenet 데이터와 결합하여 세계 최고의 시각적 분류기를 만들었습니다. 거기서 딥러닝과 인공지능이 터졌다.
CNN, ImageNet 데이터 세트 및 GPU는 컴퓨터 비전의 엄청난 발전을 가져온 마법의 조합이었습니다. 2012년은 딥러닝에 대한 관심이 붐을 일으키고 자율주행 관련 산업을 비롯한 모든 산업이 탄생한 해였습니다. 그러나 우리는 이 세대의 딥 러닝에 한계가 있다는 것을 금방 깨달았습니다. CNN은 비전에는 좋았지만 다른 영역에서는 모델링에 획기적인 발전이 없었습니다. 한 가지 큰 격차는 자연어 처리(NLP), 즉 컴퓨터가 코드가 아닌 일반 인간의 언어를 이해하고 작업하도록 하는 것이었습니다.
언어를 이해하고 다루는 문제는 이미지를 다루는 문제와 근본적으로 다릅니다. 처리 언어는 순서가 중요한 단어 시퀀스로 작업해야 합니다. 고양이는 이미지의 어디에 있든 여전히 고양이이지만 “이 독자는 AI에 대해 배울 것입니다”와 “AI가 이 독자에 대해 배울 것입니다” 사이에는 큰 차이가 있습니다.
최근까지 연구원들은 적시에 데이터를 처리하고 분석하기 위해 반복 신경망(RNN) 및 장기 단기 기억(LSTM)과 같은 모델에 의존했습니다. 이러한 모델은 짧은 구문에서 구어체 단어와 같은 짧은 시퀀스를 인식하는 데 효과적이었지만 더 긴 문장과 단락에서는 어려움을 겪었습니다. 문장을 단락과 에세이로 결합할 때 발생하는 아이디어와 개념의 복잡성과 풍부함을 포착할 만큼 이러한 모델의 기억력이 충분히 개발되지 않았을 뿐입니다. Siri 및 Alexa 스타일의 간단한 음성 비서에는 훌륭했지만 그 이상은 아닙니다.
교육에 적합한 데이터를 얻는 것도 또 다른 과제였습니다. ImageNet은 100,000개의 레이블이 지정된 이미지 세트로, 대부분 대학원생과 Amazon Mechanical Turk 근로자와 같은 상당한 인적 노력이 필요한 작업이었습니다. 그리고 ImageNet은 실제로 영어 어휘에 대한 레이블이 지정된 데이터 세트를 만들려고 했던 WordNet 이라는 이전 프로젝트에서 영감을 받아 모델링되었습니다 . 인터넷에 텍스트가 부족하지는 않지만 개별 단어를 넘어 인간의 언어를 처리하도록 컴퓨터를 훈련시키는 의미 있는 데이터 세트를 생성하는 데는 엄청난 시간이 소요됩니다. 그리고 동일한 데이터에 대해 한 응용 프로그램에 대해 만든 바로 가기는 다른 작업에 적용되지 않을 수 있습니다.
답글 남기기