ChatGPT가 생성 AI를 “모든 도구”로 전환한 방법
올해 초 한 로봇공학 스타트업의 최고기술책임자(CTO)는 나에게 “’로봇공학용 ChatGPT’를 구축하려면 많은 노력을 기울여야 한다고 생각했습니다. 대신에 ChatGPT는 로봇공학을 위한 ChatGPT인 경우가 많습니다.”
최근까지 AI 모델은 전문 도구였습니다. 로봇 공학과 같은 특정 영역에서 AI를 사용한다는 것은 해당 영역에 대해서만 구체적으로 AI 모델을 만드는 데 시간과 돈을 소비하는 것을 의미했습니다. 예를 들어, 단백질 접힘을 예측하는 AI 모델인 Google의 AlphaFold는 단백질 구조 데이터를 사용하여 훈련되었으며 단백질 구조 작업에만 유용합니다.
그래서 이 창업자는 생성 AI의 혜택을 받으려면 로봇 회사가 로봇 공학을 위한 자체 전문 생성 AI 모델을 만들어야 한다고 생각했습니다. 대신 팀은 많은 경우 AI가 특별히 훈련받지 않고도 로봇을 제어하기 위해 기성품 ChatGPT를 사용할 수 있다는 사실을 발견했습니다.
나는 건강 보험부터 반도체 설계에 이르기까지 모든 분야에 종사하는 기술자로부터 비슷한 말을 들었습니다. 인간이 단순히 대화를 통해 생성 AI를 사용할 수 있게 해주는 챗봇인 ChatGPT를 만들기 위해 OpenAI는 GPT3와 같은 대규모 언어 모델(LLM)을 인간 상호 작용에 더 잘 반응하도록 변경해야 했습니다.
그러나 아마도 의도치 않게 이러한 동일한 변경으로 인해 GPT3.5 및 GPT4와 같은 GPT3의 후속 제품이 강력한 범용 정보 처리 도구로 사용될 수 있습니다. 이 도구는 AI 모델이 원래 훈련된 지식에 의존하지 않거나 모델이 훈련된 애플리케이션. 이를 위해서는 채팅 대신 프로그래밍, 훈련 대신 새로운 데이터 등 완전히 다른 방식으로 AI 모델을 사용해야 합니다. 그러나 이는 AI가 전문화된 것이 아니라 “모든 도구”에 가까운 범용 목적이 될 수 있는 길을 열어주고 있습니다.
어떻게 여기까지 왔어?
기초: 확률, 경사하강법, 미세 조정
생성 AI를 지원하는 LLM의 작동 방식과 학습 방법에 대해 잠시 살펴보겠습니다.
GPT4와 같은 LLM은 확률적입니다. 입력을 받아 해당 입력과 관련된 단어 및 구문의 확률을 예측합니다. 그런 다음 주어진 입력에 가장 적합할 것 같은 출력을 생성합니다. 이는 매우 정교한 자동 완성 기능과 같습니다. 텍스트를 입력하고 다음에 무엇이 나올지 알려주십시오. 근본적으로 이는 생성 AI가 ‘옳고 그름’의 맥락에서 살아가는 것이 아니라 오히려 ‘가능성이 높음과 낮음’의 맥락에서 살아간다는 것을 의미합니다.
확률론적 방식에는 장점과 단점이 있습니다. 약점은 잘 알려져 있습니다. 생성적 AI는 예측 불가능하고 부정확할 수 있으며, 나쁜 결과를 생성할 뿐만 아니라 전혀 예상하지 못한 방식으로 생성하는 경향이 있습니다. 그러나 이는 또한 AI가 기존의 규칙 기반 시스템과는 달리 예측할 수 없을 정도로 강력하고 유연할 수 있음을 의미합니다. 우리는 그 무작위성을 유용한 방식으로 형성하기만 하면 됩니다.
여기에 비유가 있습니다. 양자역학 이전에 물리학자들은 우주가 예측 가능하고 결정론적인 방식으로 작동한다고 생각했습니다. 양자 세계의 무작위성은 처음에는 충격으로 다가왔지만, 우리는 양자의 기이함을 받아들이고 이를 실제적으로 사용하는 법을 배웠습니다. 양자 터널링은 근본적으로 확률론적이지만 입자가 예측 가능한 패턴으로 점프하도록 유도될 수 있습니다. 이것이 바로 여러분이 이 글을 읽고 있는 장치에 전력을 공급하는 반도체와 칩이 탄생한 이유입니다. 하나님이 우주를 가지고 주사위 놀이를 하신다는 사실을 그냥 받아들이지 마십시오. 주사위를 던지는 방법을 배우십시오.
AI에도 똑같은 것이 적용됩니다. 우리는 “경사하강법”이라는 기술을 사용하여 LLM을 구성하는 신경망을 훈련합니다. 경사하강법은 모델이 생성하는 출력을 살펴보고 이를 훈련 데이터와 비교한 다음 신경망의 매개변수를 조정하는 “방향”을 계산하여 출력이 “더” 정확해집니다. 즉, 훈련 데이터와 더 유사해집니다. AI가 주어집니다. 마법의 자동 완성 기능의 경우 더 정확한 답은 입력을 따를 가능성이 더 높은 출력 텍스트를 의미합니다.
확률 수학은 컴퓨터가 단어를 처리하는 좋은 방법입니다. 어떤 단어가 다른 단어 뒤에 올 확률을 계산하는 것은 단지 계산일 뿐이며, “얼마나 많은지”는 “더 옳고 그름”보다 컴퓨터가 작업하기 훨씬 쉽습니다. 출력을 생성하고 훈련 데이터와 비교하고 조정합니다. 헹구고 반복하여 작고 점진적인 개선을 많이 하면 결국 횡설수설하는 신경망을 일관된 문장을 생성하는 것으로 바꿀 수 있습니다. 그리고 이 기술은 사진, DNA 서열 등에 적용할 수도 있습니다.
답글 남기기