生成式人工智能革命已經開始——我們是如何實現這一目標的?
人工智能係統的進步通常看起來是周期性的。每隔幾年,計算機就會突然能夠做一些以前從未做過的事情。“這裡!”人工智能的真正信徒宣稱:“通用人工智能時代即將到來!” “胡說八道!”懷疑者說。“還記得自動駕駛汽車嗎?”
真相通常介於兩者之間。
我們正處於另一個週期,這次是生成式人工智能。媒體頭條主要是有關人工智能藝術的新聞,但在許多完全不同的領域也取得了前所未有的進展。從視頻到生物學、編程、寫作、翻譯等各個領域,人工智能都在以同樣令人難以置信的速度前進。
為什麼現在發生這一切?
您可能熟悉人工智能領域的最新發展。您看過獲獎作品,聽過對死者的採訪,並閱讀過有關蛋白質折疊方面的突破。但這些新的人工智能係統不僅僅在研究實驗室中創建很酷的演示。它們正在迅速發展成為任何人都可以使用的實用工具和真正的商業產品。
這一切同時發生是有原因的。所有成就都基於新型人工智能模型,該模型比以前的任何模型都更加靈活和強大。由於它們首先用於回答問題和撰寫論文等語言任務,因此通常被稱為大型語言模型 (LLM)。OpenAI的GPT3、Google的BERT等都是LLM。
但這些模型非常靈活且適應性強。事實證明,相同的數學結構在計算機視覺、生物學等領域非常有用,以至於一些研究人員將它們稱為“主模型”,以更好地闡明它們在現代人工智能中的作用。
這些基本模型從何而來?它們如何突破語言來驅動我們今天在人工智能中看到的東西?
基礎模型的基礎
機器學習有一個神聖的三位一體:模型、數據和計算。模型是接受輸入並產生輸出的算法。數據是指訓練算法的示例。為了學習某些東西,必須有足夠的數據和足夠的完整性,以便算法可以產生有用的結果。模型應該足夠靈活以反映數據的複雜性。最後,必須有足夠的計算能力來運行算法。
第一次現代人工智能革命發生在 2012 年的深度學習中,當時開始使用卷積神經網絡 (CNN) 解決計算機視覺問題。CNN 的結構與視覺皮層相似。它們自 20 世紀 90 年代就已出現,但由於對計算能力的高要求而尚未實用。
然而,2006年,Nvidia發布了CUDA,一種允許GPU用作通用超級計算機的編程語言。2009 年,斯坦福大學的人工智能研究人員推出了 Imagenet,這是一個用於訓練計算機視覺算法的標記圖像集合。2012 年,AlexNet 將 GPU 訓練的 CNN 與 Imagenet 數據相結合,創建了世界上最好的視覺分類器。深度學習和人工智能就是從那裡爆發出來的。
CNN、ImageNet 數據集和 GPU 是神奇的組合,開啟了計算機視覺的巨大進步。2012 年引發了人們對深度學習的興趣熱潮,並催生了整個行業,例如與自動駕駛相關的行業。但我們很快意識到這一代深度學習存在局限性。CNN 對視覺有好處,但其他領域在建模方面還沒有突破。一個巨大的差距在於自然語言處理(NLP),即讓計算機理解並使用正常的人類語言而不是代碼。
理解和使用語言的問題與處理圖像的問題有著根本的不同。處理語言需要處理順序很重要的單詞序列。貓無論在圖像中的哪個位置仍然是貓,但“這位讀者將了解人工智能”和“人工智能將了解這位讀者”之間有很大區別。
直到最近,研究人員還依賴循環神經網絡 (RNN) 和長期短期記憶 (LSTM) 等模型來及時處理和分析數據。這些模型可以有效地識別短序列,例如短語中的口語單詞,但難以識別較長的句子和段落。只是這些模型的記憶還不夠發達,無法捕捉將句子組合成段落和文章時出現的想法和概念的複雜性和豐富性。它們非常適合 Siri 和 Alexa 風格的簡單語音助手,但僅此而已。
獲取正確的訓練數據是另一個挑戰。ImageNet 是一組 100,000 張標記圖像,需要大量人力(主要是研究生和 Amazon Mechanical Turk 工人)才能創建。ImageNet 實際上是受到一個名為WordNet的舊項目的啟發和建模,該項目試圖為英語詞彙創建一個帶標籤的數據集。雖然互聯網上並不缺乏文本,但生成有意義的數據集來訓練計算機處理單個單詞之外的人類語言是非常耗時的。您為一個應用程序在相同數據上創建的快捷方式可能不適用於另一任務。
發佈留言