朱百寧:如何形象化地理解『AI、大模型、GPT』?

自從ChatGPT橫空出世以來,AI領域再次引起了廣泛關注。

最近,有關AI的討論絡繹不絕,其中不可避免地涉及到一些諸如『樣本、預訓練、大模型』等概念和術語。

然而,要用淺顯易懂的方式向非專業人士解釋這些概念是相當具有挑戰性的。

但這對於自己和他人,都很有價值。

正如愛因斯坦所言:『If you can't explain it simply,you don't understand it well enough《如果你不能簡單地解釋,那就說明你理解不夠》』。

之前我曾寫了一篇名為《萬萬沒想到,枯燥的『機器學習』還可以這樣學!》的文章,受到了大家的歡迎。

今天,我嘗試繼續運用形象化解釋的方法,把AI與人類學習和成長的類比,通過將AI與人們熟悉的事物進行比較的方式,簡要介紹AI相關的原理、進展和意義。

1、『咿呀學語、蹣跚學步』 vs 『湧現』

帶過小孩的家長都會有這樣一個感覺:突然有一天發現孩子會說話了、會走路了。

這個過程並非像『0%、1%、2%…98%、99%、100%』這樣逐個百分點緩慢提升,而是有一天突然發生了變化。

模型的『湧現』指的是在大量訓練數據和復雜模型結構的支持下,模型突然表現出較高的性能和新的能力。

簡單來說,就是『量變引起質變』的過程。

當訓練樣本足夠大、算法迭代達到一定階段時,模型的能力會突然提高。

能力『湧現』的前提,是大量不斷的輸入。

自孩子出生起,盡管他們聽不懂、不會說,但家長要不斷與孩子互動,跟他說話。在日積月累的過程中,有一天孩子的說話能力就會『湧現』出來。

模型的發展過程也類似。一開始可能什麼都不會,即使『能說會道』,也可能表現出『智障』或者『一本正經地胡說八道』。

然而,在持續的大樣本訓練和算法不斷迭代的過程中,有一天它就能達到像ChatGPT、GPT-4那樣讓人驚艷的理解能力、推理能力和表達能力。

2、『讀萬卷書、行萬裡路、與萬人談』 vs『預訓練《Pre-Train》、精調(Fine-Tuning)』

孩子們會說話、會走路之後,人的學習才正式開始。

一個人的學習成長,通常先經過基礎教育、廣泛的學習,再發展為專業的、深入某個領域的學習。

不僅要廣泛涉獵,大量學習書本知識,還要進行實踐和與人交流。

在這個過程中,應用所學知識,獲取反饋,對大腦中的知識進行修正和提煉,即從『知識到智慧』,實現『知行合一』。

掌握了基本的知識和技能後,人們需要找到自己的專長領域。

在學校裡,碩士生、博士生和教授需要選擇一個細分領域進行深入研究。

每個人,也都需要找到自己的行業和職業。

對於GPT這樣的大型模型,它們的發展也是通過類似的過程。

首先進行『大規模數據集』進行『預訓練』,然後利用有標簽的樣本以及人類反饋,通過增強學習《Reinforcement Learning by Human Feedback,RLHF》進行微調和迭代。

模型的預訓練,指的是在大量無標簽數據上訓練模型以學習基本知識。

這就像人在嬰兒階段以及從小學到高中階段進行大量學習一樣。不局限於某個領域,而是需要廣泛且大量地輸入信息。

精調指的是在特定任務上,利用有標簽數據對模型進行微調,以便更好地適應特定任務。

這就像人在閱讀了大量書籍後,還需要進行實踐,從實踐中獲得反饋並成長。

許多偉人和名人,如毛澤東、列寧、馬斯克、查理·芒格等,都非常熱愛閱讀,並樂於與人交流,在實際工作中大量實踐。

隻有這樣,才能獲得足夠多的知識,才能塑造出過人的智慧。

3、『嬌生慣養』 vs『過擬合』

我們時常看到一些關於『孩子因為雞毛蒜皮之類的瑣事而做出傻事』的新聞,這通常是『嬌生慣養』的結果,與模型中的『過擬合』現象有相似之處。

所謂機器學習,就是讓機器從樣本中學習,從而『擬合』出規律,進而掌握技能。

在訓練模型時,如果樣本過於單一或特征選擇不當,就容易出現過擬合現象。

過擬合意味著模型將訓練樣本中的特殊情況誤認為是普遍情況。

如此一來,在面對新的樣本時,模型就無法做出正確的處理。

同樣,嬌生慣養《過擬合:over-fitting》導致的脆弱心智《模型》在面臨現實世界中的各種挫折時,往往無法正確應對《預測不準確、泛化能力差》,從而很容易導致不幸的結果。

因此,我們應該讓孩子面對各種情況,並給予反饋,讓他們了解並適應真實世界。

4、『職業教育/基礎教育』 vs 『大模型、小模型』

人的教育有兩種類型,一種是從小就教他一門手藝。比如『做菜、開車、做鐵匠、木匠』等等,這樣他就成為了一個專才。另外,就是先是漫長的基礎教育,再是高等、專業教育。先打好基礎,再選擇專業方向。模型跟人一樣,你給他輸入什麼,他就有什麼樣的輸出,他就有什麼樣的知識技能。在大模型之前,大家熟知的貓狗識別、指紋識別、人臉識別等等模型,就是做特定的事情,類似於職業教育。

這樣的模型可以稱為『小模型』,一方面是模型的size小,另外一方面是模型的能力范圍比較窄。GPT這樣的模型之所以稱為大模型,既是因為訓練數據集規模大、訓練出的模型size大,也指的是模型有廣泛的能力,好像是『上知天文、下知地理』。讀萬卷書,就是大模型,發展出通用智能。隻讀菜譜、隻練廚技,就是小模型,發展特定技能。

5、『腦容量、字典、書籍』 vs 『大模型』

我們可以從以下三個方面,來形象化地理解大模型。

首先,以腦容量作為比喻。模型的大小就像動物的腦容量一樣,較大的腦容量通常意味著更高的智慧。擁有更多神經元和神經元間連接的大腦,才能夠儲存更多知識。

其次,以字典作為比喻。如果一個語言的字典僅包含十個字,那麼這個語言能表達的意義將非常有限。然而,如果字典中有數萬個字,那麼它就能表達更豐富的信息。

最後,以書籍進行類比。為什麼大模型更具威力?

以GPT-3為例,其模型有40GB,相當於400億個字節,粗略地估算相當於200億個字。假設一本書有20萬字,那麼這就相當於10萬本書。

可以說,10萬本書基本上能夠涵蓋人類幾乎所有的知識,且不重復。

《需要認識到的是,成千上萬年來,人類知識的記錄和傳承基本上就是通過語言和書籍形式進行的。》

因此可見,足夠大的模型,就能涵蓋足夠多的知識。

大模型,就有大智慧。

6、『作文能力的訓練』 vs 『語言大模型』

常規的語言模型能力相對有限,比如進行分詞、詞性判斷等,最多完成翻譯等任務。

GPT作為『大語言模型《Large Language Model,LLM》』之所以如此強大,是因為一開始它並沒有特定的目的性,不是預設讓模型完成某一個任務,而是給模型廣泛地輸入和訓練。

在學生作文能力的培養上,有兩種方法。

一種是以提升作文能力為目標,讓孩子閱讀各種作文技巧的書籍、參加各種作文培訓班。但這樣急於求成的方法,效果其實並不理想。

另一方面,有些家長鼓勵孩子從小養成閱讀的習慣,博覽群書。

這樣一來,孩子的閱讀能力、知識面、思維能力都會得到很大提升,作文能力自然隨之提高。

而且,由於閱讀速度、理解能力的增長,孩子在讀題、審題方面的速度和準確率也會提高,從而提升其他學科如數學、物理、化學等的成績。

更為重要的是,閱讀不僅能提高成績,還能塑造一個人的世界觀、氣質,並增強內心的力量。

可以說,對一個人的一生都會產生深遠影響。

因此,我們不應急功近利,而應培養『大模型』。有了大模型,各種能力自然而然就會呈現。

7、『思維能力、寫作能力』 vs 『字符預測』

人們常說,人如其文。一個人的文字能夠體現出其思考能力、表達能力等綜合素質。

模型也是如此,ChatGPT的能力體現在它的回答中,體現在一個個輸出的字中。

首先要說明的是,ChatGPT在回答問題時,一個字一個字地慢慢往外蹦,並非因為網路速度的問題,而是因為模型就是以這種方式工作的:它根據當前的情境,不斷地推理出下一個應該輸出的字《將概率最高的字輸出出來》。

因此,『準確預測下一個要輸出的字符』是模型能力的關鍵。

為了讓你更好地理解這個概念的重要性,我來舉一個例子。

假設有一部推理小說,故事情節跌宕起伏、線索錯綜復雜。

小說的最後,有一句話:『兇手是______。』

如果AI在讀到這裡時能輸出正確的字符,那麼就證明這個模型非常強大。

表面上是字符,實際上是智能。

8、『變形金剛』與『transformer』

GPT是『Generative Pre-trained Transformer』的縮寫,其中Transformer是一種深度學習架構,具體指的是一種基於自注意力《self-attention》機制的神經網路結構。

這個概念至關重要,但的確難以理解。

下面,嘗試解釋一下。

你可以『顧名思義』,用『變形金剛』這部電影來做類比。

變形金剛就是把一輛汽車零件打散,然後再變成一個人。

這個過程就像Transformer中的『編碼、解碼』的過程。

將輸入序列《比如汽車》解碼成不同的部分《各個零件》,並記憶部件之間的連接關系《通過自注意機制,self-attention》,然後再根據相關信息組裝成輸出序列《如人型機器人》。

在這個過程中,Transformer可以捕捉輸入序列中的長距離依賴關系,從而實現更高效且準確的序列處理。

9、『終身學習』 vs 『機器學習』

人與人的最大差別就是學習能力。

人要跟上社會發展,不僅要在學生時代好好學習,更重要的是在日常的工作和生活中不斷學習、終身學習。機器之所以這麼厲害、AI之所以這麼強大,就是因為人家在不斷學習啊。

更何況,機器的記憶力、學習速度,可是人的成百上千倍。

看看我們,一邊在擔憂『自己會不會被AI代替』,一邊整天慵懶地握著手機在打遊戲、刷視頻。

懶惰的人類,要努力了啊!

10、『人腦、道』 vs 『可解釋性』

科學技術發展到今天,人類對自己的大腦有了一定的了解,但完全談不上深入、透徹。

科學技術發展到今天,人類對自己的大腦有了一定的了解,但完全談不上深入、透徹。

同樣,對於利用深度神經網路技術打造出的AI模型,也存在『可解釋性』的問題。

盡管模型很強大,能識別出貓狗、能對答如流、能寫代碼、能畫畫,但即使是模型的開發者,也無法準確地說明,某個結果是如何具體產生的。

可以說,人類用原理不明的大腦,開發出原理不明的大模型。

老子說,道可道非常道。

對於AI來說,也是如此。

太簡單的模型,的確不會有強大的能力。

擴展閱讀:

-萬萬沒想到,枯燥的『機器學習』還可以這樣學!

-ChatGPT的這幾個回答,讓人細思極恐……

閱讀更多原創文章,請關注微信公眾號:八點三十五,也可添加個人微信:izhubaining,進行交流。