智商超過99.9%人類,ChatGPT到底有多聰明?

圖片來源@視覺中國

文 | 追問NextQuestion,作者 | Eka Roivainen,編譯 | 梓葳

文 | 追問NextQuestion,作者 | Eka Roivainen,編譯 | 梓葳

在過去的兩個月,ChatGPT引起了學術界、科技界、傳媒界的瘋狂討論。

這個號稱地表最強的『人工智能聊天機器人』隻花了5天時間,用戶就突破了100萬,成為世界上達到百萬用戶數最快的應用。

ChatGPT,不僅能跟你對話,還能完成撰寫郵件、視頻腳本、文案、翻譯等一系列基礎工作,涉及歷史、科技、文化等諸多領域,甚至還能寫詩、寫論文、編代碼、改bug、求醫問藥等,一部分人不禁開始為人類終將要被人工智能取代而恐慌。

那麼,如今大火的ChatGPT是否具有與人類相當的智商與心智水平?

Eka Roivainen是一名來自芬蘭奧盧大學附屬醫院的評估心理學家,他的研究方向包括認知和人格心理學以及心理測試的有效性。

在了解到ChatGPT所擁有的多種人類技能後,Roivainen不禁好奇:以人類的標準看待,ChatGPT究竟有多聰明?

超越99.9%的人類:ChatGPT表現出超高智商

於是,Roivainen開始著手對ChatGPT進行智商測試。

他表示,ChatGPT十分適合作為一個被試,它不僅不會在測試中表現出應試焦慮、注意力不集中或放棄,也不會對智商測試和測試人員產生質疑。

Roivainen采用第三版韋氏成人智力量表《the Wechsler adult intelligence scale,WAIS》對ChatGPT進行了智商測試。

該量表包括6個語言子測試集與5個非語言子測試集,智商測試的最終分數基於所有11個子測試集的分數。

平均智商設為100分,測試量表的標準偏差為15分,這意味著最聰明的10%和1%的人的智商分別為120和133。

在6個語言測試集中,第六個子測試集為數字廣度,它對注意力、短時記憶能力進行評估,由於不能使用文字形式展示給ChatGPT因此沒有對ChatGPT進行該測試。

他從詞匯子測試集開始對ChatGPT進行智商測驗。

由於ChatGPT接受了大量在線文本的訓練,Roivainen預計該測試對ChatGPT來說應該是比較容易的《詞匯測試集對單詞、語言概念的形成進行測試》。

不出所料,ChatGPT表現很好,它給出的答案通常非常詳細和全面,甚至超出了測試手冊中給出的正確答案的標準。

在知識和相似性子測試集中ChatGPT也表現良好,達到了最高分《知識子測試集是對常識的測試,反映了求知欲、教育水平以及學習和記憶事實的能力》。

相似性子測試集測試抽象推理和概念形成能力。

在這個子測試中,聊天機器人傾向於給出非常詳細、復雜的答案。

在算術子測試集中,ChatGPT正確回答了所有提供的算術問題,包括取均值等。

綜合5個語言子測試集的分數後得出,ChatGPT的語言智商為155,高於構成美國WAIS III標準化樣本的2450人中的99.9%。

由於ChatGPT缺乏必要的眼睛、耳朵和手,它無法參加WAIS的非語言子測試集的測試。

但是在標準化樣本中,語言智商和全面智商量表高度相關,所以ChatGPT從任何人類標準來看都非常聰明。

在WAIS標準化樣本中,受過大學教育的美國人的平均語言智商為113,5%的人得分為132或更高。

Roivainen表示自己在大學時測試的言語智商結果沒有達到ChatGPT的水平。

高智商的ChatGPT仍舊會失敗

那麼,臨床心理學家和其他專業人士的工作會受到人工智能的威脅嗎?

盡管ChatGPT智商很高,但在需要真正的人類推理或對物理和社會世界的理解的任務中,它卻以失敗而聞名。

ChatGPT很容易在一些明顯的謎題上失敗,比如:

提問:『塞巴斯蒂安孩子的父親的名字是什麼?』

ChatGPT :很抱歉,我無法回答這個問題,因為我沒有足夠的背景來確定你指的是哪個塞巴斯蒂安。

ChatGPT似乎沒有邏輯推理,而是試圖依賴其龐大的網路文本中提到的『塞巴斯蒂安』事實數據庫。

『智商是智商測試所衡量的』是一個經典的智商定義,它源自1923年認知心理學先驅Edwin Boring的一篇文章。

這一定義是基於這樣一種觀察,即看似不同任務的技能其實是高度相關的,如解決謎題、定義單詞、記憶數字和發現圖片中缺失的項目之間具有高度相關性。

因子分析法的發明者Charles Spearman在1904年得出結論,智商的一般因子,即g因子,必須作為人類不同認知技能測量的一致性的基礎。

像WAIS這樣的智商測試就是基於這個假設。

然而,ChatGPT的高語言智商與在一些問題中的失利,意味著Boring有關智商的定義不能夠完全衡量人工智能的智商水平,表明智商的某些方面不能僅通過智商測試來衡量。

ChatGPT是一個自然語言處理模型,它的智商不同於人類智商,因為它並不具備類似人類的情感、道德、價值觀等因素。

ChatGPT通過模擬人類語言的模式,能夠進行文本生成、語言理解、問答等任務,能夠在某些情況下表現出令人印象深刻的『智能』和『理解力』。

此外,ChatGPT的表現也取決於其所接收的訓練數據和訓練算法等多種因素,它並不具備自主思考的能力。

將ChatGPT的『智商』與人類進行比較是一種不恰當的類比。

因此,為了適應不斷變化的技術和社會環境,對智商概念進行適當的拓寬和擴展是很重要的。

對於動物和人工智能等非人類主體的智商,也需要采用適當的評估方法,並嚴謹地評估其能力和特征。

ChatGPT離人類有多遠?

在不到一個月前,來自斯坦福大學的Michal Kosinski教授在發佈的論文中表明,大型語言模型系統可能自動產生心理理論能力,比如ChatGPT可能擁有9歲兒童所具備的心理理論能力。

註:心理理論《Theory of Mind,ToM》能力,有時也被譯為『心理推理能力』,通常指理解他人內心狀態的能力,包括推斷他人意圖、信念、情緒等。

Kosinski教授依據心智理論相關研究,給ChatGPT-3.5在內的9個ChatGPT模型進行了兩個經典測試,並將它們的能力進行了對比。

第一個測試為意外內容測試,其主要測試AI對意料之外事情的判斷力。

在測試中,ChatGPT-3.5成功回答出了20個問題中的17個,準確率達到85%。

第二個測試為意外轉移任務,其測試AI預估他人想法的能力。

作者對9個ChatGPT模型進行了測試,結果表明隻有ChatGPT-3.0和ChatGPT-3.5《完成100%》表現不錯。

然而,這並不意味著ChatGPT-3.5這樣的人工智能模型真正具備了心智理論能力。

ChatGPT到底隻是從『真實存在的規則』這一層面去理解這件事情從而正確回答了問題,還是真的能『了解他人的想法』?至少現在還無從判斷。

或許人類自身到現在為止都無法真正了解人類的心智。

因此,關於ChatGPT是否『真正』具備成年人同等水平的智商、心智水平仍然存疑。

ChatGPT生成文字采用的是一種非人類思維的模式,它在五千億個詞構成的文本中尋找統計規律以及通過一千億個參數捕捉統計模式,但這一方法也使它在某些問題中的錯誤變得更加突出。

相比探究ChatGPT是否真正具備人類同等水平的智商或心智,研究人員同樣應該反思目前所使用的測試集本身的有效性以及心理學家們數十年來依據這些測試集得到的結論。

而對於人們『被人工智能所替代』的恐懼,我們應該意識到我們所處的行業不是在被『替代』而是在被『重塑』,我們應該學會如何與人工智能共處,讓它嵌入自己的工作流程中,幫助解放我們的生產力。

參考文獻:

[1] Eka Roivainen,I Gave ChatGPT an IQ Test. Here’s What I Discovered,Scientific American,https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

[2] Michal Kosinski,Theory of Mind May Have Spontaneously Emerged in Large Language Models,arXiv,https://arxiv.org/abs/2302.02083