ChatGTP怎麼結合知識圖譜回答問題?

1950年,圖靈發表了具有裡程碑意義的論文《計算機器與智能》《Computing Machinery andIntelligence》,提出了一個關於機器人的著名判斷原則——圖靈測試,也被稱為圖靈判斷,它指出如果第三者無法辨別人類與AI機器反應的差別, 則可以論斷該機器具備人工智能。

2008年,漫威《鋼鐵俠》中的AI管家賈維斯,讓人們知道了AI是如何精準地幫助人類《托尼》解決丟過來的各種事務的……

圖1:AI管家 賈維斯《圖片來源網路》

2023年初,以2C的方式從科技界火爆破圈的免費聊天機器人ChatGPT浪翻全球。

據瑞銀的研報,其月活用戶在1月份就達到了1億,目前還在增長著,它已成為史上增長最快的消費者應用。此外,其東家OpenAI繼前期發佈了每月42美元的專業版Pro後,馬上就要推出Plus版,據說每月20美元左右。

當一件新事物,月活上億,流量上來,並且開啟商業賺錢之後,你是否對它背後的各種技術感到好奇?比如,聊天機器人是如何處理和查詢海量數據的?

體驗過ChatGPT的朋友都有同感,它顯然比天貓精靈或小愛童鞋要更加智能——是一個『有著無敵話術』聊天機器人,一個自然語言處理工具,一個大型語言模型,也是一個人工智能應用。它可以根據提問素材的上下文與人類互動,可以進行推理和創作,甚至還會拒絕《它認為》不當的問題,不隻是完成擬人化的交流。

雖然目前對它的評價褒貶不一,但從技術發展的視角來說,它甚至有可能通過圖靈測試。試問,在我們與它交流的時候,其《對於小白而言》廣博的知識,可甜可油的回答,如果在我們完全不知情的前提下,是很難辨別出對方是人類還是機器《或許這才是它危險的地方——ChatGPT 的內核依然是屬於深度學習范疇,存在大量黑盒與不可解釋性!》。

那麼,聊天機器人是怎麼做到將來自3000 億單詞的訓練語料庫和 1750 億的參數,快速地進行整理和輸出的呢,同時還能做到結合上下文,根據它『掌握』的知識,自由應對與人類的交流的呢?其實,聊天機器人也有大腦,它跟我們人類一樣,需要學習+訓練。

圖2:ChatGPT 學習訓練圖《來源官網》

它將海量的文本、圖片等等非結構化的文件,通過NLP《自然語言處理》、目標識別、多模態識別等,按其語義結構化成知識圖譜,這個知識圖譜就是聊天機器人的大腦了。

圖3:以醫療為例,人工智能將多來源的數據轉化在問答、搜索、藥物研發等場景的知識圖譜中

知識圖譜是由什麼組成的呢?它是由點《實體》和邊《關系》組成的,能夠將人、事、物等相關信息進行整合,形成一個全面的圖,如下圖。

圖4:由人物的點和屬性邊構成的圖譜《子圖》

當提問『OpenAI 的創始人是誰呀?』,聊天機器人的大腦就開始迅速地在自己的知識庫裡搜索、查找,先從用戶的問句中,鎖定目標點『penAI』,再根據用戶的提問,連鎖出另一個點——創始人『山姆·阿爾特曼』。

圖5:從點『OpenAI』通過一條邊連接到另一個點『山姆·阿爾特曼』

其實,當我們在提『OpenAI的創始人是誰"的時候,聊天機器人就會在自己的知識庫中,把所有圍繞該點的圖都關聯出來。所以,當我們問及相關問題的時候,它其實早已預判了我們的預判。比如當我們問:『馬斯克是OpenAI的創始團隊成員嗎?』僅僅一個命令的發出,它已經將所有的成員都查詢了《舉千反一》,見下圖。

圖6:由點『OpenAI』關聯到其他人物

此外,在它的庫裡如果還收錄過其他的『學習資料』,那麼在其的『大腦』中還會關聯著諸如『人工智能機器人的產品有哪些?』等相關的圖,如下圖。

圖7:常見的AI機器人產品圖譜

當然,聊天機器人和人一樣,回答問題會受到自身知識儲備的局限,如見下圖:

我們知道,決定一個人大腦快不快、聰明不聰明的判斷是什麼呢?從人類的視角來看,最簡單的一個標準就是是否具備舉一反三的能力。

子曰:『不憤不啟,不悱不發,舉一隅不以三隅反,則不復也。』——論語·述而篇

早在兩千年前,孔子就強調過善於舉一反三、由此及彼、觸類旁通的重要性。而對於聊天機器人來說,其答案的質量取決於構建知識圖譜的算力。

我們知道,通用的知識圖譜的建設在很長一段時間內都著重在 NLP和可視化呈現等方面,但忽略了計算時效性、數據建模靈活性、查詢《計算》過程與結果可解釋性等問題。尤其是在整個世界從大數據時代向深數據時代轉型的當下,過去傳統的基於SQL或 NoSQL構建的圖譜的缺陷,已無法高效去處理海量、復雜、動態的數據的能力,更何談進行關聯、挖掘和分析的洞察力?

那麼,傳統知識圖譜面臨的挑戰都有什麼特性呢?

一是,低算力《低效》。采用SQL 或 NoSQL 數據庫系統構建的知識圖譜底層架構效率低下,無法高速地處理高維數據。

二是,靈活性差。基於關系型數據庫、文檔數據庫或低性能圖數據庫構建的知識圖譜通常受制於底層架構而無法高效地還原實體間的真實關系。諸如,它們有些隻支持簡單圖,錄入多邊圖數據時要麼信息容易丟失,要麼花高代價來構圖。

三是,徒有其表。在2020 年之前, 極少有人真正關注底層算力,幾乎所有的知識圖譜系統建設,都僅僅是圍繞 NLP 和可視化這兩部分。而沒有底層算力支撐的知識圖譜,隻是在本體與三元組的抽取和構建,並不具備解決深度的查詢、速度和可解釋性等問題的能力。『註:在這裡,我們不展開講傳統關系型數據庫與圖數據庫之間的性能對比,感興趣的讀者可閱讀:圖數據庫與關系型數據庫的區別?和 圖數據庫解決了什麼問題?』行文至此,我們已經從聊天機器人的智能知識圖譜話題,聊到了另一個前沿技術——圖數據庫《圖計算》技術領域了。

圖數據庫『見參考資料1』是一種應用圖理論,可以存儲實體的屬性信息和實體之間的關系信息,在定義方面,圖《Graph》是以節點『見參考資料2』和邊『見參考資料2』定義的數據結構。

圖是知識圖譜存儲與應用服務的基礎,擁有強大的數據關聯及知識表達能力,因此倍受學術界和工業界的推崇。

圖8:圖數據庫與知識圖譜在市場營銷、犯罪調查、金融監管、教育生態、公共衛生和能源等領域中的應用場景

如上圖所示,我們看到,在實時圖數據庫《圖計算》引擎的幫助下,產業界可以實時地在不同數據間找到深度關聯的各種關系,甚至可以找到最優的、人腦都無法企及的智能途徑——這就是源於圖數據庫的高維性。何為高維性?圖不僅僅作為一種符合人類大腦思維習慣、能對現實世界進行直觀建模的工具,同時能夠建立起深刻的洞察《深圖遍歷》力。諸如大家都知道『蝴蝶效應』,就是在海量的數據和信息的中,去捕捉看似毫無關系的兩個以上的實體之間的微妙關系,這從數據處理架構的角度來看,如果沒有圖數據庫《圖計算》技術的幫助是極難實現的。『註:對圖數據庫與圖計算到底如何區分的話題,此處不展開,感興趣的朋友可閱讀:來自『圖』的挑戰是什麼?如何區分圖數據庫與圖計算? 一文速解』

圖9:過去40年來,數據處理技術的發展趨勢是從關系型到大數據再到圖數據

風控就是典型的場景之一。2008年的金融危機,其導火索僅僅是美國第四大投行雷曼兄弟倒閉了,但誰也沒有料到,一家擁有158年歷史的投行的倒閉,會引起國際銀行業後續的一系列倒閉風潮……其影響之廣、范圍之大,讓人始料未及;而實時圖數據庫《圖計算》技術,就可以找到關於風險的所有關鍵的節點、風險因子,風險傳播路徑……進而對整個金融風險進行提前預警。

圖10:雷曼兄弟《Lehman Brothers》破產傳播路徑以及風險客群圖譜

『註:以上構圖,均在Ultipa Manager上完成。願意進一步學習和探索的朋友,可以閱讀系列文章之一: 走進 Ultipa Manager之高可視化』

需要指出的是,時下,盡管很多廠家都可以構造知識圖譜,但現實是每 100 家圖譜公司中,用《高性能》圖數據庫來做算力支撐的不足 5 家《低於 5%》。Ultipa嬴圖數據庫是目前全球唯一的第四代實時圖數據庫,通過高密度並發、動態剪枝、多級存儲計算加速等創新性的專利技術實現了對任意量級數據集的超深度實時下鉆。『感興趣的朋友可擴展閱讀:為什麼選擇 Ultipa?以及專家觀察 | 高並發圖數據庫系統如何實現?』

一是,高算力。以查找企業最終受益人《又名實際控制人、大股東》為例。此類問題的挑戰在於,現實世界中,最終受益人與被檢查公司實體之間,經常相隔許多節點《空殼公司實體》,又或者多個自然人或公司實體之間通過多條投資、參股路徑對其它公司進行控制。傳統的關系型數據庫或文檔數據庫,甚至多數的圖數據庫,都無法實時解決這類圖譜穿透問題。Ultipa嬴圖實時圖數據庫系統解決了以上諸多挑戰。其高並發數據結構和高性能計算與存儲引擎,相較於其他圖系統能以 100 倍甚至更快的速度進行深度挖掘,實時《微秒級以內》找到最終受益人或發現一個龐大的投資關系網路。另一方面,微秒級的時延意味著更高的並發性和系統吞吐量,相比於那些宣稱毫秒級延遲的系統,這是 1000 倍的性能提升!以現實場景為例,原中信銀行行長孫德順利用開設多個『影子公司』的方式,借助金融手段來完成利益輸送。

圖11:孫德順設計了結構極為復雜的重重『防火墻』,多層影子公司層層嵌套,以規避監管,獲取利益圖12:關聯:孫德順——中信銀行——企業老板——《空殼公司》投資平臺公司——孫德順

如上圖所示,孫德順利用中信銀行的公權力為企業老板批貸款;與此對應,企業老板們或以投資名義或送上優質的投資項目、投資機會等等方式;雙方通過各自成立的空殼公司完成直接交易;或者企業老板將巨資註入孫德順實控的投資平臺公司,然後平臺公司再用這些資金投到老板提供的項目內,從而以錢生錢,大家共同獲利分紅,最終形成利益共同體。

Ultipa嬴圖實時圖數據庫系統,通過白盒穿透的方式,挖掘出層層錯綜的人與人、人與企業、企業與企業之間的復雜關系,並實時鎖定最終的幕後人。

二是,靈活性。圖譜系統的靈活性可以是個非常廣泛的話題,大體包含數據建模、查詢與計算邏輯、結果呈現、接口支持、可擴展性等幾個部分。

數據建模是所有關系圖譜的基礎,與圖系統《圖數據庫》的底層能力息息相關。例如,基於ClickHouse 這種列數據庫構建的圖數據庫系統,根本無法承載金融交易圖譜,因為交易網路最典型的特征就是兩個賬戶間存在多次轉賬,但 ClickHouse 傾向於將多次轉賬合並為一,這種不合理的做法會導致數據混淆《失真》。有些基於單邊圖理念構建的圖數據庫系統,則傾向於用頂點《實體》來表達交易,結果是數據量被放大《存儲浪費》,並且造成圖譜查詢的復雜度指數級增大《時效性變差》。

接口支持層面則與用戶體驗相關。舉個簡單的例子,如果一個生產環境下的圖系統僅支持CSV格式,那麼所有的數據格式都要先轉換為CSV格式才能入圖,效率顯然太低,然而這在很多圖譜系統中卻是真實存在的。

查詢與計算邏輯的靈活性又如何呢?我們仍以『蝴蝶效應』為例:圖譜中任意兩個人、事或物之間是否存在某種冥冥中的因果《強關聯》效應?如果隻是簡單的 1 步關聯,任何傳統的搜索引擎、大數據 NoSQL 框架甚至關系型數據庫都可以解決,但如果是深度的關聯關系,例如牛頓和成吉思汗之間有什麼關聯關系,這又該如何計算呢?

Ultipa嬴圖實時圖數據系統,可以提供不止一種方法來解決以上問題。比如點到點的深度路徑搜索、多點間的組網搜索、基於某種模糊搜索條件的模板匹配搜索,還有類似於Web搜索引擎的面向圖譜的模糊文本路徑搜索。

圖13:某大圖中實時組網的可視化結果《形成子圖》搜索深度≥ 6跳

圖譜上還有其它很多必須依賴高靈活性與算力才可以完成的工作,比如依據靈活的過濾條件尋找點、邊、路徑;模式識別,社區、客群發現;尋找節點的全部或特定鄰居《或遞歸地發現更深的鄰居》;找到圖中具有相似屬性的實體或關聯關系……總之,沒有圖算力支撐的知識圖譜就像是沒有靈魂的軀殼,空有其表。無法完成種種具有挑戰性、深度搜索能力的事務。

三是,低代碼,所見即所得。圖譜系統除了上面提到的高算力與靈活性以外,還需要有白盒化《可解釋性》、表單化《低代碼、無代碼》以及以所見即所得的方式賦能業務的能力。

圖14:零代碼一鍵查找,僅需填入搜索范圍的數值即可,且2D、3D 、列表、表格甚至是異構數據融合的多種可視模式靈活轉化

在Ultipa嬴圖實時圖數據庫系統中,開發人員隻需敲1句 Ultipa GQL就可以完成操作,而業務人員則是使用預置的表單化插件通過零代碼的方式就可以實現對業務的查詢。這種方式,極大地助力員工提高了工作效率,同時賦能機構降低了運營成本,並打通了部門之間的溝通壁壘。

綜上所述,知識圖譜與圖數據庫的結合將會幫助各行各業加速實現數據中臺的業務建設,但諸如金融行業這種需要專業性、安全性、穩定性、實時性、精準性的行業,采用關系型數據庫來支撐上層應用並不能提供良好的數據處理性能,甚至無法完成數據處理任務,因此隻有實現具有實時、全面、深度穿透、逐筆追溯、精準計量的監測和預警性能的圖數據庫《圖計算》技術,才可能賦能組織更好地運籌帷幄且決勝千裡!

行文至此,突然想起了熱播的《三體》,其中提到了一個非常有意思的點——智子鎖死。大概意思是說,三體文明為了防止地球科技超過它,就通過鎖死人類基礎科學的方式進行各種阻礙。因為人類文明的飛躍,取決於基礎科學的發展和重大突破,鎖死人類的基礎科學就等於堵塞住了地球提升文明等級的道路……當然,筆者想告訴大家的是,圖技術就屬於人工智能的基礎設施之一,準確的說是圖技術=增強智能+可解釋 AI,它是 AI 與大數據發展過程中融合的必然產物。

圖15:圖數據庫《圖計算》技術,屬於人工智能基礎設施

[1] 圖數據https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0庫;

[2] 什麼是點; 背景知識 – Ultipa GQL – UQL – Ultipa Graph

[3] 什麼是邊:背景知識 – Ultipa GQL – UQL – Ultipa Graph

{4]《圖數據庫原理、架構與應用》; 孫宇熙,嬴圖團隊;2022-8;機械工業出版社.

《圖數據庫原理、架構與應用》是國內第一本全面系統地詳解有關圖數據庫、圖計算技術的專著。全書圍繞8大維度以幫助技術愛好者、從業者及高校師生快速實現對圖數據庫技術的入門、認知與實踐指導。