借用陸奇在4月23日深圳的分享來說,GPT現在已經進入了淘金時代。
雖然全球湧現出成千上萬的大模型或ChatGPT變種,但一直能掙錢的人往往是賣鏟子的人。
這不,圍繞暴風眼中的大模型,已經有不少企業,開始研究起了大模型的『鏟子』產品,而且開源和付費兩不誤。
一、英偉達:給大模型上安全護欄
不管ChatGPT能不能笑到最後,英偉達肯定是大贏家。
做大模型的生意不止是芯片,還有工具和服務。
大模型會產生『幻覺』,是一個被人詬病的事實。
英偉達很快就打造了一個『安全護欄』NeMo Guardrails,它充當一種針對基於大型語言模型 (LLM) 構建的應用程序的檢查器,而且這個『鏟子』已經在Github上開源了。
有了它,大模型應用的開發者可以輕松開發安全可靠的LLM對話系統。
NeMo Guardrails可以與所有LLM一起使用,包括OpenAI的ChatGPT。
該工具包由社區構建的工具包提供支持,例如LangChain,它在短短幾個月內就在GitHub上收集了約3萬顆星。
這些工具包提供可組合、易於使用的模板和模式,通過將LLM、API和其他軟件包粘合在一起來構建LLM支持的應用程序。
Nvidia應用研究副總裁Jonathan Cohen昨天在與記者的簡報會上談到了這款新軟件,並表示:『Guardrails是一個很好的向導,有助於保持人與人工智能之間的對話正常進行』
據稱,NeMo Guardrails使開發人員能夠設置三種護欄:
- 局部護欄:『防止應用程序轉向不需要的區域』。
Cohen給出了一個例子是:一名員工詢問人力資源聊天機器人哪些員工收養了孩子。
護欄阻止聊天機器人嘗試回答這個問題。
- Safety護欄:是一個廣泛的類別,包括事實核查《防止幻覺》、過濾掉不需要的語言和防止仇恨內容。
- Security護欄:限制應用程序僅與已知安全的外部第三方應用程序建立連接。
開發人員還可以『用幾行代碼』創建自己的自定義規則。
NeMo Guardrails可以在各種使用LLM的工具上運行。
簡報中提到的第一個是LangChain,它是開發人員用來將第三方應用程序插入LLM的開源工具包。
它還能與支持LLM的應用程序《例如Zapier》一起使用。
值得注意的是,開源歸開源,不影響賺錢。
集成到產品中卻是要付費的。
雖然NeMo Guardrails可以通過GitHub單獨使用,但Nvidia也將其集成到他們自己的幾個產品中。
它在 NeMo 框架中可用,『其中包括用戶使用公司專有數據訓練和調整語言模型所需的一切』 此外,Nvidia已將其作為一項單獨的付費服務提供。
1.事實核查:用大模型來監管大模型
那麼,如何防止幻覺呢?
有趣的是,作為Safety護欄的一部分,事實核查不是由人完成的,而是由另一個LLM完成的。
Cohen解釋說,這是因為組織可以定制和培訓LLM,使其成為特定數據的事實核查員。
『在非常具體的任務上使用大量數據訓練語言模型也有很多價值,我們《包括社區》有很多證據,比如當你用大量的例子對這些模型進行微調時,它們實際上可以表現得更好』
圖片來源:英偉達
2.如何實現的?無限套娃!
在一篇技術部落格文章中,Nvidia表示NeMo Guardrails是建立在Colang之上的,Colang是一種建模語言,其用於對話式AI的相關運行時。
Cohen將其描述為『一種用於描述對話流的特定領域語言』。
根據Nvidia的說法,與Colang的交互『就像一個傳統的對話管理器』。
Colang 代碼示例
至於護欄是如何實現的,Cohen解釋說它是一個運行Colang腳本的Python模塊。
運行時『監控人類說話和機器人說話,並跟蹤對話的狀態』
根據Cohen的說法,關鍵在於運行時『能夠確定護欄是否適用』。
然而,LLM再次被用來做出這個決定。
在對代碼進行了越來越深入的研究後,仍然看不到結尾,你可以沮喪地驚呼『一路往下都是烏龜!』
這是指地球在烏龜背上的比喻。
烏龜站在什麼上面?又是一隻烏龜。
。
。
Cohen對此進行了辯護,他說:『為什麼我們不使用大型語言模型?[它] 是一種如此強大的技術,可用於上下文理解和概括以及這種模糊推理』
當然,從事實核查和安全的角度來看,對LLM的嚴重依賴確實讓人懷疑系統的可靠性。
但這肯定是它作為開源軟件發佈的原因——讓社區的力量來處理那些『無限套娃』的問題吧。
二、OpenAI :增設新功能『關閉歷史聊天』、新增企業收費版
當然領先的淘金者往往也是『金鏟子』的發明者。
這不,OpenAI對於數據安全的優化,繼續領跑,推出了新功能和新版本——關閉歷史聊天,可導出數據,推出企業訂閱!
此前,ChatGPT被曝出用戶的歷史聊天記錄出現在別人的用例中。
這次,OpenAI推出了更為人性的功能:引入了在ChatGPT中關閉聊天歷史記錄的功能。
當聊天歷史記錄被禁用時,開始的對話不會用於訓練和改進我們的模型,也不會出現在歷史記錄側邊欄中。
這些控件從今天開始向所有用戶推出,可以在ChatGPT的設置中找到,並且可以隨時更改。
我們希望這能比我們現有的選擇退出流程更容易地管理您的數據。
當聊天記錄被禁用時,我們將保留30天的新對話,並僅在需要監控濫用情況時進行審查,然後永久刪除。
如何在ChatGPT中禁用歷史記錄的說明
此外,OpenAI也為需要更多數據控制的專業人士以及尋求管理最終用戶的企業,開發了新的ChatGPT Business訂閱。
ChatGPT Business將遵循我們的API數據使用政策。
默認情況下,最終用戶的數據不會用於訓練GPT模型。
ChatGPT企業版未來幾個月內推出。
最後,設置中的新導出選項,使導出ChatGPT數據和了解ChatGPT存儲的信息變得更加容易。
用戶在在電子郵件中將收到一個包含對話和所有其他相關數據的文件。
三、市面上缺少識別AI生成內容的工具
除了解決AIGC產生幻覺,歷史聊天等數據泄露的問題,其實更迫在眉睫的問題是:AI濫用的問題。
進入4月以來,AIGC生成的內容已經開始充斥不少知名的平臺,比如知乎上已經有些用戶開始濫用AI來回答問題。
緊接著,知乎官方也發佈了聲明,並表示:『批量發佈AIGC類內容的行為有違知乎社區價值觀,社區對此類行為零容忍,將持續加強對違規帳號的打擊力度』
『若知友們發現有利用AIGC技術,擾亂社區秩序的內容或帳號,可通過「舉報」-「擾亂社區秩序」-「AI 生成內容」的途徑反饋給我們,我們將第一時間展開核查和處理』
但從聲明可以看出,目前還隻是通過舉報的形式來辨識,我們依舊缺乏有力的技術工具來識別是否是AI輔助生成的內容。
最後,這個『嗅探真假』的工具產品也許是時候問世了,而且越早越好。
四、寫在最後
以ChatGPT、Midjourney等為代表的AIGC空前熱鬧,我們都在關注這一輪AI變革給千行百業帶來的機會空間。
今天,我們看到OpenAI、英偉達、內容平臺在圍繞著它,正在探索著這個空間的落地之處。
浪潮之中,淘金者甚眾。
我們在抓緊窗口期追趕國產版『ChatGPT』的同時,別忘了浪潮周邊的配套『鏟子』產品是否已經跟上,比如安全產品、各行業的專用產品,內容質量的識別產品等等。