继攵女h娇喘抽搐喷潮h,www.97av,senima尼玛亚洲综合影院 收藏,激情婷婷综合

  • 產(chǎn)品與服務(wù)矩陣
  • 資源中心
  • 關(guān)于我們

易觀:正視GPT-4功能缺陷與能力局限可更好探索大模型應(yīng)用

焦點專題分析 陳一墨 2023-03-16 6655
GPT-4于2023年3月14日正式發(fā)布。與前代相比,GPT-4的功能有著非常大的提升,易觀認為其功能符合預(yù)期,也依舊存在前代即存在的功能缺陷類型與能力局限性。GPT-4的原有功能提升與新特性使其可應(yīng)用的范圍更廣,但對GPT-4的應(yīng)用需正視其目前存在的功能缺陷與能力局限性,以采取技術(shù)手段、改進應(yīng)用方法、設(shè)計應(yīng)用流程等方式充分挖掘其應(yīng)用潛力的同時規(guī)避可能存在的應(yīng)用風(fēng)險。

GPT-4的功能缺陷與能力局限性以及相關(guān)思考


3月14日,GPT-4正式發(fā)布。OpenAI首席執(zhí)行官Sam Altman表示GPT-4是他們目前功能最強的模型,而GPT-4也極有可能是對公眾開放使用的功能最強的大模型。與GPT-3.5相比,GPT-4的功能更強。在如GRE定量推理、SAT數(shù)學(xué)等為人類設(shè)計的多項模擬考試中成績有較大幅度的提升,在傳統(tǒng)機器學(xué)習(xí)模型評估中其成績也有非常明顯的提升。作為多模態(tài)模型,GPT-4對圖像的理解極為準確,且能解讀圖像中的深層含義。在推理方面,GPT-4的思維鏈,即將復(fù)雜推理任務(wù)分解為多個中間推理步驟的能力較前代也有明顯提升。易觀認為GPT-4在功能上的提升重點是其多模態(tài)理解能力與思維鏈能力,而這也使GPT-4具有更廣的應(yīng)用空間。


但也如Sam Altman所言,GPT-4仍有缺陷,其能力也有局限性。功能缺陷方面,與第4版ChatGPT相比,GPT-4的回答雖然在各個領(lǐng)域的知識上的真實率有了平均19%的提升,但其回答仍然會“編造”事實,并進行錯誤的推理。目前有關(guān)GPT-4的公開信息仍然較少,但易觀認為GPT-4采用的事實測試其數(shù)據(jù)與GPT-4訓(xùn)練數(shù)據(jù)分布存在偏差,因此可以認為在測試中GPT-4已展示出出色的領(lǐng)域泛化能力,且“編造”事實的情況也可以認為是領(lǐng)域泛化的應(yīng)用嘗試,這也與神經(jīng)科學(xué)中關(guān)于形成認知的過程相關(guān)研究成果具有較強的相似性。但結(jié)合GPT-4對錯誤答案的“堅持”與拒絕審查錯誤答案的情況也說明GPT-4目前對訓(xùn)練數(shù)據(jù)分布的邊界感知仍然非常模糊。能力局限性方面,GPT-4的絕大部分預(yù)訓(xùn)練數(shù)據(jù)截止至2021年9月,因此十分缺少在此時點之后的知識,比如GPT-4很可能不知道女王逝世的信息。且GPT-4不能從對話經(jīng)驗中進行學(xué)習(xí),而這種能力的局限性也從側(cè)面反映出目前距離通用人工智能還有很長的一段路要走。


從人工智能相關(guān)研究來看,應(yīng)對GPT-4的功能缺陷需要關(guān)注領(lǐng)域泛化相關(guān)研究,建議關(guān)注元學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、解耦表達學(xué)習(xí)方面的研究進展以及運用強化學(xué)習(xí)探索中間表達的分布的相關(guān)研究。易觀認為解決訓(xùn)練數(shù)據(jù)分布的邊界感知問題可能需要以圖的形式審視訓(xùn)練數(shù)據(jù),但目前從對圖的學(xué)習(xí)研究進展來看,利用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)GPT-4的訓(xùn)練數(shù)據(jù)圖仍然有著非常大的挑戰(zhàn)。從能力局限性來看,需要長期關(guān)注持續(xù)學(xué)習(xí)領(lǐng)域相關(guān)研究的進展,建議關(guān)注域增量持續(xù)學(xué)習(xí)與任務(wù)不可知持續(xù)學(xué)習(xí)的相關(guān)研究進展,重點關(guān)注基于參數(shù)隔離的持續(xù)學(xué)習(xí)方法,易觀認為應(yīng)用于基于參數(shù)隔離持續(xù)學(xué)習(xí)方法仍然需要以圖的形式審視基于任務(wù)的參數(shù)隔離方法,并要形成任務(wù)與隔離方法的評估標(biāo)準。


從應(yīng)用角度來看,既可以采用技術(shù)的方式降低GPT-4的應(yīng)用風(fēng)險,也可以通過改進應(yīng)用方式拓展其可用性,企業(yè)更應(yīng)在充分考慮其缺陷與局限性的前提下制定合理合規(guī)的應(yīng)用流程。后續(xù)也將在這個部分進一步展開。


對GPT-4的部分猜想及其引發(fā)的對大模型開發(fā)與應(yīng)用的思考


目前已知GPT-3的參數(shù)量為175B,而其后GPT-3.5的參數(shù)量未知。易觀認為GPT-3.5的參數(shù)量可能已接近500B規(guī)模,而GPT-4的參數(shù)量即使在經(jīng)后訓(xùn)練后很可能也已突破1T規(guī)模。而從ChatGPT的應(yīng)用效果來看,很有可能GPT-3.5已經(jīng)采用編解碼架構(gòu),GPT-4也沿用同一架構(gòu)。


根據(jù)以上猜想,從微軟與OpenAI對GPT系列模型訓(xùn)練而準備的算力規(guī)模來看,已有針對超算的并行計算框架,并很大程度上解決了T級參數(shù)量大模型的并行計算問題,即在大模型開發(fā)的工程化能力方面獲得了前沿經(jīng)驗,也可以保證后續(xù)開發(fā)的大模型參數(shù)量的持續(xù)增長。從目前公開的GPT-4訓(xùn)練方面的資料來看,OpenAI也已經(jīng)對大模型訓(xùn)練的規(guī)律有著較好的總結(jié),這也有利于開發(fā)針對某一領(lǐng)域,具備特定功能的大模型。AI工程化能力的升級對于我國進行大模型的開發(fā)與落地具備非常重要的借鑒意義。


在商業(yè)化的考慮上,GPT-4所產(chǎn)生的示范效應(yīng)主要為如下幾個方面,國內(nèi)大模型開發(fā)與商用過程中可以予以借鑒。


其一,與GPT-3.5以及ChatGPT相比,GPT-4更側(cè)重其企業(yè)級應(yīng)用的穩(wěn)定性與安全性,GPT-4在2022年8月已經(jīng)完成訓(xùn)練,而為了應(yīng)對可能的風(fēng)險,在完成訓(xùn)練后直到正式發(fā)布的這段時間里一直在對其進行評估、對抗測試、迭代提升、微調(diào)與系統(tǒng)級的調(diào)整;


其二,盡管GPT-4并未開源,但是需要關(guān)注到OpenAI同時開源的Evals,既可以用來評估不同大模型的表現(xiàn),也可以為特定問題設(shè)計專有的評估邏輯。這既可證明其產(chǎn)品能力,又為行業(yè)設(shè)定標(biāo)準,更可用來輔助設(shè)計GPT-4在不同場景不同行業(yè)的應(yīng)用模式。充分利用GPT-4的思維鏈能力,檢查其推理邏輯,拓展其可用性,規(guī)避錯誤推理以及“編造”事實可能產(chǎn)生的應(yīng)用風(fēng)險,企業(yè)應(yīng)用GPT-4時,也應(yīng)針對性的設(shè)計人工審查環(huán)節(jié),明確責(zé)任主體,充分利用其生產(chǎn)力的同時保證其應(yīng)用的合規(guī)性,降低應(yīng)用風(fēng)險發(fā)生的可能性;


其三,深度協(xié)同形成最佳實踐,激發(fā)圍繞GPT-4應(yīng)用與開發(fā)的無限可能性,此次摩根斯丹利、Be My Eyes、可汗學(xué)院等應(yīng)用實踐不僅是GPT-4能力的最佳佐證,也進一步引導(dǎo)了未來其應(yīng)用的可能方向,包括智能客服、知識搜索、虛擬員工與智能辦公等應(yīng)用,以及在軟件開發(fā)、金融、醫(yī)療、法律、廣告等行業(yè)的應(yīng)用價值等;


其四,開放文本輸入字數(shù)限制,不僅僅展示了其快速的文本理解與邏輯學(xué)習(xí)能力,同時,也為其按照輸出內(nèi)容量收費的商業(yè)化可能性打開了想象空間,結(jié)合其最佳實踐的引導(dǎo),無論是場景應(yīng)用還是商業(yè)模式方面,GPT-4均做出了比較好的示范,值得中國大模型予以借鑒。


聲明須知:易觀分析在本文中引用的第三方數(shù)據(jù)和其他信息均來源于公開渠道,易觀分析不對此承擔(dān)任何責(zé)任。任何情況下,本文僅作為參考,不作為任何依據(jù)。本文著作權(quán)歸發(fā)布者所有,未經(jīng)易觀分析授權(quán),嚴禁轉(zhuǎn)載、引用或以任何方式使用易觀分析發(fā)布的任何內(nèi)容。經(jīng)授權(quán)后的任何媒體、網(wǎng)站或者個人使用時應(yīng)原文引用并注明來源,且分析觀點以易觀分析官方發(fā)布的內(nèi)容為準,不得進行任何形式的刪減、增添、拼接、演繹、歪曲等。因不當(dāng)使用而引發(fā)的爭議,易觀分析不承擔(dān)因此產(chǎn)生的任何責(zé)任,并保留向相關(guān)責(zé)任主體進行責(zé)任追究的權(quán)利。