易觀：正視GPT-4功能缺陷與能力局限可更好探索大模型應(yīng)用

焦點專題分析陳一墨 2023-03-16 6655

GPT-4于2023年3月14日正式發(fā)布。與前代相比，GPT-4的功能有著非常大的提升，易觀認為其功能符合預(yù)期，也依舊存在前代即存在的功能缺陷類型與能力局限性。GPT-4的原有功能提升與新特性使其可應(yīng)用的范圍更廣，但對GPT-4的應(yīng)用需正視其目前存在的功能缺陷與能力局限性，以采取技術(shù)手段、改進應(yīng)用方法、設(shè)計應(yīng)用流程等方式充分挖掘其應(yīng)用潛力的同時規(guī)避可能存在的應(yīng)用風(fēng)險。

GPT-4的功能缺陷與能力局限性以及相關(guān)思考

3月14日，GPT-4正式發(fā)布。OpenAI首席執(zhí)行官Sam Altman表示GPT-4是他們目前功能最強的模型，而GPT-4也極有可能是對公眾開放使用的功能最強的大模型。與GPT-3.5相比，GPT-4的功能更強。在如GRE定量推理、SAT數(shù)學(xué)等為人類設(shè)計的多項模擬考試中成績有較大幅度的提升，在傳統(tǒng)機器學(xué)習(xí)模型評估中其成績也有非常明顯的提升。作為多模態(tài)模型，GPT-4對圖像的理解極為準確，且能解讀圖像中的深層含義。在推理方面，GPT-4的思維鏈，即將復(fù)雜推理任務(wù)分解為多個中間推理步驟的能力較前代也有明顯提升。易觀認為GPT-4在功能上的提升重點是其多模態(tài)理解能力與思維鏈能力，而這也使GPT-4具有更廣的應(yīng)用空間。

但也如Sam Altman所言，GPT-4仍有缺陷，其能力也有局限性。功能缺陷方面，與第4版ChatGPT相比，GPT-4的回答雖然在各個領(lǐng)域的知識上的真實率有了平均19%的提升，但其回答仍然會“編造”事實，并進行錯誤的推理。目前有關(guān)GPT-4的公開信息仍然較少，但易觀認為GPT-4采用的事實測試其數(shù)據(jù)與GPT-4訓(xùn)練數(shù)據(jù)分布存在偏差，因此可以認為在測試中GPT-4已展示出出色的領(lǐng)域泛化能力，且“編造”事實的情況也可以認為是領(lǐng)域泛化的應(yīng)用嘗試，這也與神經(jīng)科學(xué)中關(guān)于形成認知的過程相關(guān)研究成果具有較強的相似性。但結(jié)合GPT-4對錯誤答案的“堅持”與拒絕審查錯誤答案的情況也說明GPT-4目前對訓(xùn)練數(shù)據(jù)分布的邊界感知仍然非常模糊。能力局限性方面，GPT-4的絕大部分預(yù)訓(xùn)練數(shù)據(jù)截止至2021年9月，因此十分缺少在此時點之后的知識，比如GPT-4很可能不知道女王逝世的信息。且GPT-4不能從對話經(jīng)驗中進行學(xué)習(xí)，而這種能力的局限性也從側(cè)面反映出目前距離通用人工智能還有很長的一段路要走。

從人工智能相關(guān)研究來看，應(yīng)對GPT-4的功能缺陷需要關(guān)注領(lǐng)域泛化相關(guān)研究，建議關(guān)注元學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、解耦表達學(xué)習(xí)方面的研究進展以及運用強化學(xué)習(xí)探索中間表達的分布的相關(guān)研究。易觀認為解決訓(xùn)練數(shù)據(jù)分布的邊界感知問題可能需要以圖的形式審視訓(xùn)練數(shù)據(jù)，但目前從對圖的學(xué)習(xí)研究進展來看，利用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)GPT-4的訓(xùn)練數(shù)據(jù)圖仍然有著非常大的挑戰(zhàn)。從能力局限性來看，需要長期關(guān)注持續(xù)學(xué)習(xí)領(lǐng)域相關(guān)研究的進展，建議關(guān)注域增量持續(xù)學(xué)習(xí)與任務(wù)不可知持續(xù)學(xué)習(xí)的相關(guān)研究進展，重點關(guān)注基于參數(shù)隔離的持續(xù)學(xué)習(xí)方法，易觀認為應(yīng)用于基于參數(shù)隔離持續(xù)學(xué)習(xí)方法仍然需要以圖的形式審視基于任務(wù)的參數(shù)隔離方法，并要形成任務(wù)與隔離方法的評估標(biāo)準。

從應(yīng)用角度來看，既可以采用技術(shù)的方式降低GPT-4的應(yīng)用風(fēng)險，也可以通過改進應(yīng)用方式拓展其可用性，企業(yè)更應(yīng)在充分考慮其缺陷與局限性的前提下制定合理合規(guī)的應(yīng)用流程。后續(xù)也將在這個部分進一步展開。

對GPT-4的部分猜想及其引發(fā)的對大模型開發(fā)與應(yīng)用的思考

目前已知GPT-3的參數(shù)量為175B，而其后GPT-3.5的參數(shù)量未知。易觀認為GPT-3.5的參數(shù)量可能已接近500B規(guī)模，而GPT-4的參數(shù)量即使在經(jīng)后訓(xùn)練后很可能也已突破1T規(guī)模。而從ChatGPT的應(yīng)用效果來看，很有可能GPT-3.5已經(jīng)采用編解碼架構(gòu)，GPT-4也沿用同一架構(gòu)。

根據(jù)以上猜想，從微軟與OpenAI對GPT系列模型訓(xùn)練而準備的算力規(guī)模來看，已有針對超算的并行計算框架，并很大程度上解決了T級參數(shù)量大模型的并行計算問題，即在大模型開發(fā)的工程化能力方面獲得了前沿經(jīng)驗，也可以保證后續(xù)開發(fā)的大模型參數(shù)量的持續(xù)增長。從目前公開的GPT-4訓(xùn)練方面的資料來看，OpenAI也已經(jīng)對大模型訓(xùn)練的規(guī)律有著較好的總結(jié)，這也有利于開發(fā)針對某一領(lǐng)域，具備特定功能的大模型。AI工程化能力的升級對于我國進行大模型的開發(fā)與落地具備非常重要的借鑒意義。

在商業(yè)化的考慮上，GPT-4所產(chǎn)生的示范效應(yīng)主要為如下幾個方面，國內(nèi)大模型開發(fā)與商用過程中可以予以借鑒。

其一，與GPT-3.5以及ChatGPT相比，GPT-4更側(cè)重其企業(yè)級應(yīng)用的穩(wěn)定性與安全性，GPT-4在2022年8月已經(jīng)完成訓(xùn)練，而為了應(yīng)對可能的風(fēng)險，在完成訓(xùn)練后直到正式發(fā)布的這段時間里一直在對其進行評估、對抗測試、迭代提升、微調(diào)與系統(tǒng)級的調(diào)整；

其二，盡管GPT-4并未開源，但是需要關(guān)注到OpenAI同時開源的Evals，既可以用來評估不同大模型的表現(xiàn)，也可以為特定問題設(shè)計專有的評估邏輯。這既可證明其產(chǎn)品能力，又為行業(yè)設(shè)定標(biāo)準，更可用來輔助設(shè)計GPT-4在不同場景不同行業(yè)的應(yīng)用模式。充分利用GPT-4的思維鏈能力，檢查其推理邏輯，拓展其可用性，規(guī)避錯誤推理以及“編造”事實可能產(chǎn)生的應(yīng)用風(fēng)險，企業(yè)應(yīng)用GPT-4時，也應(yīng)針對性的設(shè)計人工審查環(huán)節(jié)，明確責(zé)任主體，充分利用其生產(chǎn)力的同時保證其應(yīng)用的合規(guī)性，降低應(yīng)用風(fēng)險發(fā)生的可能性；

其三，深度協(xié)同形成最佳實踐，激發(fā)圍繞GPT-4應(yīng)用與開發(fā)的無限可能性，此次摩根斯丹利、Be My Eyes、可汗學(xué)院等應(yīng)用實踐不僅是GPT-4能力的最佳佐證，也進一步引導(dǎo)了未來其應(yīng)用的可能方向，包括智能客服、知識搜索、虛擬員工與智能辦公等應(yīng)用，以及在軟件開發(fā)、金融、醫(yī)療、法律、廣告等行業(yè)的應(yīng)用價值等；

其四，開放文本輸入字數(shù)限制，不僅僅展示了其快速的文本理解與邏輯學(xué)習(xí)能力，同時，也為其按照輸出內(nèi)容量收費的商業(yè)化可能性打開了想象空間，結(jié)合其最佳實踐的引導(dǎo)，無論是場景應(yīng)用還是商業(yè)模式方面，GPT-4均做出了比較好的示范，值得中國大模型予以借鑒。

聲明須知：易觀分析在本文中引用的第三方數(shù)據(jù)和其他信息均來源于公開渠道，易觀分析不對此承擔(dān)任何責(zé)任。任何情況下，本文僅作為參考，不作為任何依據(jù)。本文著作權(quán)歸發(fā)布者所有，未經(jīng)易觀分析授權(quán)，嚴禁轉(zhuǎn)載、引用或以任何方式使用易觀分析發(fā)布的任何內(nèi)容。經(jīng)授權(quán)后的任何媒體、網(wǎng)站或者個人使用時應(yīng)原文引用并注明來源，且分析觀點以易觀分析官方發(fā)布的內(nèi)容為準，不得進行任何形式的刪減、增添、拼接、演繹、歪曲等。因不當(dāng)使用而引發(fā)的爭議，易觀分析不承擔(dān)因此產(chǎn)生的任何責(zé)任，并保留向相關(guān)責(zé)任主體進行責(zé)任追究的權(quán)利。

未經(jīng)易觀分析授權(quán)，嚴禁轉(zhuǎn)載、引用或以任何方式使用易觀分析發(fā)布的任何內(nèi)容。經(jīng)授權(quán)后的任何媒體、網(wǎng)站或者個人使用時應(yīng)原文引用并注明來源，且分析觀點以易觀分析官方發(fā)布的內(nèi)容為準，不得進行任何形式的刪減、增添、拼接、演繹、歪曲等。因不當(dāng)使用而引發(fā)的爭議，易觀分析不承擔(dān)因此產(chǎn)生的任何責(zé)任，并保留向相關(guān)責(zé)任主體進行責(zé)任追究的權(quán)利。

继攵女h娇喘抽搐喷潮h,www.97av,senima尼玛亚洲综合影院收藏,激情婷婷综合

了解易觀分析

易觀：正視GPT-4功能缺陷與能力局限可更好探索大模型應(yīng)用

熱門推薦

聯(lián)系我們

继攵女h娇喘抽搐喷潮h,www.97av,senima尼玛亚洲综合影院 收藏,激情婷婷综合

了解易觀分析

易觀：正視GPT-4功能缺陷與能力局限可更好探索大模型應(yīng)用

熱門推薦

继攵女h娇喘抽搐喷潮h,www.97av,senima尼玛亚洲综合影院收藏,激情婷婷综合