易觀分析發布《2025年AI產業發展十大趨勢》報告,后續將針對十大趨勢分別進行解析:

趨勢之一:self-play RL范式開啟,大模型技術軍備賽進入復雜推理階段
由OpenAI發布的GPT3作為序幕,大語言模型理解和生成能力、通用和泛化能力提升等,引爆了對于AGI發展的高預期,大量大模型涌現,開源模型與閉源模型并駕齊驅,國內大模型也在奮起直追,人工智能的發展從分析式AI進入生成式AI時代。

通過易觀分析AI開發者調研結果來看,OpenAI GPT系列大模型以42.9%的使用率位居首位,同為海外的Meta LLaMa系列大模型以27.1%的比例位居第三位。中國的大模型企業,阿里通義大模型以37.8%的使用率位居第二。總體上而言,AI開發者在模型層的選型仍然處于變動的狀態,且尚未形成相對比較明確的競爭格局。而OpenAI發布o1(草莓)模型,則再次定義大語言模型的技術方向與競爭焦點,如下圖所示:與以往的模型相比,OpenAI o1 聚焦于優化推理過程,在復雜的科學、編程和數學等任務中的表現顯著提升。它能夠像人類一樣進行深入思考、逐步推導,這對于解決需要深度邏輯推理的問題具有重大意義,突破了對大型語言模型能力的傳統認知,為人工智能在復雜任務處理上開辟了新的道路。由此而開啟Post-train階段的Self-play RL(自對弈強化學習)范式對于后續大模型技術路線的升級和優化具有指引性的意義,傳統預訓練依賴全網語料,數據有噪聲且質量不一,RLHF 后訓練受人類標注數據限制。純強化學習(RL)方法無需人類標注數據,能讓模型自我探索學習,激發創新和探索能力,利于突破未知領域。
同時,也需要注意到,盡管Self-play 方法已經開始在一定范圍內得到應用,但是,也仍然存在挑戰需要進一步研究和解決,包括收斂性問題、環境非平穩性問題、可擴展性與訓練效率等問題。另外,強化學習注重設計良好的“獎勵模型”,但是除了數學、代碼等理科領域,強化學習在其他領域仍然難以泛化。在OpenAI發布O1推理模型之后,國內大模型廠商也緊隨其后,紛紛推出了自己的推理模型。這些模型在數學、代碼、推理謎題等多種復雜推理任務上取得了顯著進步。總體上而言,在復雜推理階段,大模型需要具備更高層次的邏輯推理、因果推斷和問題解決能力,進而可以擴展大模型在更多領域發揮重要作用,復雜推理的重要性凸顯。這進一步提升了當下大模型技術能力的評價標準與競爭壁壘。