金融科技
2025年3月
AI代理已大幅提升生產力
大型語言模型(LLM)的根本技術,可以用一個詞來概括:「自動完成」,也就是根據訓練材料,預測接下來最合適的詞語。在許多情境下,這種作法通常都非常有效,因為它和人類的意識流非常吻合;然而,LLM並不具備真正的思考能力,而是根據第一印象來回答問題,早期的LLM經常出現「AI幻覺」,也就是生成與事實不符的內容,這在商業應用上造成嚴重挑戰,使其主要應用於娛樂或創意領域。
相較之下,人類從小學開始,就學習避免完全依賴第一印象。我們習慣在寫下答案之前,進行推理與驗證,學習利用計算工具來減少重複性工作,並確保結果準確。新一代的「推理模型」正是透過類似的方法來克服統計學上的「樣本外問題」,不再只是記住訓練資料,而是將學習到的知識靈活應用於全新的情境。
過去一段時間,許多人認為只要不斷擴大預先訓練的規模,就能提升LLM的能力。換句話說,就是將整個網際網路上的資料納入訓練,並透過更精細的微調,使模型變得更聰明。2020年,OpenAI的研究人員發表論文《神經語言模型的規模法則》(Scaling Laws for Neural Language Models),指出隨著訓練計算量增加好幾個數量級,模型的表現也隨之提升。因此,當時的最佳化策略主要聚焦於增加訓練計算資源。然而到了2024年底,虛假的希望宣告破滅,因為矽谷已經將幾乎整個網際網路的資料都投入訓練,LLM的表現卻依然無法達標。截至目前為止,GPT-5仍未問世。
此後,AI發展出現兩個重大突破,其一是數學和邏輯問題。2024年11月獲頒菲爾茲獎的數學家陶哲軒(Terence Tao)曾預測,能夠解決這類問題的自動化技術仍需數年時間才能實現。然而,OpenAI開發的推理模型o1和o3似乎已經在一定程度上克服了這些挑戰。o3採用「思維鏈」(Chain of thought)推理來處理數學問題,類似於學生在解題時逐步列出完整計算過程,再得出答案,目前解題成功率為25%。此外,在執行提示詞時,o3會根據脈絡,使用不同的LLM來處理不同部分的任務,這些LLM有時稱為「代理」。
在推理過程中擴展計算能力的方式,讓整個產業感到意外,甚至超越監理機構的預期。各國對於基礎模型的監理標準,主要根據模型的參數規模,例如美國監理機構特別關注參數數量是否帶來潛在的安全風險,並在2023年提出《AI基礎模型透明法案》,將「10億個參數」作為重要門檻。即使歐盟《AI法案》(AI Act)更注重模型的實際功能,依然將規模列入評估範圍之中。
第二個重大突破來自中國AI團隊DeepSeek。2025年1月,DeepSeek發布了r1推理模型,該模型在展現高效能推理能力時,大幅降低了運算力,進一步挑戰了規模放大法則;對使用者而言,r1在訓練與推理階段的表現,都已經超越了傳統模型規模增長所帶來的效能提升。DeepSeek的r1推理,與OpenAI的o1、o3一樣都運用「思維鏈」推理,而且推理過程更加透明。從使用者的角度來看,r1的代理性特徵更明顯,更少隱藏運作方式。
2024年12月,OpenAI執行長Sam Altman在部落格文章中預測,能在真實世界中自主決策的AI代理將在2025年實用化。然而AI是否在真實世界中自主決策,主要並非取決於其架構,而是取決於使用者是否認為它具備決策能力。當然,新科技的落地時程通常比預測時間更長,但推理模型能處理的問題,遠遠不止於數學計算。
以金融業為例,我們可以想像只要有適當的推理預算,金融業就可以設計出統計上完備而無矛盾的交易機器人,讓使用者只要按幾個鍵,便能根據最新的市場數據與網路資訊,自動執行交易策略。大型金融機構必然會利用這項技術來提升業務效率,但從長遠來看,散戶所獲的利益可能更大。過去,散戶缺乏強大計算能力來執行監理套利,但AI的發展讓這種可能性大幅提升。
當然,金融機構和散戶所面對的風險不同。金融機構的監理強度會跟以前一樣不會減弱,尤其未來投資決策模型產生時,監理機構更要能夠監督。但散戶面臨的挑戰,則是AI可能違反使用者的利益,甚至在未經授權的情況下執行不當交易。為了保障散戶權益,制定AI安全法規勢在必行。在這方面,歐盟的數位監管可能比美國更嚴格,且影響範圍更廣,甚至可能波及部分非AI領域的傳統軟體。(本文作者為台灣金融研訓院外聘研究員;譯者盧靜)