這份研究的結論非常直接:這些AI模型,充其量只是在玩一場「進階記憶遊戲」!這句話簡直是打臉了許多AI公司的宣傳,也讓大家重新思考,我們現在所處的AI發展階段,到底是不是真的如想像中那麼「聰明」?
蘋果研究團隊為了避開常見的訓練資料污染問題(也就是AI模型可能在訓練時就已經「看過」答案),特別自訂了一組從未出現在任何資料集中的「邏輯謎題」。這些謎題設計得非常精巧,目的就是為了明確區分出,AI模型究竟是真的「理解內容」並進行邏輯判斷,還是僅僅是「死記硬背」模式,然後進行猜測。
AI模型「高複雜度」謎題前「崩盤」!甚至出現「自暴自棄」亂回答現象!
這份研究的結果真的很有趣,甚至有點「尷尬」!研究指出,當這些邏輯謎題進入較高複雜度時,那些號稱有「推理能力」的AI模型,表現竟然會明顯「崩盤」!它們甚至出現了「自暴自棄」的現象,例如直接放棄解題、胡亂回答,或是給出一些根本不著邊際的答案。
實驗結果可以歸納為三個階段,這也為我們呈現了當前AI模型的真實能力天花板:
- 低複雜度: 在比較簡單的邏輯謎題面前,反而是一些普通模型的表現更穩定,因為它們可能更容易找到直接的模式進行匹配。
- 中等複雜度: 這個階段,那些「標榜會思考」的AI模型,確實會稍占優勢,這可能因為它們的參數更多、訓練數據更廣,在部分複雜模式上表現更好。
- 高複雜度: 但一旦謎題進入真正考驗邏輯和推理能力的「高複雜度」階段,所有的AI模型表現都接近失效!
最諷刺的是,蘋果指出,我們現實生活中的問題,絕大多數正好就落在「高複雜度」區間!這說明,目前的AI模型雖然在某些特定任務上表現驚人,但要解決真實世界中複雜、多變、需要深層推理的問題,它們的能力還遠遠不夠。
研究中還舉了一個例子,讓人啼笑皆非:這些AI模型居然能成功解出百步的河內塔(一個複雜的數學謎題,通常用來測試遞歸算法),卻會卡在一個只需要4步的渡河謎題(例如農夫、羊、狼、草過河的經典問題)。這再次顯示,AI並非真正理解問題的本質,而只是根據模式記憶進行猜測。
這項研究無疑是直指了目前主流的大型語言模型(LLM)的根本限制:它們缺乏真正的「邏輯鏈條構建能力」,無法像人類一樣進行深層次的、一步步的推理和邏輯連接。它們更像是超級複雜的「統計引擎」,擅長預測下一個最可能的字詞或模式,而非真正理解。
Google執行長Pichai提出「AJI」新概念!坦言AI表現「時好時壞」,像「人工鋸齒智慧」!
與此同時,Google執行長桑德爾.皮采(Sundar Pichai)也創造了一個新詞來形容當前AI的狀態,那就是「AJI」,也就是「人工鋸齒智慧(Artificial Jagged Intelligence)」!
Pichai用「鋸齒」來形容AI的表現,意思就是「起伏極大,時而令人驚豔,時而荒謬可笑」。他舉了一個非常生動的例子:「有時AI回答讓你讚嘆不已,下一秒卻連草莓裡有幾個R都數不清。」這種「不穩定性」,正是當今AI的真實狀態,也與蘋果的研究結果不謀而合。
儘管如此,Pichai 對 AI 的未來發展仍然抱持著樂觀的態度。他認為,即便**通用人工智慧(AGI)**無法如預期般在2030年實現,AI 仍將在許多關鍵領域發揮重大影響,例如:
- 知識擴散: 加速資訊傳播和學習。
- 氣候變遷: 提供數據分析和解決方案。
- 醫療研究: 協助藥物開發和疾病診斷。
- 經濟發展: 提升生產力和效率。
Pichai 的「AJI」概念,或許也為AI產業提供了一個更務實、更貼近現實的視角,承認AI的局限性,同時也看到了其巨大的潛力。
社群反應兩極化:AI還能超越人類思考嗎?
這份蘋果的研究報告一經發表,立刻在科技社群中掀起了「論戰」!社群反應呈現兩極化:
- 「悲觀派」: 一派人認為,這份研究證實了當前LLM(大型語言模型)的架構確實不足以支撐AGI的實現。他們認為,如果AI連基本的邏輯推理都做不到,那麼要達到人類級別的智慧,還有很長的路要走,甚至可能需要根本性的技術突破。
- 「樂觀派」: 另一派人則指出:「推理本身就是一種模式學習」,不應該對AI的判斷過於悲觀。他們認為,AI的學習能力會隨著數據和算法的進步而不斷提升,現在做不到的,不代表未來也做不到。或許AI學習推理的方式和人類不同,但最終也能達到類似的效果。
無論是哪種觀點,這份蘋果的研究都明確提醒了我們:AI並非萬能,距離「真正會思考」的人類智慧,仍然有著一段不小的距離。這也讓AI的未來發展方向,增添了更多想像空間和挑戰。或許,AI發展的下一個瓶頸,不是算力或數據量,而是對「智慧本質」的更深層次理解。