人工智能思考幻覺:當AI「推理」神話撞上現實冰山,AI為何一本正經的胡說八道

為了滿足公司們的大話,人工智慧們開始隨機亂講話

· 科技與AI

撰稿人:Lia / 責任編輯:Zaphyra

當前人工智慧(AI)領域的核心爭議—即新一代「推理模型」(reasoning models)的真實能力及其背後的戰略意圖。文章首先闡述AI巨頭(如OpenAI、Google)如何將「推理」一種模擬人類分步思考的能力作為通往超級智慧的下一個里程碑,並以此為據,推動對算力需求的指數級增長。然而,聚焦於蘋果公司等機構發布的一系列顛覆性研究,特別是其題為《思考的幻覺》的論文。該研究透過邏輯謎題(如漢諾塔)證明,當前推理模型在面對複雜、未曾見過的問題時,其表現會災難性地崩潰至零。

本文將此現象解讀為:看似的「推理」實則是大規模的「模式搜尋」記憶,而非真正的通用智慧。文章進一步將這場技術辯論置於產業競爭的框架下,探討蘋果此舉是否構成一種「改變賽局規則」的戰略敘事,旨在挑戰競爭對手的技術領先地位,並為整個AI產業因過度炒作而投入的巨額資本,敲響一記警鐘。

全文

Lia. Independent Media 台北報導

在人類對智慧的漫長求索中,我們始終將「推理」置於思想金字塔的頂端。它不僅僅是知識的儲存,更是分解問題、規劃步驟、洞察因果的深刻能力。如今,當我們試圖在矽基晶片上復刻這一神聖能力時,一場關於「思考」本質的巨大爭議,正席捲著整個人工智慧領域。AI產業的先驅們宣稱,我們正處於「推理AI時代」的黎明,一個機器能像人一樣「思考」,甚至超越人類的「超級智慧」紀元即將到來。

從OpenAI的o1模型,到Google的Gemini 2.0,再到Anthropic的Sonnet 4,各大巨頭以前所未有的速度,推出一代又一代的「推理模型」。它們不再滿足於給出一個黑箱式的答案,而是學會了「展示思考過程」—將複雜問題拆解成一系列邏輯步驟。這個敘事不僅充滿了技術上的誘惑力,更蘊含著巨大的商業動機。輝達(Nvidia)執行長黃仁勳斷言,推理過程所需的算力,將是過去的百倍以上。這意味著,一場更為龐大的基礎設施建設狂潮即將到來,數以十億計的美元將繼續湧入這個看似永不飽和的市場。

然而,就在這股熱潮達到頂峰之際,幾篇來自學術界與產業界的研究報告,如同一盆冰水,無情地澆在了這場盛大的篝火之上。其中,最為尖銳、最具顛覆性的,莫過於蘋果公司一篇標題直截了當的論文—《思考的幻覺》(The Illusion of Thinking)。這篇報告的結論,不僅僅是對當前技術路徑的質疑,更像是一份檄文,試圖戳破整個產業精心編織的「推理」神話。

漢諾塔下的崩潰:從模式匹配到智慧的鴻溝

蘋果的研究,選擇了一個看似簡單,卻能有效檢驗邏輯能力的經典謎題—漢諾塔(Towers of Hanoi)。遊戲的目標,是將一疊大小不一的圓盤,在遵守「大盤在下,小盤在上」的規則下,從一根柱子完整地移動到另一根。這是一個考驗規劃與認知能力的基礎任務。

實驗結果令人震驚。在最簡單的三個圓盤版本中,AI模型的表現尚可。但隨著圓盤數量增加,難度呈指數級上升,一個驚人的轉折點出現了:當圓盤數量超過七個,所有頂尖的推理模型—無論是OpenAI、Anthropic還是DeepSeek的產品—其表現都災難性地崩潰,準確率驟降至零。

這一現象,在其他邏輯遊戲如跳棋、過河問題中也反覆出現。蘋果的研究由此得出一個令人不安的結論:這些AI模型看似在「思考」,實則可能只是在進行大規模的「模式匹配」(pattern matching)。當問題的模式是它們在龐大的訓練數據中「見過」的,它們便能出色地完成任務。但一旦面對一個足夠新穎、足夠複雜、超出了其記憶庫範疇的挑戰,它們的「智慧」便瞬間蒸發。這意味著,我們所見證的,可能並非通用推理能力的誕生,而僅僅是記憶能力的極致展現。

敘事的戰爭:誰在移動球門?

筆者認為,我們不能孤立地將蘋果的論文僅僅視為一次單純的科學探索。在當前激烈的科技競賽中,每一次技術發布、每一篇研究報告,都可能是一次精心計算的戰略行動。

長期以來,蘋果在生成式AI的浪潮中,一直處於追趕者的位置。當其競爭對手們以「推理能力」作為新的賣點,試圖建立下一代技術護城河時,蘋果的處境顯得頗為被動。在這種背景下,《思考的幻覺》的發布,就如同一次高明的「敘事戰」。如果無法在現有的賽道上超越對手,那麼最有效的方法,或許就是質疑這條賽道本身的合理性—即「移動球門」(moving the goalposts)。

透過揭示所謂「推理模型」的根本局限性,蘋果不僅能打擊競爭對手的技術聲譽,更能為自己姍姍來遲的產品爭取時間與空間。這場辯論的核心,已不僅僅是技術的真偽,更是對「智慧」定義權的爭奪。這也解釋了為何在蘋果論文發布後,其競爭對生Anthropic迅速發表了一篇題為《思考幻覺的幻覺》的論文予以反擊。這是一場沒有硝煙,卻招招致命的戰爭。

動搖的根基:對「規模定律」的信仰危機

這場爭議,正觸及AI產業賴以生存的根本信條—「規模定律」(the scaling law)。即只要模型越大、投餵的數據越多、使用的算力越強,AI就會變得越聰明。正是這一信念,支撐著整個產業數千億美元的龐大投資。從晶片製造商,到雲端服務提供商,再到模型開發公司,整條產業鏈都建立在對「規模=智慧」的預期之上。

然而,推理能力的瓶頸,動搖了這一定律的根基。如果增加算力與數據,換來的只是更精巧的模仿,而非真正的通用智慧,那麼這場豪賭的回報率,便需要被重新評估。這也正是2024年底AI產業一度陷入「進展停滯」恐慌的根本原因。當時,「推理」被視為打破僵局的「逃生閥」,是維持AI貿易持續火熱的新故事。但如果這個故事本身就是一個幻覺,那麼投資者們的信心,很可能會再次動搖。

摩根大通執行長傑米·戴蒙(Jamie Dimon)曾坦言,儘管AI的回報尚不清晰,但企業已不得不將其視為「賭桌上的基本籌碼」。然而,當牌局的規則變得撲朔迷離,當對手可能在虛張聲勢時,持續加碼的風險,正變得越來越高。

AGI的遠征與謙卑的提醒

最終,這場關於推理的辯論,指向了AI領域的終極聖杯—通用人工智慧(AGI),一個在所有領域都能媲美甚至超越人類的智慧系統。誰能率先實現AGI,誰就可能掌握未來的世界。這也讓「智慧」的定義,從一個哲學問題,變成了一個具有巨大戰略與商業價值的法律問題。例如,OpenAI與微軟的合作協議據稱規定,一旦OpenAI宣布實現AGI,其合作夥伴關係就將終止。那麼,由誰、依據什麼標準來做出這一歷史性的宣告?

「推理」本應是通往AGI的下一塊偉大基石。但如今看來,它更像是一塊絆腳石,提醒著所有追夢者,我們距離終點還有多麼遙遠。蘋果的研究,無論其動機為何,都為整個產業帶來了一次寶貴的、保持謙卑的機會。在我們為機器的卓越模仿能力而喝彩時,切莫將一個精緻的迴聲,誤認為是一個真實的聲音。通往真正機器智慧的遠征,需要的或許不是更多的算力,而是我們尚未擁有的、全新的科學突破。

資料來源

Apple: The Illusion of Thinking: A Survey on the Bizarre Results of Large Language Models on the Towers of Hanoi Puzzle
https://machinelearning.apple.com/research/the-illusion-of-thinking

Anthropic: The Illusion of the Illusion of Thinking
https://www.anthropic.com/news/the-illusion-of-the-illusion-of-thinking

Ars Technica: Apple researchers find LLMs fail at simple logic puzzles, suggesting an “illusion of thinking”
https://arstechnica.com/apple/2024/08/apple-researchers-find-llms-fail-at-simple-logic-puzzles-suggesting-an-illusion-of-thinking/

The Verge: The AI industry is having a literal debate about the ‘illusion of thinking’
https://www.theverge.com/2024/8/22/24225573/ai-debate-apple-anthropic-llm-reasoning-illusion-of-thinking

Salesforce AI Research: Confronting the Jagged Frontier of AI
https://www.salesforceairesearch.com/articles/confronting-the-jagged-frontier-of-ai

The New York Times: Is A.I. Hitting a Wall?
https://www.nytimes.com/2024/02/26/technology/ai-progress-threats.html

Financial Times: The AI industry’s reality check
https://www.ft.com/content/3b54430e-562a-4422-9a3d-a511394f7188