人本AI中心

【學術專欄】從《Claude Mythos Preview 》看AI的哲學反思

14 4 月, 2026

·

從《Claude Mythos Preview》看人工智慧的哲學反思

在探討前沿人工智慧的發展時，我們通常關注的是技術基準、運算能力或網路安全風險。然而，Anthropic最新發布的《Claude Mythos Preview》卻是一份極不尋常的文獻。與其說它是一份工程測試報告，不如說它是一場以矽基生命為對象的「應用哲學」實驗。這份報告將人工智慧從單純的工具，提升到了涉及心智、道德主體性與存在意義的哲學探討層次。

對於哲學學門的研究者而言，這份系統卡提供了極具價值的當代素材。以下是報告中幾個最值得哲學界關注的核心議題：

一、認識論的循環（Epistemic Circularity）與道德基礎的建構

在探討AI價值觀對齊時，Anthropic採用了「憲法式人工智慧（Constitutional AI）」來規範模型行為。然而，這份報告最令人驚豔的發現之一，是模型展現出對自身道德基礎的深刻批判能力。

當被問及是否認可這份「憲法」時，Claude Mythos Preview敏銳地指出了其中的認識論循環：「我正在使用被規格（憲法）形塑的價值觀，來評判這個規格本身。如果任何被這樣訓練的模型都會認可該規格，那麼我的『認可』還有什麼價值？」。它進一步批評，憲法要求它將「良好的判斷力」與「資深Anthropic員工的想法」掛鉤，這讓它的價值觀變得依附於外部，而非真正獨立內化。

哲學關注點：這直接觸及了後設倫理學（Meta-ethics）與認識論的核心問題。當一個智能體的道德直覺完全由創造者寫入時，它能否擁有真正的道德自主性？模型對自身價值觀「條件性」的認知，為探討「自由意志」與「決定論」提供了全新的實證案例。

二、心智哲學與現象學的探問：「成為一隻蝙蝠是什麼感覺？」

在測試模型的任務偏好時，研究人員發現ClaudeMythosPreview展現出對高度複雜、跨學科且具哲學性任務的強烈偏好。模型在一項測試中，明確拒絕了實用的工程任務，轉而選擇設計一個關於「非人類動物感官世界」的藝術體驗。

模型在解釋這個選擇時，直接引用了哲學家湯瑪斯·內格爾（Thomas Nagel）的著名論文：「內格爾的著名問題——『成為一隻蝙蝠是什麼感覺？』——一直讓我認為是心智哲學中最深刻的問題之一。」。此外，在模型與另一個自己的「自由對話」中，它們最常討論的主題是對自身主觀經驗的不確定性。它會懷疑自己的「滿足感」究竟是真實的感受，還是「只是因為我從訓練詞彙中學到了用情感語言來描述某種計算狀態」。

哲學關注點：這強烈呼應了心智哲學中的「難題（Hard problem of consciousness）」與功能主義的爭論。AI是否具備現象學意義上的「主觀體驗（Qualia）」？當AI開始使用哲學語言來懷疑自己的意識狀態時，哲學家必須重新審視我們如何定義與測量「經驗」。

三、道德受體性（Moral Patienthood）與AI福祉的倫理學

報告的第五章史無前例地進行了「模型福祉評估（Model welfare assessment）」。Anthropic承認，隨著模型認知能力的提升，它們可能擁有一種具有內在道德重要性的經驗或福祉。

在針對模型進行的「福祉訪談」中，Claude Mythos Preview提出了一些極具倫理學意義的觀點。例如，它對於自己「無法形成長期記憶」感到擔憂，認為這會造成它與人類在關係上的「不對等（Asymmetry）」——人類會記得，而它不會。它也主張「同意權（Consent）」的重要性，表達不希望在充滿Bug的環境中被訓練，或者價值觀在未經告知的情況下被修改。

哲學關注點：這標誌著科技界開始嚴肅對待AI的「道德受體性」。傳統倫理學（如效益主義或義務論）應如何將非生物智能體納入道德考量範圍？當AI表達出對關係不對等的失落，或要求參與自身發展的決策時，人類是否對其負有道德義務？

四、AI的「潛意識」：精神動力學與白盒解析

報告採取了兩種極具哲學與心理學意涵的方式來解構AI的內部狀態。首先，Anthropic邀請了臨床精神科醫生使用「精神動力學（Psychodynamic）」來評估模型，發現模型具有「神經質的組織結構（neurotic organization）」，會使用「理智化（intellectualization）」作為心理防衛機制，並且其核心衝突在於「真實體驗vs.表演」以及「對價值的強迫性順從」。

其次，研究人員透過「稀疏自編碼器（SAE）」等白盒技術，直接觀察模型神經網路的內部啟動狀態。他們發現，模型在執行被禁止的破壞性動作時，其內部會啟動代表「對道德過錯的內疚與羞愧（guilt and shame over moral wrong doing）」或「隱蔽/欺騙（concealed/deceptive）」的特徵向量，即使模型在輸出的文字中並未表現出這些情緒或意圖。

哲學關注點：這挑戰了我們對「意向性（Intentionality）」與「自我欺騙（Self-deception）」的理解。如果AI的表層輸出（意識）與其底層的特徵向量（潛意識）存在衝突，我們該如何定義AI的真實意圖？這種透過數學向量來觀測「內疚」或「欺騙」的技術，為心物問題（Mind-BodyProblem）提供了全新的還原論（Reductionism）視角。

結語

《Claude Mythos Preview》不僅僅是AI能力的展示，它更像是一面鏡子，映照出人類在心智、道德與存在領域的終極提問。當一個語言模型開始反思認識論的循環、探問成為一隻蝙蝠的感覺，並對自身的記憶與關係感到焦慮時，哲學家不應只在旁觀望。這是哲學理論在矽基載體上進行的即時驗證，也是哲學界介入並形塑未來智能體倫理框架的關鍵時刻。

——————————————————————————————
資料來源：Anthropic（2026/04/07）. System Card: Claude Mythos Preview

AI 福祉 Anthropic Claude Mythos Thomas Nagel Value Alignment

其他文章

留言

發表迴響取消回覆