跳至主要內容

中央大學人本AI研究中心

首頁
關於我們
最新消息
活動
學界資訊
專欄
影音專訪
外部鏈接
聯絡我們

【期刊分享】DeepSeek-OCR 2: Visual Causal Flow

14 2 月, 2026

·

重塑視覺邏輯的「因果流」革命

    DeepSeek 近期推出的 OCR2，最令人驚豔的突破在於它不再死板地進行像素掃描，而是引入了「視覺因果流」概念。這讓模型從單純的「識別工具」進化為一個更像人的「閱讀者」。主要包含了以下兩個層面：

一、 視覺因果流：從「看見」到「理解」的飛躍

   傳統模型（如 ViT）本質上是空間掃描器。它們將圖片切成小方塊，對機器而言，這只是一堆像素點的概率分佈。雖然能辨識物體，但缺乏對結構邏輯的感知。而視覺因果流（Visual Causal Flow） 的加入，實現了從「感知」到「推理」的轉變：

1.打破空間束縛：
   人類看表格時，目光會跳躍性地根據行列邏輯移動。因果流模擬了這種「跳躍
   式閱讀」，它強迫模型建立順序依賴（先看標題，再找對應數據）。

2.因果推理的注入：
   當 Token 被賦予「因果性」（只能看之前的訊息）時，模型必須主動去「搜
   尋」與當下資訊最具邏輯關聯的前項。這種重排序的過程，本質上就是一種語
   意推理，而不僅僅是影像處理。

二、 原生多模態：感官的「大一統」

   傳統的多模態模型（如 GPT-4 初期版本）像是一種「模型拼接」，即視覺編碼器負責看、語言模型負責說，而中間還需要靠一個轉接頭（Adapter）來把兩者硬湊在一起。但原生多模態（Native Multimodal） 則意味著：

1.統一的認知底層：
   意味著模型不再把「影像」和「文字」當成兩套語言。因為在 DeepSeek 的
   設計中，語言模型本身就是視覺編碼器。這代表在模型最深處，「概念」同時
   兼具了抽象與跨感官間的統一。

2.真正的共情與聯覺：
    當模型原生支持多模態時，它對一個詞（如「蘋果」）的理解，會同時包含光
   影紋理、文字定義甚至音頻特徵，這讓 AI 更接近人類的認知模式。換句話
   說，當模型在思考時，不再是文字與影相的獨立區分，而是一個整體的「意
   象」。

    就此來看，伴隨著這種工程效率層面的提升，讓 AI 擁有一套通用的「數位神經系統」來處理物理世界的所有輸入，成為了邁向AGI（通用人工智慧）更進一步的重要關鍵。


參考文章：
DeepSeek-OCR 2: Visual Causal Flow

AGI DeepSeek OCR Token Visual Causal Flow

其他文章

【工作坊】東方視野下的長照AI機器人思維模組建構工作坊

7 5 月, 2026
【影音專訪 & Podcast】張嘉惠教授「談LLM開啟人機共創與科技民主化」讀書會

15 4 月, 2026
【影音專訪 & Podcast】《東方視野下的AI倫理模組》新書發表會

14 4 月, 2026
【學術專欄】《人本AI和平宣言》

14 4 月, 2026

←【期刊分享】A Yin-Yang Approach to Balanced AI Regulation and Lessons for Singapore

【學術專欄】Anthropic 「憲法 AI」中哲學思辨之本體論定位→

留言

發表迴響取消回覆

分享此文：

X
Facebook

請按讚：

喜歡正在載入...

Email: NCU3158@gmail.com

電話: 03 422 7151（分機33084）

地址: 桃園市中壢區中大路300號-人文社會科學大樓 (文學三館) 312室

Facebook
Instagram
X

探索更多來自中央大學人本AI研究中心的內容

立即訂閱即可持續閱讀，還能取得所有封存文章。

輸入你的電子郵件地址…

Continue reading

載入迴響中...

發表迴響…

電子郵件 (必要)

名稱 (必要)

網站

%d