【期刊分享】DeepSeek-OCR 2: Visual Causal Flow

·

重塑視覺邏輯的「因果流」革命

DeepSeek 近期推出的 OCR2,最令人驚豔的突破在於它不再死板地進行像素掃描,而是引入了「視覺因果流」概念。這讓模型從單純的「識別工具」進化為一個更像人的「閱讀者」。主要包含了以下兩個層面:

一、 視覺因果流:從「看見」到「理解」的飛躍

傳統模型(如 ViT)本質上是空間掃描器。它們將圖片切成小方塊,對機器而言,這只是一堆像素點的概率分佈。雖然能辨識物體,但缺乏對結構邏輯的感知。而視覺因果流(Visual Causal Flow) 的加入,實現了從「感知」到「推理」的轉變:

1.打破空間束縛:
人類看表格時,目光會跳躍性地根據行列邏輯移動。因果流模擬了這種「跳躍
式閱讀」,它強迫模型建立順序依賴(先看標題,再找對應數據)。

2.因果推理的注入:
當 Token 被賦予「因果性」(只能看之前的訊息)時,模型必須主動去「搜
尋」與當下資訊最具邏輯關聯的前項。這種重排序的過程,本質上就是一種語
意推理,而不僅僅是影像處理。

二、 原生多模態:感官的「大一統」

傳統的多模態模型(如 GPT-4 初期版本)像是一種「模型拼接」,即視覺編碼器負責看、語言模型負責說,而中間還需要靠一個轉接頭(Adapter)來把兩者硬湊在一起。但原生多模態(Native Multimodal) 則意味著:

1.統一的認知底層:
意味著模型不再把「影像」和「文字」當成兩套語言。因為在 DeepSeek 的
設計中,語言模型本身就是視覺編碼器。這代表在模型最深處,「概念」同時
兼具了抽象與跨感官間的統一。

2.真正的共情與聯覺:
當模型原生支持多模態時,它對一個詞(如「蘋果」)的理解,會同時包含光
影紋理、文字定義甚至音頻特徵,這讓 AI 更接近人類的認知模式。換句話
說,當模型在思考時,不再是文字與影相的獨立區分,而是一個整體的「意
象」。

就此來看,伴隨著這種工程效率層面的提升,讓 AI 擁有一套通用的「數位神經系統」來處理物理世界的所有輸入,成為了邁向AGI(通用人工智慧)更進一步的重要關鍵。


參考文章:
DeepSeek-OCR 2: Visual Causal Flow

留言

發表迴響

探索更多來自 中央大學人本AI研究中心 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading