【期刊分享】DeepSeek-OCR 2: Visual Causal Flow
·

重塑視覺邏輯的「因果流」革命
DeepSeek 近期推出的 OCR2,最令人驚豔的突破在於它不再死板地進行像素掃描,而是引入了「視覺因果流」概念。這讓模型從單純的「識別工具」進化為一個更像人的「閱讀者」。主要包含了以下兩個層面:
一、 視覺因果流:從「看見」到「理解」的飛躍
傳統模型(如 ViT)本質上是空間掃描器。它們將圖片切成小方塊,對機器而言,這只是一堆像素點的概率分佈。雖然能辨識物體,但缺乏對結構邏輯的感知。而視覺因果流(Visual Causal Flow) 的加入,實現了從「感知」到「推理」的轉變:
1.打破空間束縛:
人類看表格時,目光會跳躍性地根據行列邏輯移動。因果流模擬了這種「跳躍
式閱讀」,它強迫模型建立順序依賴(先看標題,再找對應數據)。
2.因果推理的注入:
當 Token 被賦予「因果性」(只能看之前的訊息)時,模型必須主動去「搜
尋」與當下資訊最具邏輯關聯的前項。這種重排序的過程,本質上就是一種語
意推理,而不僅僅是影像處理。
二、 原生多模態:感官的「大一統」
傳統的多模態模型(如 GPT-4 初期版本)像是一種「模型拼接」,即視覺編碼器負責看、語言模型負責說,而中間還需要靠一個轉接頭(Adapter)來把兩者硬湊在一起。但原生多模態(Native Multimodal) 則意味著:
1.統一的認知底層:
意味著模型不再把「影像」和「文字」當成兩套語言。因為在 DeepSeek 的
設計中,語言模型本身就是視覺編碼器。這代表在模型最深處,「概念」同時
兼具了抽象與跨感官間的統一。
2.真正的共情與聯覺:
當模型原生支持多模態時,它對一個詞(如「蘋果」)的理解,會同時包含光
影紋理、文字定義甚至音頻特徵,這讓 AI 更接近人類的認知模式。換句話
說,當模型在思考時,不再是文字與影相的獨立區分,而是一個整體的「意
象」。
就此來看,伴隨著這種工程效率層面的提升,讓 AI 擁有一套通用的「數位神經系統」來處理物理世界的所有輸入,成為了邁向AGI(通用人工智慧)更進一步的重要關鍵。
參考文章:
DeepSeek-OCR 2: Visual Causal Flow
發表迴響