百度開源OCR模型一次讀取40頁文件

中國IT企業百度於2026年6月22日開源一款可一次識別多達40頁文件的OCR（光學字符識別）模型「Unlimited-OCR」，兩天內在GitHub獲得逾4000星，引發開發者社群關注。

該模型採用「參考滑動窗口注意力」（R-SWA）新技術，能像人閱讀般將整份文件一次性讀取，而非逐頁拼接。輸出時僅參照圖像及最近128個標記，因此長文件也能維持穩定記憶體與速度。有業界分析師向本報表示：「中國企業因應本國文字複雜性，早已發展高難度OCR技術，加上龐大文件電子化需求，已主導開源OCR生態。」

OCR角色已從單純數位化轉變為AI數據關卡，尤其在大型語言模型（LLM）訓練中，準確的檔案結構解析至關重要。過去OCR若錯讀表格或順序，錯誤會直接影響AI回應。中國企業如DeepSeek、騰訊、阿里巴巴相繼推出相關模型，而百度旗下的PaddleOCR更是全球廣泛使用的開源方案。

全球OCR競爭升溫，中國企業以開源策略主導市場。百度PaddleOCR因多語種識別率高、模型輕量，廣受工業界採用。業界預期，隨AI應用深化，文件解析技術將成為AI基礎設施關鍵環節。

韓國初創Upstage亦在OCR領域取得顯著成績，2023年全球競賽擊敗亞馬遜、NVIDIA奪冠，其後推出的Document Parse在結構分析準確率領先AWS、微軟。Upstage公司代表指出：「我們在2023年全球競賽擊敗亞馬遜、NVIDIA奪冠，其後推出的Document Parse在結構分析準確率領先AWS、微軟。」兩地企業的競爭與合作，正推動OCR技術快速演進。

百度開源OCR模型 一次讀取40頁文件

💬 留言

百度開源OCR模型一次讀取40頁文件