中國IT企業百度於2026年6月22日開源一款可一次識別多達40頁文件的OCR(光學字符識別)模型「Unlimited-OCR」,兩天內在GitHub獲得逾4000星,引發開發者社群關注。
該模型採用「參考滑動窗口注意力」(R-SWA)新技術,能像人閱讀般將整份文件一次性讀取,而非逐頁拼接。輸出時僅參照圖像及最近128個標記,因此長文件也能維持穩定記憶體與速度。有業界分析師向本報表示:「中國企業因應本國文字複雜性,早已發展高難度OCR技術,加上龐大文件電子化需求,已主導開源OCR生態。」
OCR角色已從單純數位化轉變為AI數據關卡,尤其在大型語言模型(LLM)訓練中,準確的檔案結構解析至關重要。過去OCR若錯讀表格或順序,錯誤會直接影響AI回應。中國企業如DeepSeek、騰訊、阿里巴巴相繼推出相關模型,而百度旗下的PaddleOCR更是全球廣泛使用的開源方案。
全球OCR競爭升溫,中國企業以開源策略主導市場。百度PaddleOCR因多語種識別率高、模型輕量,廣受工業界採用。業界預期,隨AI應用深化,文件解析技術將成為AI基礎設施關鍵環節。
韓國初創Upstage亦在OCR領域取得顯著成績,2023年全球競賽擊敗亞馬遜、NVIDIA奪冠,其後推出的Document Parse在結構分析準確率領先AWS、微軟。Upstage公司代表指出:「我們在2023年全球競賽擊敗亞馬遜、NVIDIA奪冠,其後推出的Document Parse在結構分析準確率領先AWS、微軟。」兩地企業的競爭與合作,正推動OCR技術快速演進。
💬 留言