自然環境中的自動文本讀取,也稱為場景文本檢測/識別或PhotoOCR,已成為計算機視覺中越來越流行和重要的研究課題。
該文本是人類最輝煌和最有影響力的創作之一。文本中體現的豐富、精確的高級語義有助于理解我們周圍的世界,并構建可以在實時環境中部署的自主解決方案。因此,從自然環境中自動讀取文本,也稱為場景文本檢測/識別或PhotoOCR,已成為計算機視覺中越來越流行和重要的研究課題。
隨著人類語言書面形式的發展,我們開發了數千種獨特的字體系列。當我們添加大小寫(大寫/小寫/單大小寫/小寫)、傾斜(斜體/羅馬)、比例(水平刻度)、重量、特定尺寸(顯示/文本)、斜紋和襯線化(超系列中的襯線/無襯線)時,這個數字會增長到數百萬,這使得文本識別成為機器學習令人興奮的學科。
賽靈思作為 OCR 解決方案的選擇
如今,Xilinx 通過其各種功能強大的平臺為 10 項新開發中的 7 項提供支持,并引領基于 FPGA 的系統設計趨勢。Softnautics 之所以選擇 Xilinx 來實施該解決方案,是因為其集成的 Vitis? AI 堆棧和強大的硬件功能。
Xilinx Vitis? 是一款免費的開源開發平臺,可將硬件模塊打包為軟件可調用函數,并與標準開發環境、工具和開源庫兼容。它可自動使軟件和算法適應 Xilinx 硬件,無需 VHDL 或 Verilog 專業知識。
選擇合適的賽靈思平臺
全面而豐富的 Xilinx 工具集和生態系統使原型設計成為一個非常可預測的過程,并加快了解決方案的開發,從而將整體開發時間縮短了多達 70%。
Xilinx Ultrascale+ 平臺,因為它提供了最佳的應用處理和 FPGA 加速功能。它還提供令人印象深刻的高級合成能力,與早期型號相比,每瓦系統級性能提高了 5 倍。它支持 Xilinx Vitis AI,提供廣泛的功能,使用加速庫構建 AI 推理。
Xilinx Vitis AI堆棧和加速利用該軟件創建混合應用,并通過將 TensorFlow-lite 移植/遷移到 ARM 來實現有效的序列預測 LSTM 功能。它使用N2Cube軟件在處理側(PS)上運行。圖像預處理和后處理是通過Vivado使用HLS實現的,Vitis用于使用CTPN(連接主義文本提案網絡)進行推理。我們最終將解決方案升級為使用視頻管道進行實時場景文本檢測,并使用強大的數據集改進了模型。
場景文本檢測
有許多可用的實現,并且正在研究新的實現。盡管如此,在野外檢測和識別文本時,仍可能遇到一系列重大挑戰。與文檔中的腳本相比,自然場景的困難主要源于三個差異:
多樣性和可變性源于語言、顏色、字體、大小、方向等。
寫文本的生動背景
場景文本的縱橫比和布局可能會有很大差異
此類解決方案在需要對視頻流進行實時文本檢測的各個領域具有廣泛的適用性,具有更高的準確性和快速識別能力。這些應用領域很少:
停車驗證 — 城鎮正在使用移動 OCR 來驗證汽車是否根據城市法規自動停車。停車檢查員可以使用帶有OCR的移動設備掃描車輛的車牌,并與在線數據庫進行檢查,以查看是否允許他們停車。
移動文檔掃描 — 各種移動應用程序允許用戶拍攝文檔的照片并將其轉換為文本。這種 OCR 任務比傳統的文檔掃描儀更具挑戰性,因為照片具有不可預測的圖像角度、照明條件和文本質量。
數字資產管理 - 該軟件有助于組織富媒體資產,如圖像、視頻和動畫。DAM 系統的一個關鍵方面是富媒體的可搜索性。通過在上傳的圖像和視頻幀上運行 OCR,DAM 可以使富媒體可搜索,并使用有意義的標簽豐富它。
審核編輯:郭婷
-
賽靈思
+關注
關注
33文章
1797瀏覽量
132342 -
計算機
+關注
關注
19文章
7661瀏覽量
90754 -
AI
+關注
關注
88文章
35099瀏覽量
279541
發布評論請先 登錄
偉創力高效電源模塊在超大規模數據中心的應用
超大規模芯片驗證:基于AMD VP1902的S8-100原型驗證系統實測性能翻倍

納微半導體推出12kW超大規模AI數據中心電源
BDx成功融資助力香港超大規模數據中心擴建
AI原生架構升級:RAKsmart服務器在超大規模模型訓練中的算力突破
芯啟源提供DPU產品與解決方案

偉創力如何應對超大規模數據中心建設挑戰
賽靈思低溫失效的原因,有沒有別的方法或者一些見解?
Zettabyte與緯創攜手打造臺灣首個超大規模AI數據中心
谷歌正在考慮在越南建設超大規模數據中心
超大規模集成電路(VLSI)中不可或缺的5種二極管

思爾芯賽題正式發布,邀你共戰EDA精英挑戰賽!

如何利用低功耗設計技術實現超大規模集成電路(VLSI)的電源完整性?

評論