TET PDF IFilter支持所有相關風格的PDF輸入

接受的PDF輸入

TET PDF IFilter 支持所有相關風格的PDF 輸入：

直到 AcrobatDC 的所有 PDF版本，包括 ISO32000-1 和 32000-2(PDF 2.0)

無需密碼即可打開文檔的受保護PDF

修復損壞的 PDF文檔

國際化

除了西文文本 TETPDF IFilter 完全支持中文、日文和韓文(CJK) 文本。識別所有CJK 編碼；支持水平和垂直書寫模式。自動檢測文本的區域設置ID（語言和區域標識符）改進了Microsoft 的分詞和詞干算法的結果，這對于東亞文本尤其重要。

還支持從右到左的語言，例如希伯來語和阿拉伯語。上下文字符形式被規范化，文本按邏輯順序傳遞。

PDF 不僅僅是一堆頁面

TET PDF IFilter 將 PDF文檔視為容器，其中可能包含比普通頁面更多的信息。TETPDF IFilter 索引 PDF文檔中的所有相關項目：

頁面內容

書簽、注釋（評論）和表單域中的文本

元數據（見下文）

嵌入式 PDF 和PDF 包（組合）以遞歸方式處理，以便可以搜索所有嵌入式PDF 文檔中的文本。

XMP 文檔元數據和文檔信息

TET PDF IFilter 中的高級元數據實現支持元數據的Windows 屬性系統。它索引XMP 元數據以及標準或自定義文檔信息條目。元數據索引可以在多個級別上配置：

文檔信息條目、DublinCore 字段和其他常見XMP 屬性映射到Windows shell 屬性，例如標題、主題、作者。

TET PDF IFilter 添加了有用的特定于PDF 的偽屬性，例如頁面大小、PDF/A一致性級別、字體名稱。

可以索引所有相關的預定義XMP 屬性。

可以搜索用戶定義的XMP 或基于PDF 的屬性，例如公司特定的分類屬性、數字簽名或ZUGFeRD/Factur-X 一致性。

TET PDF IFilter 可選擇將元數據集成到全文索引中。因此，即使是不支持元數據的全文搜索引擎（例如SQL Server）也可以搜索元數據。

Unicode 后處理

TET PDF IFilter 支持各種Unicode 后處理步驟，可用于改進提取的文本：

折疊保留、刪除或替換字符，例如從不相關的腳本中刪除標點符號或字符。

分解用一個或多個其他字符的等效序列替換一個字符，例如用它們各自的標準對應物替換窄、寬或垂直的日文字符或拉丁上標變體。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

原文標題：?PDFlib TET PDF IFilter 5 功能

文章出處：【微信號：哲想軟件，微信公眾號：哲想軟件】歡迎添加關注！文章轉載請注明出處。

評論