PDFlib TET

TET 5 PDFlib GmbH发布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐渐改名为»文本和图像提取工具包«，在图像提取方面得到明显提升。 TET检索文本、图像、PDF文档中的元数据和其他信息。以下是全新或显著改善的五大特性: · 文本检索: 检索文本的填充色和描边色改善布局检测 · 图像检索显著增强分散图像的合并提取图像蒙版和软蒙版 · 页面处理: 荣誉图层和剪辑路径 · TETML 内容: 包括符号的填充色和描边色、颜色空间和ICC文件配置细节一些新的pCOS 伪对象全新的PDFlib TETPDF IFilter 5 (企业版PDF搜索应用于窗口)版本现已可用。 PDFlib TET 5 - 特性 PDFlib文本和图像提取工具包（TET）旨在从PDF文档中提取文本和图像，但也可用于从PDF检索其他信息。接受PDF输入 TET支持所有相关的PDF输入：所有PDF版本到Acrobat DC，包括ISO 32000-1和-2 保护那些打开不需要密码的PDF文档损坏的PDF文档将被修复世界的所有写作系统 TET在世界上所有书写系统中处理PDF文档，并实现某些脚本所需的特殊处理：拉丁语，希腊语和西里尔字母，包括脱音阿拉伯语和希伯来语，包括从右到左和双向文本的逻辑重新排序;阿拉伯语呈现形式的规范化简体和繁体中文，日语和韩语，无论编码;水平和垂直文本印度文字（无字形重排） Unicode支持的所有其他语言和脚本 Unicode 由于PDF中的文本通常不以Unicode编码，因此PDFlib TET将PDF文档中的文本标准化为Unicode： TET将所有文本内容转换为Unicode。在C和其他非Unicode感知语言中，文本以UTF-8或UTF-16格式返回，并作为具有Unicode功能的编程语言的本地字符串返回。字符和其他多字符字形被分解为相应的Unicode字符序列。没有适当的Unicode映射的字形被识别，并被映射到可配置的替换字符，以避免误解。 TET针对特定文档创建包（例如InDesign和TeX文档或在大型机系统上生成的PDF）的问题实施各种解决方法。内容分析和字检测 TET包括专利内容分析算法：确定检索正确单词所需的单词边界重组连字字的部分（去连字）删除重复的文字实例，例如阴影和人为粗体文本按阅读顺序重新组合段落正确排序散布在页面上的文本页面布局和表检测分析页面内容以确定文本列。检测表，包括跨越多个列的单元格。这改进了提取的文本的排序。可以标识表行和每个表单元格的内容。几何 TET提供了文本的精确度量，例如页面上的位置，字形宽度和文本方向。页面上的特定区域可以被排除或包括在文本提取中，例如。以忽略页眉和页脚或边距。文本颜色 TET分析PDF页面描述中的颜色信息，并返回每个字形的精确颜色信息。这可以用于例如识别标题或其他突出显示的文本。图像提取 PDF页面上的图像可以提取为TIFF，JPEG，JPEG 2000或JBIG2文件。针对每个图像报告精确的几何信息（位置，大小和角度）。分割的图像被组合到较大的图像以方便重新使用。由于不进行下采样或颜色转换，保证了图像保真度。这确保了最高的图像质量。 PDF分析 TET库包括用于查询PDF文档的详细信息的pCOS接口，例如文档信息和XMP元数据，字体列表，页面大小等等。有问题的PDF的配置选项 TET包含各种PDF的特殊处理和解决方法，其中文本无法与其他产品正确提取。此外，它包括各种配置功能，以改善问题文档的处理： Unicode映射可以通过用户提供的表来定制，用于将字符代码或字形名称映射到Unicode。 PDFlib FontReporter是一个用于分析PDF中的字体，编码和字形的辅助工具。它作为Adobe Acrobat的插件。此插件可免费用于OS X / macOS和Windows。分析嵌入字体以查找Unicode映射的其他提示。如果未嵌入字体，则使用外部字体文件或系统字体来提高文本提取结果。 Unicode后处理 TET支持各种Unicode后处理步骤，可用于改进提取的文本：折叠保留，删除或替换字符，例如。从不相关的脚本中删除标点符号或字符。分解用一个或多个其他字符的等效序列替换字符，例如。用其各自的标准对应物替换窄的，宽的或垂直的日语字符或拉丁上标变体。文本可以转换为所有四种Unicode标准化形式，例如。发射NFC表单以满足Web文本或数据库的要求。文档域 PDF文档可能包含除页面内容之外的其他位置的文本。虽然大多数应用程序将仅处理页面内容，但在许多情况下，其他文档域也可能是相关的。 TET从以下所有文档域中提取文本：页面内容预定义和自定义文档信息条目文档和图像级别的XMP元数据书签文件附件和PDF文件包可以递归处理表单域评论（注释）可查询一般PDF属性，如页数，符合PDF / A或PDF / X等标准。 XMP元数据 TET以多种方式支持XMP元数据：使用集成的pCOS接口，可以以编程方式提取文档，单个页面，图像或文档的其他部分的XMP元数据。 TETML输出包含XMP文档和图像元数据（如果存在于PDF中）。以TIFF或JPEG格式提取的图像包含图像元数据（如果存在于PDF中）。 TETML表示作为XML的PDF内容 TET可选地表示称为TETML的XML风格中的PDF内容。它包含各种各样的PDF信息，可以很容易地使用常用的XML工具进行处理。 TETML包含实际文本以及可选的字体和位置信息，资源详细信息（字体，图像，颜色空间）和元数据。 TETML还包括交互式元素，例如表单字段，注释，书签等。它甚至可以用于分析JavaScript或颜色空间细节，ICC配置文件或输出意图。 TETML由相应的XML模式管理，以确保TET始终创建一致和可靠的XML输出。 TETML可以用XSLT样式表处理，例如。应用某些过滤器或将TETML转换为其他格式。用于处理TETML的样本XSLT样式表包括在TET分布中。以下片段显示具有字形详细信息的TETML输出： PDFlib TET连接器 TET连接器提供必要的粘合代码来与其他软件进行TET接口。以下TET连接器使PDF文本提取功能可用于各种软件环境： Lucene搜索引擎的TET连接器 Solr搜索服务器的TET连接器 TIKA工具包的TET连接器 Oracle Text的TET连接器 MediaWiki的TET连接器 TET PDF用于Microsoft产品的IFilter可作为单独的产品提供。它从PDF文档中提取文本和元数据，并使其可用于在Windows上搜索和检索软件。 TET食谱 TET Cookbook是一个编程示例的集合，演示了TET对各种文本和图像提取任务的使用。几个Cookbook示例展示了如何结合TET和PDFlib + PDI产品，以增强PDF文档，例如。基于页面上的文本添加书签或链接。

...

PDFlib TET

咨询

搜索

服务与支持

联系我们

关注我们

微信

QQ