PDFlib TET

TET 5  PDFlib GmbH发布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐渐改名为»文本和图像提取工具包«,在图像提取方面得到明显提升。 TET检索文本、图像、PDF文档中的元数据和其他信息。以下是全新或显著改善的五大特性: · 文本检索: 检索文本的填充色和描边色 改善布局检测   · 图像检索 显著增强分散图像的合并 提取图像蒙版和软蒙版   · 页面处理: 荣誉图层和剪辑路径   · TETML 内容: 包括符号的填充色和描边色、颜色空间和ICC文件配置细节   一些新的pCOS 伪对象 全新的PDFlib TETPDF IFilter 5 (企业版PDF搜索应用于窗口)版本现已可用。     PDFlib TET 5 - 特性 PDFlib文本和图像提取工具包(TET)旨在从PDF文档中提取文本和图像,但也可用于从PDF检索其他信息。 接受PDF输入 TET支持所有相关的PDF输入: 所有PDF版本到Acrobat DC,包括ISO 32000-1和-2 保护那些打开不需要密码的PDF文档 损坏的PDF文档将被修复 世界的所有写作系统 TET在世界上所有书写系统中处理PDF文档,并实现某些脚本所需的特殊处理: 拉丁语,希腊语和西里尔字母,包括脱音 阿拉伯语和希伯来语,包括从右到左和双向文本的逻辑重新排序;阿拉伯语呈现形式的规范化 简体和繁体中文,日语和韩语,无论编码;水平和垂直文本 印度文字(无字形重排) Unicode支持的所有其他语言和脚本 Unicode 由于PDF中的文本通常不以Unicode编码,因此PDFlib TET将PDF文档中的文本标准化为Unicode: TET将所有文本内容转换为Unicode。在C和其他非Unicode感知语言中,文本以UTF-8或UTF-16格式返回,并作为具有Unicode功能的编程语言的本地字符串返回。 字符和其他多字符字形被分解为相应的Unicode字符序列。 没有适当的Unicode映射的字形被识别,并被映射到可配置的替换字符,以避免误解。 TET针对特定文档创建包(例如InDesign和TeX文档或在大型机系统上生成的PDF)的问题实施各种解决方法。 内容分析和字检测 TET包括专利内容分析算法: 确定检索正确单词所需的单词边界 重组连字字的部分(去连字) 删除重复的文字实例,例如阴影和人为粗体文本 按阅读顺序重新组合段落 正确排序散布在页面上的文本 页面布局和表检测 分析页面内容以确定文本列。检测表,包括跨越多个列的单元格。这改进了提取的文本的排序。可以标识表行和每个表单元格的内容。 几何 TET提供了文本的精确度量,例如页面上的位置,字形宽度和文本方向。页面上的特定区域可以被排除或包括在文本提取中,例如。以忽略页眉和页脚或边距。 文本颜色 TET分析PDF页面描述中的颜色信息,并返回每个字形的精确颜色信息。这可以用于例如识别标题或其他突出显示的文本。 图像提取 PDF页面上的图像可以提取为TIFF,JPEG,JPEG 2000或JBIG2文件。针对每个图像报告精确的几何信息(位置,大小和角度)。分割的图像被组合到较大的图像以方便重新使用。由于不进行下采样或颜色转换,保证了图像保真度。这确保了最高的图像质量。 PDF分析 TET库包括用于查询PDF文档的详细信息的pCOS接口,例如文档信息和XMP元数据,字体列表,页面大小等等。 有问题的PDF的配置选项 TET包含各种PDF的特殊处理和解决方法,其中文本无法与其他产品正确提取。此外,它包括各种配置功能,以改善问题文档的处理: Unicode映射可以通过用户提供的表来定制,用于将字符代码或字形名称映射到Unicode。 PDFlib FontReporter是一个用于分析PDF中的字体,编码和字形的辅助工具。它作为Adobe Acrobat的插件。此插件可免费用于OS X / macOS和Windows。 分析嵌入字体以查找Unicode映射的其他提示。如果未嵌入字体,则使用外部字体文件或系统字体来提高文本提取结果。 Unicode后处理 TET支持各种Unicode后处理步骤,可用于改进提取的文本: 折叠保留,删除或替换字符,例如。从不相关的脚本中删除标点符号或字符。 分解用一个或多个其他字符的等效序列替换字符,例如。用其各自的标准对应物替换窄的,宽的或垂直的日语字符或拉丁上标变体。 文本可以转换为所有四种Unicode标准化形式,例如。发射NFC表单以满足Web文本或数据库的要求。 文档域 PDF文档可能包含除页面内容之外的其他位置的文本。虽然大多数应用程序将仅处理页面内容,但在许多情况下,其他文档域也可能是相关的。 TET从以下所有文档域中提取文本: 页面内容 预定义和自定义文档信息条目 文档和图像级别的XMP元数据 书签 文件附件和PDF文件包可以递归处理 表单域 评论(注释) 可查询一般PDF属性,如页数,符合PDF / A或PDF / X等标准。 XMP元数据 TET以多种方式支持XMP元数据: 使用集成的pCOS接口,可以以编程方式提取文档,单个页面,图像或文档的其他部分的XMP元数据。 TETML输出包含XMP文档和图像元数据(如果存在于PDF中)。 以TIFF或JPEG格式提取的图像包含图像元数据(如果存在于PDF中)。 TETML表示作为XML的PDF内容 TET可选地表示称为TETML的XML风格中的PDF内容。它包含各种各样的PDF信息,可以很容易地使用常用的XML工具进行处理。 TETML包含实际文本以及可选的字体和位置信息,资源详细信息(字体,图像,颜色空间)和元数据。 TETML还包括交互式元素,例如表单字段,注释,书签等。它甚至可以用于分析JavaScript或颜色空间细节,ICC配置文件或输出意图。 TETML由相应的XML模式管理,以确保TET始终创建一致和可靠的XML输出。 TETML可以用XSLT样式表处理,例如。应用某些过滤器或将TETML转换为其他格式。用于处理TETML的样本XSLT样式表包括在TET分布中。 以下片段显示具有字形详细信息的TETML输出:   PDFlib TET连接器 TET连接器提供必要的粘合代码来与其他软件进行TET接口。以下TET连接器使PDF文本提取功能可用于各种软件环境: Lucene搜索引擎的TET连接器 Solr搜索服务器的TET连接器 TIKA工具包的TET连接器 Oracle Text的TET连接器 MediaWiki的TET连接器 TET PDF用于Microsoft产品的IFilter可作为单独的产品提供。它从PDF文档中提取文本和元数据,并使其可用于在Windows上搜索和检索软件。 TET食谱 TET Cookbook是一个编程示例的集合,演示了TET对各种文本和图像提取任务的使用。几个Cookbook示例展示了如何结合TET和PDFlib + PDI产品,以增强PDF文档,例如。基于页面上的文本添加书签或链接。  

咨询

  • 点击这里给我发消息 发邮件给我们

搜索