学习GroupDocs.Parser的简单实践

GroupDocs
placeholder image
admin 发布于:2025-03-24 08:59:09
阅读:loading

前面在摸索了Aspose For Java的全量产品组件共计23款,闲来无事偶然又发现了在GroupDocs方向又存在一些产品,这些产品基本都是取自于一个又一个的组件,取自所有组件中的一个方向进行汇总,组成一个统一的产品包。本次摸索学习GroupDocs.Redaction产品,经过一些持续的分析和摸索,结合使用反射的形式来调用,也就是说在API的使用前进行一次特殊的代码注册,即可实现授权,全程不需要License之类的xml,或是文档无水印、或是文档页数限制、或是获取内容无限制,等等。

特别说明:只为单纯的学习摸索与自我突破,商业软件请勿直接使用于生产环境(购买商业授权)

1.基本介绍

本次实践的是GroupDocs.Parser for Java的24.6版本(当前最新版本),用于在 Java 应用程序中执行文档解析的 API。GroupDocs.Parser for Java 是一款功能强大的文档解析库,属于 GroupDocs 的一系列文档处理工具之一,它主要用于从各种文件格式中提取文本和数据,支持众多常见的文档格式,比如 Microsoft Word(.doc, .docx)、PDF、Excel(.xls, .xlsx)、PowerPoint(.ppt, .pptx)、HTML、图像文件等。

(1)从文档中提取数据,Java API 使您能够从各种文件格式(例如 Office 文档、电子邮件、附件和存档)中检索文本、元数据和图像。这个强大的工具可帮助您有效地访问和处理这些文件中包含的有价值的信息,以用于各种应用程序,例如数据分析、搜索引擎索引或内容管理系统。

(2)解析文档,从PDF表单中提取各种元素,例如超链接、表格、二维码、条形码和数据。还可以使用自定义模板从文档中解析任何所需的信息。

(3)定制结果,Java API 可让您检索各种格式的数据,例如原始格式、结构化格式、HTML 或 Markdown 格式。此外,API 还提供搜索功能,用于在文档文本中查找特定单词或短语。

总的来说,GroupDocs.Parser for Java 是一个非常实用的工具,提供了直观的 API,开发者可以轻松地将其集成到 Java 应用程序中。由于它是一个跨平台库,开发者可以在多种操作系统上运行和部署应用,是一个强大的文件解析的解决方案,适合任何需要处理和解析文档的 Java 应用程序。

(1)支持的文档格式

A.Microsoft Office 格式

    Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF

    Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML

    PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

B.图像和其他格式

    Portable: PDF

    图片: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP

    其他办公形式: ODT, OTT, OTS, ODS, ODP, OTP, ODG

C.其他格式

    网络: HTML, MHTML

    档案: ZIP, TAR, 7Z

    电子书: CHM, EPUB, FB2, MOBI

(2)支持的功能如下:快速准确地从 PDF、Office 文档和图像中提取数据。

    A.提取文本:从各种文件格式(例如 Office 文档、PDF 文件和图像)中提取文本信息,以便于阅读和分析;

    B.提取图像从办公文档、PDF 文件等不同来源检索视觉内容,以便于访问和使用

    C.扫描二维码:检测和解码办公文档、PDF 文件或视觉内容中存在的 QR 码,以实现高效的信息检索;

    D.从电子邮件附件和档案中提取数据:从电子邮件、文件附件和压缩数据源中收集有价值的信息,以便进行有效分析和利用;

    E.提取表格:从 PDF 文档中识别并提取表格数据,以便进行有组织的分析和使用;

    F.提取超链接:找到并提取 Office 文档或 PDF 文件中的超链接和电子邮件地址,以便高效访问; 

    G.解析 PDF 表单:PDF 表单是数字文档,具有用于用户交互的可填写字段,允许用户以电子方式输入信息。 Java API 可用于从这些表单中提取数据,以便进行高效处理;

    H.通过模板解析数据:创建自定义模板并通过 Java API 使用它们来解析 PDF 文件中的特定信息,从而简化数据提取过程;

    I.在文档中搜索文本:快速定位文档中的特定单词或模式;

上面这一段摘自官网的介绍,整体上觉得很抽象,运行示例项目中相关的例子后我理解的意思:GroupDocs.Parser是一个文档内容解析的开发工具包,旨在帮助开发人员在其应用程序中实现对多种不同文档格式内容读取解析的功能,是一个强大的文档内容读取与解析解决方案

2.示例实践

以官网提供的Github示例`https://github.com/groupdocs-parser/GroupDocs.Parser-for-Java`为准,上面介绍说GroupDocs.Parser for Java 是一个文档解析器和数据提取库,支持 50 多种流行文档类型。它可以帮助构建基于 Java 的业务应用程序,具有解析原始、结构化和格式化文本以及图像和元数据提取的功能。本次实践分别从其中挑出几个简单的示例来演示,本次运行了Github Examples示例包下的相关示例代码,主要介绍官方提供的功能为主,过一下示例的功能,详细参考如下:

image.png

(解析图片OCR识别)

image.png

(Word读取文本为HTML)

image.png

(Excel读取为HTML)

image.png

(PPT读取为HTML)

image.png

(PDF读取为纯文本)

PS:GroupDocs.Parser还包含了类型非常广泛的文档格式处理,参考全部示例运行的文档参考:

image.png

参考在Docx文件中插入Pdf附件代码如下:

public class OcrUsageBasicsText {
    public static void run() {
        try {
            // Create an instance of ParserSettings class with OCR Connector
            ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

            // Create an instance of Parser class with settings
            try (Parser parser = new Parser(Constants.SampleScan, settings)) {
                // Create an instance of TextOptions to use OCR
                TextOptions options = new TextOptions(false, true);
                // Extract a text using OCR
                try (TextReader reader = parser.getText(options)) {
                    // Print a text or 'not supported' message
                    System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
                }
            }
        } catch (java.lang.Exception ex) {
            System.out.println("An error occurs: " + ex.getMessage());
        }
    }
}

3.其它说明

(1)`GroupDocx.xxx`不是开源免费的使用,Github上有示例项目,包含了大量的示例,示例的结果就是生成了一些《Evaluation Warning》警告、水印、内容页数限制、内容文本限制等;

(2)aspose旗下有许多的产品,都是商业付费版本,常见于各种文档格式文件的操作,都需要商业授权使用,也基本都是支持多种编程语言的,如有Java、C++、.NET等等,官网也有多种在线示例;

(3)示例与相关文件下载:《GroupDocs.Parser示例相关文档.zip》,注:下载并不包含具体的科学实现部分,只是源文件与示例输出文件;

(4)科学实现分为两种情况,一种是使用反射,另一种是使用License.xml文件;

(5)aspose相关的各个产品组件为独立存在的各个产品,GroupDocs是提取全集产品中的某个功能的集合,提供了一个大类的功能操作,并且统一对外提供API;

(6)本次使用的GroupDocs.Parser授权方案在以下文件类型中进行了验证:pdf、docx、xlsx、pptx、jpg、zip、html、one、md、eml、db、msg等等;


 点赞


 发表评论

当前回复:作者

 评论列表


留言区