java - 使用 OpenOffice API 抓取整个文档树-6ren

java - 使用 OpenOffice API 抓取整个文档树

转载作者：太空狗更新时间：2023-10-29 23:20:18

25

4

我想为 Writer 抓取整棵树文档在 OpenOffice 3.1.我需要收集树中所有元素的数据，而不仅仅是 Text 元素。

通过加载 XTextDocument 并执行 getText() 将提供 XText 元素。更具体地说，使用 XText 中的 XEnumerationAccess 只会迭代 TextRange。

来自 OpenOffice 文档 /DevGuide/Text/Iterating_over_Text :

The second interface of com.sun.star.text.Text is XEnumerationAccess. A Text service enumerates all paragraphs in a text and returns objects which support com.sun.star.text.Paragraph. This includes tables, because writer sees tables as specialized paragraphs that support the com.sun.star.text.TextTable service.

这里有一些额外的文档:

The text portion enumeration of a paragraph does not supply contents which do belong to the paragraph, but do not fuse together with the text flow. These could be text frames, graphic objects, embedded objects or drawing shapes anchored at the paragraph, characters or as character. The TextPortionType "TextContent" indicate if there is a content anchored at a character or as a character. If you have a TextContent portion type, you know that there are shape objects anchored at a character or as a character.

我的测试文档表明我确实得到了一个 XTextContent和 XTextRange可以通过 getAnchor() 收集。但是我如何确定我正在收集的内容类型呢？唯一的方法是 getString()。如果对象是嵌入图像，我该如何收集它的数据？

我正在使用 C++，但我相信 Java 中的解决方案是可移植的。

从答案迁移

由于格式不正确，此评论作为答案发布。

感谢您的回复。

我打算使用 API。

我正在尝试从文档中收集 GrahicObjects 的例子。通过使用 XGraphicObjectsSupplier，我可以通过 getGraphicObjects() 获取一个集合。集合中的对象是 Any，通过 getValueTypeName() 打印类型会得到 XTextContent。

API 描述该集合拥有一个TextGraphicObject“服务”。我如何获取它的实例？

最佳答案

你的问题的答案会很复杂，但我会尽量让自己易于理解。

将文档导出为 XML 会使用 SAX 更容易处理。如果使用 XML 方式，你必须实现XDocumentHandler 并阅读文档(可选地过滤什么你不需要)。其余工作将是 XSLT 转换或大型文档的 SAX。
如果您更喜欢只使用 API，你必须玩很多XServiceInfo 和 UnoRuntime.queryInterface

关于java - 使用 OpenOffice API 抓取整个文档树，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1162424/

25

4

0

文章推荐： c++ - 如何使用 SHGetFileInfo() 方法获取文件夹的打开图标？

文章推荐： c# - 查看将从路由执行哪个 Controller 和操作？

文章推荐： c# - 使用响应式(Reactive)编程写入打开 FileStream

文章推荐： c# - 编码包含 C 字符串的结构

MSBuild:为主项目生成 XML 文档，但不为依赖项目生成 XML 文档
我有一个 .sln 文件，里面有几个项目。为了简单起见，让我们称它们为... 项目A 项目B 项目C ...其中 A 是引用 B 和 C 的主要项目。我的目标是更新我的构建脚本，为 ProjectA
api - 如何生成 Magento 的 API 文档/文档？
我安装了 Magento，我想知道如何生成完整的 API 文档，例如 http://docs.magentocommerce.com/ 上的文档是使用 phpdoc 生成的。 Magento 中是否包
java - 创建自定义 jsdocs、java 文档、php 文档
我通常使用jetbrains family ide。在为函数创建文档时非常有用，只需输入 /** 如何在创建文档时创建自定义标签，例如@date标签。最佳答案 JavaScript、Java: st
java - 无法打开使用 jOpenDocument 创建的 ODS 文档 Google 文档
我正在尝试使用 jOpenDocument library创建文档。我已经执行了创建电子表格的示例 - 代码编译并运行正常，但当我尝试使用 Excel Office 2012 或 Google Doc
javascript - HTML DOM 从哪里开始？ window ？文档？文档.defaultView？
如标题。有没有介绍HTML DOM构造的图片？最佳答案 DOM(文档对象模型)从文档节点开始。它被称为“根节点”。观察下面的树(括号中对应的nodeType): [HTMLDocument]
ide - 如何更改 ColdFusion 帮助以显示 ColdFusion 8 文档，而不是 ColdFusion 9 文档？
我喜欢 ColdFusion Builder。但我不喜欢帮助只有 CF9 文档。有什么方法可以将其更改为拥有 ColdFusion 8 文档？最佳答案 http://livedocs.adobe.c
javascript - jQuery 脚本 : function(window, 文档，未定义)与 ;(函数($，窗口，文档，未定义)
这个问题在这里已经有了答案: What is the consequence of this bit of javascript? (4 个答案) 关闭 9 年前。我看到一些 jQuery 脚本嵌
c# - 使用 XML 文件中的数据生成 Word 文档 (docx)/基于模板将 XML 转换为 Word 文档
我有一个 XML 文件，其中包含需要在 Word 文档中填充的数据。我需要找到一种方法来定义一个模板，该模板可用作从 XML 文件填充数据并创建输出文档的基线。我相信有两种方法可以做到这一点。创
AVAudioEngine 文档
我正在尝试查找有关如何使用 AVAudioEngine 的详细文档。有谁知道我在哪里可以找到它？我找到了这个，但与文档丰富的 UI 内容相比，它似乎非常简陋。 https://developer.a
tensorflow 文档
我对 Tensorflow 文档越来越感到恼火和沮丧。我在谷歌上搜索了有关的文档 tf.reshape 我被定向到一个通用页面，例如 here 。我想查看 tf.reshape 的详细信息，而不是整
Clojure:文档
我正在学习本教程:http://moxleystratton.com/clojure/clojure-tutorial-for-the-non-lisp-programmer 然后遇到了这个片段: u
Swagger 文档
如何在 swagger 中为对象数组编写文档。这是我的代码，但我不知道如何访问对象数组中的数据。 { "first_name":"Sam", "last_name":"Smith",
Javascript 文档
是否有针对 Javascript 的 JavaDocs 之类的东西？当我在 netbeans IDE 中按 ctrl+space 时写javascript，指定对象的javascript文档就出来了
jquery 文档
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。
Javascript 文档
我需要 JavaScript 中的 heredoc 之类的东西。你对此有什么想法吗？我需要跨浏览器功能。我发现了这个: heredoc = '\ \ \ zzz\ \
03、WSDL 文档
WSDL 文档是包含一系列的，可描述某个 web service 的定义的，简单的 XML 文档 WSDL 文档结构 WSDL 文档用下表这些主要的元素来描述某个 web service 的
lua - OCRopus 文档？
是否有 ocropus 的文档？我正在寻找对以下功能的解释: make_SegmentPageByRAST(): segment() RegionExtractor(): setPageLines(
关于如何添加事件处理程序的 C# 文档
这个问题在这里已经有了答案: Understanding events and event handlers in C# (13 个回答) 4年前关闭。我正在使用 NRECO 和 ffmpeg 对视
Javascript 文档.domain
我正在尝试访问工作服务器以与名为 Spotfire 的应用程序一起使用。我的同事把这个传给我，现在已经休息了几个星期，我对他的建议有意见。实际上，当我通过 localhost 运行我的 Web 应用
Elm 文档 - "a"是什么意思？
Elm 文档没有给出示例用法，因此很难理解类型规范的含义。在几个地方，我看到“a”用作参数标识符，例如 Platform.Cmd : map : (a -> msg) -> Cmd a -> Cmd

首页

博学

6Ren·AI

商城

java - 使用 OpenOffice API 抓取整个文档树