java - OpenDocument 格式 : parse & split text by lines-6ren

java - OpenDocument 格式 : parse & split text by lines

转载作者：行者123 更新时间：2023-11-30 06:18:23

25

4

我正在解析(使用 Groovy)从 LibreOffice .odt(Writer)文件获取的 content.xml。

我想确保清除文件中的所有文本，并按换行符分割。

在Java的org.w3c.dom.Node(或Groovy的groovy.util.Node)中，有一个方法可以拾取任何节点下的所有文本(dom.Node.getTextContent/util.Node.text)。对于最高节点，这将打印文件中的所有文本，但忽略换行符。

这让我假设我必须(深度优先)遍历结构，识别各个行。

通过解析这样的结构，我发现节点名称的“本地部分”往往包含文本是“p”(段落)和“h”(标题)。

我还假设“p”或“h”不能嵌套另一个“p”或“h”(尽管有一些复杂的嵌入结构，我确信它们可以......)。但是，清楚地检查给定“p”下的任何span将生成您已经从其祖先“p”节点获得的文本。

但是“p”和“h”是我需要查看的唯一 QName 吗？我应该如何处理嵌入结构的可能性(例如包含一些文本的图形)。

是否有某种技术可以让我逐个节点地获得所有文本的全面列表，确保没有遗漏任何文本，也没有重复的文本？

如果失败了，OpenDocument 格式的某些方面是否可以让我解决这个问题？有趣的是 brief overview at Wikip 中的示例在“content.xml”下，仅使用这两个 QName，“p”和“h”。

最佳答案

蒂姆·耶茨的评论似乎是最好的选择。

除非有人反对，否则我不会删除这个问题，因为似乎没有另一个类似的问题。

从第一个实验来看，org.odftoolkit.simple.TextDocument.getParagraphIterator()将迭代所有段落，包括“h”QNames(=标题)，还包括空段落。这是一个好兆头。

请记住，这些“段落”实际上可能是多行段落:在 Writer 文件中，“段落标记”和“换行符”之间是有区别的。然而，解决这个问题的方法非常简单:只需在换行符上拆分 Paragraph getTextContent()/(textContent property for Groovy people) String性格...

关于java - OpenDocument 格式 : parse & split text by lines，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48712800/

25

4

0

文章推荐： java.lang.IllegalArgumentException : Unsupported element: rss

文章推荐： java - 在 Objective-C 中从指针创建 NSWindow？

Java 8 流 : How to read lines between two lines specified by line content
当前问题陈述的输入是 - 输入.txt #START_OF_TEST_CASES #DATA key1:VA1 key2:VA2 key3:VA3 key4:VA4 key5:VA5 #DEND #E
php - 注意 : . .. Unknown on line 0 - How to find correct line, it's NOT "line 0"
编辑:添加了 PDO 调用。这是实际的错误: Notice: Object of class PDOStatement could not be converted to int in Unknow
git - 有没有办法让 git show lines added, lines changed and lines removed？
“git diff --stat”和“git log --stat”显示如下输出: $ git diff -C --stat HEAD c9af3e6136e8aec1f79368c2a6164e56
java - 将 Files.lines 与 .map(line -> line.split ("multiple delimiters")) 一起使用
我有一个具有以下格式的输入文件:安大略省:布兰普顿:北纬 43° 41':西经 79° 45'安大略省:多伦多:北纬 43° 39':西经 79° 23'魁北克省:蒙特利尔:北纬 45° 30':西经
python - 为什么 line != "\n"或 line != "\r\n"或 line ! ="\r"无法过滤空行？
空白行仅包含\n或\r\n或\r。 tempfile = open(file,"r") for id,line in enumerate(tempfile): if(line != "\n"
lines - 如何去除 BABYLON Lines 上的光效
我尝试使用 BABYLON.js 开发棋盘游戏我有一个板子和一个 ArcRotateCamera。我的灯是 HemisphericLight 当我在板上画线时，我希望这些线具有相同的外观。现在，当我
lines - 如何去除 BABYLON Lines 上的光效
我尝试使用 BABYLON.js 开发棋盘游戏我有一个板子和一个 ArcRotateCamera。我的灯是 HemisphericLight 当我在板上画线时，我希望这些线具有相同的外观。现在，当我
linux - "$line"和 "^$line"有什么区别
有一个while read循环: while read line; do grep "^$line" file1 done < target 我应该使用 "^$line" 来获得正确答案。我想
python : How to fill an array line by line?
我有一个我无法解决的 numpy 问题。我有填充 0 和 1 的 3D 数组 (x,y,z)。例如，z 轴上的一个切片: array([[1, 0, 1, 0, 1, 1, 0, 0],
javascript - 如何迭代 "line-by-line"npm 中的所有行？
作为临时方法，我使用 .txt 文件来存储程序的某些变量。写入与 fs.appendFile 完美配合，但考虑到它的大小，使用 fs.readFile 读取不合适 - 我想得到某一行来自文件，以及
rstudio - R-调试: line by line through a loop
我试图找到一种通过R studio进行调试的方法，但是我发现的所有解决方案都无法真正起作用。 1.)CTRL + enter:有效，但不会通过循环的每次迭代，而只能执行一次。 2.)添加“browse
java - 安卓开发: Line Spacing With Line Numbering
在我的应用程序中，我的 EditText 左侧有行号 - 到目前为止一切都很好，行号与 EditText 的行完全对齐。问题是，如果用户更改 EditText 的文本大小，则行号无法正确对齐。所以我
command-line - Vim : from command line, 转到文件末尾并开始编辑？
通过使用 + 的参数调用它，我可以使 vim 将光标定位在文件的最后一行。 : vi + myfile # "+" = go to last line of file 我怎样才能做到
克洛尤尔 : Read an edn file line by line
我已经在文件中写入了这样的数据(某种) {:a 25 :b 28} {:a 2 :b 50} ... 我想要这些 map 的惰性序列。大约有 4000 万行。我也可以写 10000 的 block
javascript - 多行文本区域值 : line feed not present in all lines
我在文本区域中发现了一个奇怪的错误(？)... 比如说，有一个使用多行文本(用户粘贴的文本或预设文本无关紧要，两者都经过测试)。我想从中获取文本并替换 \n与其他东西......结果是，.re
python - Reportlab new line in a long line
我需要一个新行，这样我就可以在 PFD 中看到一个格式，我尝试添加一个页面宽度但它没有用，我用另一个东西/n 也没有用。这是我的代码。我可以手动添加格式，因为我需要显示从数据库中获取的信息，并且我在一
Java地理工具: Snap to line identifiying line that was snapped to
我正在尝试编写一个 Java 程序，它将大量 GPS 坐标捕捉到线形文件(道路网络)，并且不仅返回新坐标，还返回捕捉到的线段的唯一标识符。该标识符是否是 FID、其他语言中使用的“索引”(即，其中 1
javascript - 填充二维数组 "line by line"JavaScript/NodeJS
你好，我正在努力处理 JavaScript/NodeJS 中的数组。基本上，这是我的代码: let arr = new Array(); arr = { "Username" : var1,
python - matplotlib 2d line line,=plot逗号意思
我正在学习 matplotlib 的基本教程，我正在处理的示例代码是: import numpy as np import matplotlib.pylab as plt x=[1,2,3,4] y=
c# - 文本文件 : Reading line by line C#
所以，假设我有一个包含 20 行的文本文件，每行都有不同的文本。我希望能够有一个包含第一行的字符串，但是当我执行 NextLine(); 时我希望它成为下一行。我试过了，但它似乎不起作用: strin

首页

博学

6Ren·AI

商城

java - OpenDocument 格式 : parse & split text by lines