gpt4 book ai didi

java - 如何读取和操作从Microsoft Word导出的HTML文档?

转载 作者:行者123 更新时间:2023-12-01 18:59:08 28 4
gpt4 key购买 nike

我有一个保存为 .htm 网页的 Microsoft Word 文档。下面是我的代码。我的问题是如何从文档中获取文本并将其附加到字符串中。我注意到该段落被设置为标签 <p class=MsoNormal>所以有什么建议。我想要将其附加到的字符串是 documentText

    String documentText = "";
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
while (dataInput.available() != 0){
System.out.println(dataInput.readLine());
}

最佳答案

查看诸如HTML Parser之类的库和 Jericho HTML Parser或使用 native HTMLEditorKit.Parser + HTMLEditorKit.ParserCallback this answer 上建议的方法.

关于java - 如何读取和操作从Microsoft Word导出的HTML文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12899219/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com