gpt4 book ai didi

java - 如何提取带有文本的 .doc 文件中的章节号?

转载 作者:行者123 更新时间:2023-11-30 05:10:23 25 4
gpt4 key购买 nike

我使用Apache POI HWPF提取.doc文件,我发现提取的文本没有章节号,POI可以提取文本中的章节号吗?

public void readDocFile() {
File docFile = null;
WordExtractor docExtractor = null;
WordExtractor exprExtractor = null;
try {
docFile = new File("C:\\Documents and Settings\\Administrator\\Desktop\\Topo6.doc");
// A FileInputStream obtains input bytes from a file.
FileInputStream fis = new FileInputStream(docFile.getAbsolutePath());

// A HWPFDocument used to read document file from FileInputStream
HWPFDocument doc = new HWPFDocument(fis);
docExtractor = new WordExtractor(doc);
} catch (Exception exep) {
System.out.println(exep.getMessage());
}

// This Array stores each line from the document file.
String text = docExtractor.getText();
System.out.println(text);


}

最佳答案

好的,我明白了。

office word生成的.doc文件中的章节号是动态的,所以我必须获取每个段落的级别,并自己计算章节号。

关于java - 如何提取带有文本的 .doc 文件中的章节号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3605774/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com