gpt4 book ai didi

docx - 如何使用 Apache POI 3.5 中新的 OOXML 支持从 DOCX 文件中提取纯文本?

转载 作者:行者123 更新时间:2023-12-03 21:23:19 26 4
gpt4 key购买 nike

2009年9月28日 Apache POI project发布的 3.5 版正式支持 Office 2007 中引入的 OOXML 格式,如 DOCX 和 XLSX。

请提供一个代码示例,用于以纯文本形式提取 DOCX 文件的内容,忽略任何样式或格式。

我之所以这么问是因为我找不到任何涵盖新 OOXML 支持的 Apache POI 示例。

最佳答案

这对我有用。确保添加所需的 jars(升级 xmlbeans 等)

public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}

关于docx - 如何使用 Apache POI 3.5 中新的 OOXML 支持从 DOCX 文件中提取纯文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1492738/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com