gpt4 book ai didi

text - 如何使用 Apache POI 提取 docx(Word 2007 以上)

转载 作者:行者123 更新时间:2023-12-03 05:54:32 27 4
gpt4 key购买 nike

嗨,我正在使用 Apache POI 3.6我已经创建了一些代码..

XWPFDocument doc = new XWPFDocument(new FileInputStream(file));
wordxExtractor = new XWPFWordExtractor(doc);
text = wordxExtractor.getText();

System.out.println("adding docx " + file);
d.add(new Field("content", text, Field.Store.NO, Field.Index.ANALYZED));

不幸的是,它生成了错误..

Exception in thread "main" java.lang.NoClassDefFoundError: org/dom4j/DocumentException
at org.apache.poi.openxml4j.opc.OPCPackage.init(OPCPackage.java:149)
at org.apache.poi.openxml4j.opc.OPCPackage.<init>(OPCPackage.java:136)
at org.apache.poi.openxml4j.opc.Package.<init>(Package.java:54)
at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:98)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:199)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:178)
at org.apache.poi.util.PackageHelper.open(PackageHelper.java:53)
at org.apache.poi.xwpf.usermodel.XWPFDocument.<init>(XWPFDocument.java:98)
at org.apache.lucene.demo.Indexer.indexDocs(Indexer.java:153)
at org.apache.lucene.demo.Indexer.main(Indexer.java:88)

好像使用了构造函数

XWPFWordExtractor(OPCPackage容器)

但不是这个 ->

XWPFWordExtractor(XWPFDocument文档)

有人想知道为什么吗?或者知道如何提取 .docx 然后将其转换为字符串?

最佳答案

您需要将 dom4j 库添加到项目库的类路径

关于text - 如何使用 Apache POI 提取 docx(Word 2007 以上),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3604799/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com