gpt4 book ai didi

java - 如何使用 Apache HWPF 从 DOC 文件中提取文本和图像

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:43:02 26 4
gpt4 key购买 nike

我下载了 Apache HWPF .我想用它来读取文档文件并将其文本写入纯文本文件。我不太了解 HWPF。

我的非常简单的程序在这里:

我现在有3个问题:

  1. 一些包有错误(它们找不到 apache hdf)。我该如何修复它们?

  2. 如何使用HWDF的方法查找并提取图片?

  3. 我的部分程序不完整且不正确。所以请帮我完成它。

我必须在 2 天内完成这个程序。

我再次重复请帮助我完成此操作。

非常感谢你们的帮助!!!

这是我的基本代码:

public class test {
public void m1 (){
String filesname = "Hello.doc";
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(filesname );
HWPFDocument doc = new HWPFDocument(fs);
WordExtractor we = new WordExtractor(doc);
String str = we.getText() ;
String[] paragraphs = we.getParagraphText();
Picture pic = new Picture(. . .) ;
pic.writeImageContent( . . . ) ;
PicturesTable picTable = new PicturesTable( . . . ) ;
if ( picTable.hasPicture( . . . ) ){
picTable.extractPicture(..., ...);
picTable.getAllPictures() ;
}
}

最佳答案

Apache Tika会为你做这件事。它处理与 POI 的对话以执行 HWPF 操作,并为您提供文件内容的 XHTML 或纯文本。如果您注册一个递归解析器,那么您还将获得所有嵌入的图像。

关于java - 如何使用 Apache HWPF 从 DOC 文件中提取文本和图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/637440/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com