- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我开始研究如何转换 .docm文件转换为 PDF 文件。据我所知,只有用于将 .docx 转换为 pdf 的开源库。我的解决方案是寻找一种将 .docm 转换为 .docx 的方法,同时保留所有信息。为此,我找不到合适的开源解决方案,但我找到了 apache-poi 的提交( link )。使用该提交中找到的代码,我成功地创建了 .docx 文件,其中包含我的 .docm 文件所具有的所有信息。
String dir = "<directory>";
for (int i = 1; i < 41; i++) {
File f = new File(dir + File.separator + i + ".docm");
File target = new File(dir + "output" + i + ".docx");
try {
new DocumentConverter(f).toDocx(target);
} catch (IOException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
}
}
我从链接中复制了代码并按照上述方式使用它。
获得包含所有信息的 .docx 文件后,我开始将它们转换为 .pdf 文件。为此,我找到了 2 个可能的开源库, docx4j和documents4j 。
Docx4j转换为pdf代码:
try {
Docx4J.toPDF(WordprocessingMLPackage.load(target), new FileOutputStream(dir + "out" + i + ".pdf"));
} catch (FileNotFoundException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
} catch (Docx4JException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
}
这将生成一个 pdf 文件,其中包含除 MS Word 注释之外的所有信息。
Documents4j 转换为 pdf 代码:
try (ByteArrayOutputStream bo = new ByteArrayOutputStream()) {
try (InputStream in = new BufferedInputStream(new FileInputStream(target));) {
IConverter converter = LocalConverter.builder()
.baseFolder(new File(dir))
.workerPool(20, 25, 2, TimeUnit.SECONDS)
.processTimeout(5, TimeUnit.SECONDS)
.build();
Future<Boolean> conversion = converter
.convert(in).as(DocumentType.DOC)
.to(bo).as(DocumentType.PDF)
.prioritizeWith(1000) // optional
.schedule();
conversion.get();
try (OutputStream outputStream = new FileOutputStream("out"+ i +".pdf")) {
bo.writeTo(outputStream);
}
converter.shutDown();
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException | ExecutionException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
这将为我生成一个看起来不错的 pdf 文件,并且包含 MS Word 的注释。
进一步测试表明 docx4j pdf 的文本准确,但位置发生了变化(例如:段落合并或分成两部分)。 Documents4j 中的 PDF 在位置上更准确,但正如我所说,它们缺少信息。我的测试是在以相同方式创建的表单文档上进行的,并且丢失的信息始终位于同一位置。
我的问题如下:
编辑:我忘记包括我正在使用每个库的最新版本。
最佳答案
documents4j 通过 VBS 脚本将实际工作委托(delegate)给 MS Word,因此,结果的任何更改都是由于脚本中的配置造成的。您可以尝试使用它,看看是否可以使 Word 包含您缺少的内容:https://github.com/documents4j/documents4j/blob/master/documents4j-transformer-msoffice/documents4j-transformer-msoffice-word/src/main/resources/word_convert.vbs
只需构建项目并查看更改如何影响输出。
关于java - 如何使用开源java库正确地将DOCM转换为PDF?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58559988/
Java 库和 android 库有什么区别,各自有什么优点/缺点? 最佳答案 您可以在 Android 应用程序中包含标准 Java .jar 文件库。它们在 .apk 构建时被翻译成 Dalvik
所以,我现在的代码就像从 Java 层加载库(比如 liba.so),并在内部 liba.so 加载 libb.so。因此,如果我必须将所有库打包到 APK 中并将其安装在没有 root 访问权限的设
我想在我的系统中设置 LEDA 库。 我已经从以下链接下载了 LEDA 库 http://www.algorithmic-solutions.info/free/d5.php Instruct
我想用 autoconf 创建一个共享库。但是,我希望共享库具有“.so”扩展名,而不是以“lib”开头。基本上,我想制作一个加载 dlopen 的插件。 .是否有捷径可寻? 当我尝试使用 autoc
我需要在 Apps 脚本应用程序上修改 PDF。为此,我想使用 JS 库:PDF-LIB 我的代码: eval(UrlFetchApp.fetch("https://unpkg.com/pdf-lib
我正在构建一个使用以下 Boost header 的程序(我使用的是 Microsoft Visual C++ 10), #include #include #include #include
当我通过 cygwin 在 hadoop 上运行此命令时: $bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 我
我已经通过 vcpgk 成功安装了一个 C++ 库,名为:lmdb:x64-windows 我还安装了lmdb通过 Cabal 安装的 Haskell 绑定(bind)包 在尝试测试 lmdb 包时:
我该如何解决这个问题? 我刚刚将 javacv jar 文件复制到我的项目 Lib 文件夹下,但出现了这个错误! 我可以找到这个thread来自谷歌,但不幸的是,由于我国的谷歌限制政策,该页面无法打开
我有一个 Android 库项目 FooLib。 FooLib 引用 Android Context 之类的东西,但不需要任何资源文件(res/ 中的东西)所以我目前将其打包为供我的应用使用的 JAR
我正在开发一个 Android 应用程序(使用 Android Studio),它能够通过手势识别算法了解您正在进行的 Activity 。对于我使用 nickgillian ithub 帐户上可用的
关于从 .NET Framework 项目中引用 .NET Standard 类库的问题有很多类似的问题,其中 netstandard 库中的 NuGet 包依赖项不会流向 netframework
我已经从互联网上下载了 jna-4.2.2.jar,现在想将这个 jar 导入到我的项目中。但是当我试图将这个 jar 导入我的项目时,出现以下错误。 [2016-06-20 09:35:01 - F
我正在尝试通过编译在 Mac 上安装 rsync 3.2.3。但是,我想安装所有功能。为此,它需要一些库,此处 ( https://download.samba.org/pub/rsync/INSTA
进入 Web 开发有点困难。过去 5 年我一直致力于 winforms 工作。所以我正在努力从一种切换到另一种。前段时间,我使用过 JavaScript,但现在还没有大量的 JavaScript 库
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在寻找一个用Python编写的与logstash(ruby + java)类似的工具/库。 我的目标是: 从 syslog 中解析所有系统日志 解析应用程序特定日志(apache、django、m
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我花了几天时间试图寻找用于 JavaPOS 实现的 .jar 库,但我找不到任何可以工作的东西。我找到了很多像这样的文档:http://jpos.1045706.n5.nabble.com/file/
这个问题在这里已经有了答案: Merge multiple .so shared libraries (2 个答案) 关闭 9 年前。 我有我在代码中使用的第三方库的源代码和对象。该库附带有关如何使
我是一名优秀的程序员,十分优秀!