gpt4 book ai didi

mhtml - 从 mht 文件中提取图像和文本

转载 作者:行者123 更新时间:2023-12-03 03:34:31 36 4
gpt4 key购买 nike

我有一个 mht 文件,其中包含图像和一些文本。当我用 Notepad++ 打开它时,我看到 xml,然后看到难以辨认的文本,我认为这些文本是图像。有人可以告诉我如何使用 java 程序从 mht 文件中提取图像和文本吗?谢谢。

最佳答案

它有点旧,但在 Internet Explorer 中打开它,然后另存为 HTML 也可以完成工作

更新:

如果您在 IE 中打开 .mht 文件,然后保存它,并将“保存类型”设置为“网页,完整 (.htm;.html)”,则会创建“filename.htm”文件以及“filename_files”目录。该目录中会有很多 .tmp 文件。对于 MS“问题步骤记录器”的输出,其中将包括一堆名称中带有“(1)”的文件(例如可能有一个“mhtD3B8.tmp”文件,如下所示)以及“mhtD3B8(1).tmp”文件)。 “(1)”文件是 .jpg 格式的图像,仅带有 .tmp 扩展名。从该文件夹中搜索名称中包含“(1)”的所有文件,并将它们复制到其他目录。

进入新目录后,打开指向该目录的 cmd 窗口。要一次更改所有扩展名,请输入“rename *.tmp *.jpg”(不带引号)并按 Enter。瞧 - 所有图像文件都已提取。

至于访问文本 - 由于该文件现在保存为 .htm 文件,您应该能够在 Notepad++ 中打开该文件并在那里正确解析/读取它。

希望这有帮助!

关于mhtml - 从 mht 文件中提取图像和文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20476678/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com