gpt4 book ai didi

c# - 如何从特定的二进制文件格式中提取文本?

转载 作者:太空宇宙 更新时间:2023-11-03 19:35:14 27 4
gpt4 key购买 nike

在 .Net 中,从以下几种二进制文件格式中提取所有文本的最佳方法是什么:PDF、Word、Excel 和 PowerPoint。

它不需要格式化,只是文件中文本的一大堆转储。

代码会很棒,但我真的只需要指出其中的一些最佳实践或模式。

最佳答案

我很惊讶没有人提到 IFilters . IFilters 是 Microsoft 用来在 Windows 中索引文档的工具。您必须进行一些谷歌搜索才能找到您正在寻找的特定格式的 IFilter,但您应该可以找到大部分所需内容。不过请注意,IFilter 并不完美。他们有问题......

这是一篇帮助您入门的 CodProject 文章:http://www.codeproject.com/KB/cs/IFilter.aspx

关于c# - 如何从特定的二进制文件格式中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2073025/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com