- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
This问题与解决隐藏文件类型类似。我正在努力解决类似的问题,因为我只需要处理包含许多不同文件类型(图片、文本、音乐)的文件夹中的文件的文本。我正在使用 os.walk,它列出了所有内容,包括没有扩展名的文件,如图标文件。我使用的是 linux,只过滤 txt 文件会很满意。一种方法是检查文件扩展名和 this帖子很好地解释了它是如何完成的。
但这仍然会留下错误标记的文件或没有扩展名的文件。有十六进制值可以唯一标识文件类型,称为魔数(Magic Number)或文件签名。 here和 here不幸的是,文本文件不存在魔数(Magic Number) (see here)。
我想出的一个策略是通过字典查找来解析第一串字符以确保它们是单词(我只处理英文文本)然后只进行全文处理,如果是的话true.This approach seems quite heavy and expensive(为每个文件做一堆字典查找)。另一种方法是简单地查找在数据文件中不太常见但在文本文件中很常见的词“the”。但是漏报会导致我丢失要处理的文本文件。我试着向谷歌询问最长的没有“the”这个词的文本,但没有成功。
我不知道这是否是提出此类问题的合适论坛 - 这几乎是一个人工智能问题,而不是计算机科学/编码问题。它不像乱码检测那么困难。这些文本在语义或句法上可能不正确——它们可能只是像仓库库存那样的单词,但也可能是散文和诗歌。我只是不想处理可能是字节码、源代码或不是英语单词的字母数字字符集合的文件。
最佳答案
您可以使用 Python 的 mimetypes
库来检查文件是否为纯文本文件。
import os
import mimetypes
for dirpath, dirnames, filenames in os.walk('/path/to/directory'):
for filename in filenames:
if mimetypes.guess_type(filename)[0] == 'text/plain':
print(os.path.join(dirpath, filename))
更新:由于 mimetypes
库使用文件扩展名来确定文件类型,因此它不是很可靠,尤其是您提到某些文件被错误标记或没有标记扩展名。
对于这些情况,您可以使用 magic
库(不幸的是,它不在标准库中)。
import os
import magic
mime = magic.Magic(mime=True)
for dirpath, dirnames, filenames in os.walk('/path/to/directory'):
for filename in filenames:
fullpath = os.path.join(dirpath, filename)
if mime.from_file(fullpath) == 'text/plain':
print(fullpath)
更新 2:上述解决方案不会捕获您认为是“纯文本”的文件(例如 XML 文件、源文件等)。以下解决方案应该适用于这些情况:
import os
import magic
for dirpath, dirnames, filenames in os.walk('/path/to/directory'):
for filename in filenames:
fullpath = os.path.join(dirpath, filename)
if 'text' in magic.from_file(fullpath):
print(fullpath)
让我知道这些是否适合您。
关于python - 如何使用 os.walk 只列出文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35497473/
如何从单个输入字段中的逗号分隔值输出列表(无论是作为单个值还是作为数组)? 示例 用户在文本输入字段中输入以下内容:Steve、Bruce、Matt、Natasha、Peter 结果: 史蒂夫 布鲁斯
如何列出与 Jena 中的实例关联的所有对象属性? 例如:Person 有一个名为“hasVehicle”的对象属性,它与类 Vehicle 相关联 最佳答案 合适的 Jena 方法是 OntClas
如何列出与 Jena 中的实例关联的所有对象属性? 例如:Person 有一个名为“hasVehicle”的对象属性,它与类 Vehicle 相关联 最佳答案 合适的 Jena 方法是 OntClas
我知道 Python 是一种动态语言,但下面的代码让我很困扰。 我有下面的简单程序,它有一些辅助函数来包装命令执行。 EventLoaderToVerticaHelper 是一个有两个方法的辅助类,所
我有以下代码 public void saveProjects(List proj) throws DatabaseException { for (Project listItems: pr
我有一个列表,其中元素是: struct element { double priority; int value;
我看到对于 pull 请求的提交,根据文档最大限制为 250:List commits on a Pull Request如果 pull 请求超过 250 次提交,则建议使用另一个端点:List Co
我是 django 的新手,我想列出一个 django 项目的应用程序,例如: FeinCMS 我知道 startapp 会为应用程序创建目录结构。请问有没有函数或者文件可以获取应用列表。 以Fein
你能列出所有在 Hibernate 框架中使用的设计模式吗? 我了解一些设计模式,如 DAO、ORM 等。 如果可能的话,一些例子。 最佳答案 Hibernate 中使用的设计模式: 领域模型模式——
我正在尝试在终端中使用 psql 来查找数据库中所有可为空的列。如果我使用 select * from information_schema.check_constraints; 我得到如下信息 c
您可以使用以下步骤列出 WSO2 碳基产品使用的所有管理服务。 使用 OSGI 控制台启动服务器。转至 /bin 使用命令 shell 。 i) 例如:Linux sh wso2server.s
我想列出数据库中的所有表名。我的应用程序必须独立于 DBMS。不同的 DBMS 有不同的命令来列出表,例如: PstgreSQL: SELECT * FROM pg_catalog.pg_table
主要是为了我自己的启发,我试图列出当前 Emacs session 中加载的所有全局变量。我正在考虑做的是生成一个包含所有列出的功能的 HTML 文件。当然,定义函数、var 等的文件也很有用。 em
我如何定义 lists:append具有列表理解功能? 我想要类似的东西 1> append([[1, 2, 3], [a, b], [4, 5, 6]]). [1,2,3,a,b,4,5,6] 最佳
使用以下 Powershell 代码段,我可以获取当前用户的组成员名称: $groups = [System.Security.Principal.WindowsIdentity]::GetCurre
如何列出 Docker 容器的所有卷?我知道它应该很容易获得,但我找不到方法。 另外,是否可以获取已删除容器的卷并将其删除? 最佳答案 您可以使用 docker ps,获取容器 ID 并写入: $ d
来自微软独库: The "\\.\" prefix will access the Win32 device namespace instead of the Win32 file namespace
这个问题在这里已经有了答案: 9年前关闭。 Possible Duplicate: Finding all Namespaces in an assembly using Reflection (Do
是否有命令行选项可以列出您的 Cucumber 测试套件中的所有标签? 例如,我想要这样的东西: cucumber --show-tags foo.feature 那会给我类似的东西: @ci @de
有没有一种快速的方法来列出为数据库定义的所有实际上没有被任何字段使用的 Firebird 域?我有一个包含许多表和许多域的大型数据库,似乎其中很多不再使用,所以我想是时候进行清理了! 我认为这可以通过
我是一名优秀的程序员,十分优秀!