gpt4 book ai didi

python - scikit-learn 中的 load_files 未加载目录中的所有文件

转载 作者:行者123 更新时间:2023-11-30 08:55:12 26 4
gpt4 key购买 nike

我有一个名为“电子邮件”的文件夹,其中有两个子文件夹,以与它们所拥有的文件分类相对应的标签命名(垃圾邮件或非垃圾邮件,均为 .txt 文件)。这两个子文件夹中有 3000 个文件。使用load_files:

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这将打印“5”,然后打印“3000”。找到3000个分类标签,数据长度怎么可能只有5?

最佳答案

您的数据存储在 data.data 中,目标存储在 data.target 中。尝试使用 print(len(data.data)) 代替。

load_files() 仅返回一个 sklearn.datasets.base.Bunch,它是一个简单的数据包装器。因此,数据采用以下格式:

{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}

这就是 len(data) 返回 5 的原因。

希望这有帮助!

关于python - scikit-learn 中的 load_files 未加载目录中的所有文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30027027/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com