gpt4 book ai didi

python - 使用 sklearn.datasets.load_files 导入的数据集标签

转载 作者:太空狗 更新时间:2023-10-30 00:58:17 26 4
gpt4 key购买 nike

我想知道如何将 SVN 分类器生成的标签与我的数据集上的标签相匹配。然后我意识到问题从一开始就开始了:when I load the dataset我得到了一个数据集,在我的例子中它具有以下属性:

.data = the news text
.target_names = label used in the dataset e.g. ["positive", "negative"]
.target = A matrix with a number for each news with a label.

但我想知道 target_names 的顺序是否在不同的数据集(具有相同的标签但不同的新闻)中不同,以及 .data 元素的顺序是否会影响它。

有什么方法可以轻松知道.target 矩阵中数字的标签吗? (我的意思是,0或1在这样的矩阵中代表什么)

最好的,

最佳答案

.target 中条目 i 的对应标签可用作 .target_names[i]。在您的示例中:.target_names[1] 是“负数”。

目标名称的顺序在不同的数据集中是相同的,只要标签完全相同。这是因为 sklearn.datasets.load_files() 从排序后的文件夹名称创建标签,正如我们在 source code 中看到的那样(v.20.x):

[...]
folders = [f for f in sorted(listdir(container_path))
if isdir(join(container_path, f))]

if categories is not None:
folders = [f for f in folders if f in categories]

for label, folder in enumerate(folders):
target_names.append(folder)
[...]

为了安全起见,我仍然建议总是从当前数据集的 target_names 中检索标签(实现可能会随着时间等而改变)

关于python - 使用 sklearn.datasets.load_files 导入的数据集标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55617744/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com