gpt4 book ai didi

machine-learning - 如何使用 scikit 交叉验证模块将数据(原始文本)拆分为测试/训练集?

转载 作者:行者123 更新时间:2023-11-30 08:23:43 25 4
gpt4 key购买 nike

我有大量原始文本意见库(2500)。我想使用 scikit-learn 库将它们分成测试/训练集。使用 scikit-learn 解决此任务的最佳方法是什么?谁能给我提供一个在测试/训练集中分割原始文本的示例(可能我会使用 tf-idf 表示)。

最佳答案

假设您的数据是字符串列表,即

data = ["....", "...", ]

然后您可以使用 train_test_split 将其分为训练集 (80%) 和测试集 (20%)例如通过这样做:

from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)

不过,在你急于这样做之前,请阅读 those docs通过。 2500 不是一个“大型语料库”,您可能想要执行类似 k 折交叉验证之类的操作,而不是单个保留分割。

关于machine-learning - 如何使用 scikit 交叉验证模块将数据(原始文本)拆分为测试/训练集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25793887/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com