gpt4 book ai didi

pandas - 执行分层时是否应该保留类别的比例?

转载 作者:行者123 更新时间:2023-11-30 09:49:25 24 4
gpt4 key购买 nike

我有 30,000 个按情绪分类的短语。

我将使用朴素贝叶斯。

这是比例(情绪 -> 短语数量)。

anger           98
boredom 157
empty 659
enthusiasm 522
fun 1088
happiness 2986
hate 1187
love 2068
neutral 6340
relief 1021
sadness 4828
surprise 1613
worry 7433

所以,我必须将数据集拆分为训练/测试来执行我的模型等,对吗?

执行分层时是否应该保留类别的比例?

我的意思是,如果我选择 30% 作为测试样本,我是否应该保留每种情绪的 30%,而不是整个数据集的 30%?

我想是的,但我想得到更有经验的意见。

你会怎么做?这里有人知道更好的方法吗?而不是执行 python 循环、测试哪种情绪、计算 30%、放入字典等?

Pandas 是否有任何按类别特征进行分层并保持比例的技巧?

最佳答案

Should I keep the proportion of the categories when executing the stratification?

您似乎对术语有点困惑; 分层(或 stratified sampling )的定义正是为了保持比例,否则就是简单的随机抽样。

if I pick 30% for the test sample, should I keep 30% of each sentiment instead of 30% of the whole dataset?

它们并不矛盾,不是吗?如果您保留每个类别的 30%,那么您最终不会得到初始集合的 30% 吗?

Is there any Pandas trick to stratify by a category feature, keeping the proportion?

不知道 pandas,但 scikit-learn (我猜你接下来会使用它)model_selection.train_test_split包括这样一个stratify选项:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
stratify=y,
test_size=0.3)

关于pandas - 执行分层时是否应该保留类别的比例?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47729742/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com