gpt4 book ai didi

python - 识别数据集中的特征类型: categorical or bag of words

转载 作者:行者123 更新时间:2023-11-30 09:06:41 25 4
gpt4 key购买 nike

我正在尝试识别数据集中的特征类型,该特征可以是分类/词袋/ float 。

但是,由于以下原因,我无法找到区分分类词和词袋的准确解决方案。

  1. 分类数据可以是对象或 float 。计算特征中的唯一值并不能确保准确的解决方案,因为不同的样本可以具有相同的特征值,而这些特征值不一定是分类的。
  2. 对于袋子或单词,我想过计算单词数,但这又不是正确的方法,因为文本可以用单个单词书写,也可能会丢失。

识别特征类型的最佳方法是什么?

最佳答案

好吧,您对这两个术语感到困惑:

分类数据是一种可以在不同类别之间进行分类的数据,尤其是两个以上类别或多类别的数据。搜索 20 个新闻组数据集。

鉴于,词袋是一种存储特征的技术。特征的识别是根据所需的结果来完成的。有一些技术可以从sklearn中提取特征,例如TF-IDF VectorizerWord2VecDoc2Vec等。但是特征的识别仅基于您使用的数据集及其用途的应用程序。永远记住,如果您将文本数据转换为数字形式或其他形式,列名称是您的特征或维度,而行是您的样本、实例或记录。

关于python - 识别数据集中的特征类型: categorical or bag of words,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50326774/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com