gpt4 book ai didi

machine-learning - Weka ARFF 如何处理每个数据项可以有超过 1 个值的特征/属性

转载 作者:行者123 更新时间:2023-11-30 09:22:27 25 4
gpt4 key购买 nike

对于推荐引擎,我试图将我的电影数据转换为 arff 格式,尽管 arff 格式对我来说很清楚,但我不确定解决以下问题的最佳方法是什么。

我的数据集将采用以下(或类似)格式,其中评级是要预测的分类变量:

对于每个用户,都有一个列表:MovieID - 电影标题 - 发行年份 - 类型 - Actor - 导演 - 编剧 - 运行时 - 评级

我的问题是,特征流派、 Actor 、作家可以有一个或多个条目,而 weka arff 只允许每个属性有一个值。我想到的一个解决方案是:

  • 具有流派0、流派1、流派2 等属性。例如,如果一部电影只有一种类型,则留空。我看到的问题是,这对于类型来说非常有用,但这是否意味着对于 Actor 来说,例如我必须在属性声明中包含所有 Actor ?

    @ATTRIBUTE actor1 {所有 Actor }@ATTRIBUTE actor2 {所有 Actor }@ATTRIBUTE actor3 {所有 Actor }

因为它们都是该特定功能的可能值。这种方法对我来说确实最有意义,但由于有数千名 Actor 、导演和编剧,这将是相当大的属性声明。

有没有更好、更有效的方法来做到这一点?

最佳答案

我不知道解决方法,但一些预处理可能有助于减少属性声明的预期大小。例如:

{'巡航':1,'史密斯':2}

关于machine-learning - Weka ARFF 如何处理每个数据项可以有超过 1 个值的特征/属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30189666/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com