作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在挖掘有关物流运输的大型(100K 条目)数据集时遇到困难。我有大约 10 个名义字符串属性(即城市/地区/国家名称、客户/船舶识别码等)。除此之外,我还有一个日期属性“出发”和一个比例缩放数字属性“目标”。
我想做的是使用训练集找出哪些属性与“目标”有很强的相关性,然后通过预测测试集中条目的“目标”值来验证这些模式。
我认为聚类、分类和神经网络可能对解决这个问题有用,所以我使用了RapidMiner、Knime 和 elki 并尝试将他们的一些工具应用于我的数据。然而,这些工具大多数只处理数字数据,所以我没有得到有用的结果。
是否可以将我的名义属性转换为数字属性?或者我是否需要找到可以实际处理标称数据的不同算法?
最佳答案
您很可能想使用基于树的算法。这些都是很好用的标称特征。请注意,您不想使用“类似 id”的属性。
我会推荐 RapidMiner 的 AutoModel 功能作为开始。 GBT 和 RandomForest 应该可以很好地工作。
最好,马丁
关于bigdata - 通过高维标称属性预测数值属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50927646/
我正在尝试熟悉 Nom,目前是第 5 版,其中没有 CompleteStr 和其他内容,因此相关问题不是很有帮助。 我怎样才能解析类似的东西 "@pook Some free text @anothe
假设我想创建一个多次使用另一个解析器的组合器,例如,解析由两种引号分隔的字符串: fn quoted>(f: F) -> impl Fn(&'a str) -> IResult where F
我是一名优秀的程序员,十分优秀!