- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在构建一个模型,该模型将预测流经管道的产品的交货时间。
我有很多不同的功能,其中一个是一个字符串,其中包含一些有关产品用途的单词(通常是缩写、应用程序的名称等)。我之前在做特征工程的时候根本没有使用过这个字段。
我认为最好对此数据进行某种类型的聚类,然后使用聚类 ID 作为我的模型的特征,也许交付时间与该字段中存在的信息类型相关。
这是我的想法)
1) 清理和标记文本。
2) TF-IDF
3)聚类
但是仔细想想,这是一个坏主意吗?因为聚类是基于旧数据的,所以如果新数据中引入了新词,聚类算法将无法捕获新词,并且现在可能应该以不同的方式对数据进行聚类。这是否意味着每当我想要预测新的数据点时,我都必须重新训练整个模型(k 均值模型,然后是监督模型)?有没有这方面的最佳实践?
是否有更好的方法来查找文本数据的聚类以用作监督模型中的特征?
最佳答案
我理解首先使用无监督聚类算法来亲自查看找到了哪些聚类的冲动。当然,如果这种方式对您的任务有帮助,您可以尝试一下。
但是,由于您已经标记了数据,因此您可以传递产品描述,而无需中间聚类。然后,您的监督算法将自行学习此功能是否以及如何帮助您完成任务(当然需要进行预处理,例如删除停用词、清理、标记化和特征提取)。
根据您的文本描述,我还可以想象一些简单的序列嵌入可以用作特征提取。嵌入是一个例如 300 维的向量,它以 hp office printer
的方式描述单词。和canon ink jet
应彼此靠近,但nice leatherbag
应与其他短语相距较远。例如fasText-Word-Embeddings已经接受过英语培训。获得 hp office printer
序列的单个嵌入可以取三个向量的平均向量(有更多方法可以获取整个序列的嵌入,例如 doc2vec)。
但最终您需要运行测试来选择您的功能和方法!
关于machine-learning - 使用 K 均值聚类文本数据中的聚类 ID 作为监督学习模型的特征是不是一个坏主意?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60138070/
我想做的是改变我的主管,尽最大努力让 children 运行,但如果他们的崩溃率超过强度,就放弃。这样剩下的 child 就可以继续跑。不过,这对于现有的主管配置来说似乎是不可能的,所以看起来我唯一的
我正在处理一个大型推文数据集,我从中将一小部分数据训练为四个手动分类的类别。每个手动分类大约有二十条推文,而数据集有数万条推文。这是我用来训练模型的代码。 from sklearn.feature_e
我的 celerybeat.conf [program:celerybeat] command=/path/app/env/bin/celery beat -A project.tasks --log
正如 ZooKeeper 的文档中所说,有必要使用 daemontools 之类的工具对其进行监督。但是文档没有提供任何示例,我知道启动 ZooKeeper 的唯一方法是运行 bin/zkServer
谁能给我解释一下这个例子中的 uibutton 目标功能: 我有一个 ViewController。我向这个 View Controller 添加了一个带有两个按钮的 uiview。一个按钮是在 in
我最近熟悉了 Erlang/OTP 技术,我想将其应用于监控和监督 Java 应用程序: 检测他们的可用性 启动和停止它们 换句话说,我希望 Java 应用程序被 Erlang OTP 主管基础架构视
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: What are MVP and MVC and what is the difference? 我在网站上
我是一名优秀的程序员,十分优秀!