- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想为论坛帖子构建一个分类器,它会自动对这些帖子进行分类发布到一些定义的类别(因此多类分类不仅仅是二元分类分类)通过使用语义词表示。对于这个任务我想利用word2vec 和 doc2vec 并检查使用这些模型支持快速的可行性选择分类器的训练数据。目前我已经尝试了两种模型他们的工作就像魅力一样。但是,因为我不想手动标记每个句子来预测它描述了什么,我想把这个任务留给 word2vec 或 doc2vec 模型。所以,我的问题是:我可以在 Python 中使用什么算法作为分类器? ( 我刚在想在 word2vec 或 doc2vec 上应用一些聚类 - 手动标记每个聚类(这需要一些时间并且不是最好的解决方案)。以前,我使用过“LinearSVC”(来自 SVM)和 OneVsRestClassifier,但是,我标记了每个句子(通过手动训练向量“y_train”)以预测新测试的类别句子将属于。 python中有什么好的算法和方法可以用于这种类型的分类器(利用语义词表示来训练数据)?
最佳答案
诸如 word2vec/doc2vec 之类的东西(实际上是任何无监督分类器)的问题在于它只使用上下文。因此,例如,如果我有一个像“今天是炎热的一天”这样的句子和另一个像“今天是寒冷的一天”这样的句子,那么它认为炎热和寒冷非常相似,应该位于同一个集群中。
这使得标记变得非常糟糕。无论哪种方式,Python 的 gensim 模块中都有一个很好的 Doc2Vec 和 Word2Vec 实现 - 您可以快速使用 google-news 数据集的预构建二进制文件并测试是否获得有意义的集群。
您可以尝试的另一种方法是在您的计算机上实现一个简单的 lucene/solr 系统并开始随机标记几个句子。随着时间的推移,lucene/solr 会为您的文档建议清晰的标签,如果您的数据不是很糟糕,它们确实是相当不错的标签。
这里的问题是你试图解决的问题不是特别容易也不是完全可以解决的 - 如果你有非常好的/清晰的数据,那么你可能能够自动分类大约 80-90% 的数据......但是如果它不好,你将无法对其进行自动分类。
关于python - 使用语义词表示(例如 word2vec)来构建分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31390838/
我正在尝试提升我的 javascript 编程技能(或者说我的编程技能时期 :)) 所以我试图理解一些语义: 第一行的“?”是什么意思?均值和“-distance”中的减号 第二行中的“+=”或“-=
我正在尝试在语义 UI 中执行复选框,但它不起作用,我无法弄清楚我做错了什么。 我包括jquery、semantic.min.js、checkbox.js 和semantic.min.css,然后我添
我正在构建一个 Spring 后端。我有一个 Controller ,它获取一个“搜索对象” - 一个具有 10 个字段的对象,其中只有一个应该被填充,所以搜索功能(我没有编写,但需要对其进行更改和重
我面临着编写更智能/高级的“相关内容”算法的挑战,并且不知道从哪里开始,所以我决定提出一个问题,是否有人会指出我正确的方向。 我们的数据库包含很多文章,到目前为止,我们使用关键字/标签查询了相关文章,
我正在尝试将通用字符串写入Rust中的数字函数,其中支持的类型为i16,i32,i64,u32,u64,f32和f64。 最初我有这个: fn str_to_num(s: &str, default_
假设我们在 hpp 文件中有一个带有唯一指针的简单结构: struct SomeType { SomeType() = default; ~SomeType(); st
这是同一预处理指令的多个问题。 1 - <> 还是 ""? 除了在 MSDN 中找到的信息: #include Directive (C-C++) 1.a:这两种符号有什么区别? 1.b:所有编译器都
所以基本上我有一个带有列表的简单系统,当我选择一个项目时,它会显示描述和绑定(bind)到该项目的图像。 项目:https://jsfiddle.net/jhnjcddh/2/ 问题是我需要在 JS
很抱歉问了一个愚蠢的问题,但有人能告诉我以下是什么意思吗 for ctype, (codename, name) in searched_perms: 我不明白括号里是怎么回事。 for ctype
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Why do all these crazy function pointer definitions al
我正在学习 HTML5,并获得了一个将 CSS Zen Gardens 转换为 HTML5 语义版本的项目。我已经能够轻松地转换其中的大部分内容,但是底部的链接/导航给我带来了一些问题。 转换此/处理
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
我一直在我的 emacs c/c++ 开发设置中试验 cedet 和语义,除了一个小细节外,我对它非常满意。 我使用 ede-cpp-root-project 创建一个项目,并给出我的项目的根目录以及
引用问题自http://www.garfieldtech.com/blog/put-up-with-put (这是针对 Drupal 开源项目的,有点元,因为这里没有代码): GET、HEAD 和 P
我有以下代码。 let v_blue = UIView() v_blue.backgroundColor = UIColor.blueColor() l
我目前正在 objc.io 上阅读优秀的 Advanced Swift 书籍,但遇到了一些我不明白的问题。 如果您在操场上运行以下代码,您会注意到在修改字典中包含的结构时,下标访问会生成一个副本,但随
谁能给我一个关于 Flutter 上下文中语义概念的清晰解释(或链接)(它实际上是什么,何时使用,更新...)? 我在谷歌上搜索了很多,但到目前为止还没有找到任何好的解释。 非常感谢, 最佳答案 Di
这是我的代码 Was this what you wanted? It's good to see you again.
我有一个侧边栏,其中包含应用程序的主导航。它还包含一个 button 触发侧边栏的打开/关闭。在语义方面,标记应该是什么样的? 我应该把侧边栏放在一边,然后只在周围设置导航吗主导航,不包括打开/关闭触
考虑下面这行 Lisp 代码: (some-function 7 8 | 9) ;; some comment. note the extra indentation 该点位于“8”和
我是一名优秀的程序员,十分优秀!