- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道,一般来说,使用从 Web 自动抓取的文本来训练 word2vec 是否是个好主意。在您可以在 Web 上找到的示例中,该算法始终使用高质量的文本进行训练(正确的句子、正确的标点符号、没有生僻词等)。
但是,当自动抓取网页时,原始文本的质量不会那么高。另一方面,训练文本的编译可以自动完成,我们不需要花时间在这上面。
最佳答案
为了补充其他答案,我想说这实际上取决于您在创建词 vector (word2Vec 的输出)后要对其执行的操作:如果您打算使用它们对质量差的文本(比如论坛内容或推文,其中包含口头语言、缩写、不正确的短语...)进行一些自然语言处理(聚类、情感分析...)可能是相关的。另一方面,如果您的模型稍后将用于处理高质量的文本,这可能不是一个好主意。
随着(好的)文本数量的增加,Word2Vec 算法往往会产生更好的准确性。我目前的方法是使用维基百科的转储,并用通过抓取检索到的内容来补充它。
作为获得更高质量文本的第一种方法,我的爬虫使用优质网站白名单(新闻网站、政府和行政部门、大学等),因此只会从该网站检索内容。
我仍然保留一些不好的文字,至少可以表达一些口头语言、对话、俚语……根据用途,它可能会很有用。
希望对您有所帮助。
关于java - 用无监督的网络抓取文本来训练 word2vec 是个好主意吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34941658/
我想做的是改变我的主管,尽最大努力让 children 运行,但如果他们的崩溃率超过强度,就放弃。这样剩下的 child 就可以继续跑。不过,这对于现有的主管配置来说似乎是不可能的,所以看起来我唯一的
我正在处理一个大型推文数据集,我从中将一小部分数据训练为四个手动分类的类别。每个手动分类大约有二十条推文,而数据集有数万条推文。这是我用来训练模型的代码。 from sklearn.feature_e
我的 celerybeat.conf [program:celerybeat] command=/path/app/env/bin/celery beat -A project.tasks --log
正如 ZooKeeper 的文档中所说,有必要使用 daemontools 之类的工具对其进行监督。但是文档没有提供任何示例,我知道启动 ZooKeeper 的唯一方法是运行 bin/zkServer
谁能给我解释一下这个例子中的 uibutton 目标功能: 我有一个 ViewController。我向这个 View Controller 添加了一个带有两个按钮的 uiview。一个按钮是在 in
我最近熟悉了 Erlang/OTP 技术,我想将其应用于监控和监督 Java 应用程序: 检测他们的可用性 启动和停止它们 换句话说,我希望 Java 应用程序被 Erlang OTP 主管基础架构视
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: What are MVP and MVC and what is the difference? 我在网站上
我是一名优秀的程序员,十分优秀!