gpt4 book ai didi

java - 用无监督的网络抓取文本来训练 word2vec 是个好主意吗?

转载 作者:行者123 更新时间:2023-11-30 06:10:57 24 4
gpt4 key购买 nike

我想知道,一般来说,使用从 Web 自动抓取的文本来训练 word2vec 是否是个好主意。在您可以在 Web 上找到的示例中,该算法始终使用高质量的文本进行训练(正确的句子、正确的标点符号、没有生僻词等)。

但是,当自动抓取网页时,原始文本的质量不会那么高。另一方面,训练文本的编译可以自动完成,我们不需要花时间在这上面。

最佳答案

为了补充其他答案,我想说这实际上取决于您在创建词 vector (word2Vec 的输出)后要对其执行的操作:如果您打算使用它们对质量差的文本(比如论坛内容或推文,其中包含口头语言、缩写、不正确的短语...)进行一些自然语言处理(聚类、情感分析...)可能是相关的。另一方面,如果您的模型稍后将用于处理高质量的文本,这可能不是一个好主意。

随着(好的)文本数量的增加,Word2Vec 算法往往会产生更好的准确性。我目前的方法是使用维基百科的转储,并用通过抓取检索到的内容来补充它。

作为获得更高质量文本的第一种方法,我的爬虫使用优质网站白名单(新闻网站、政府和行政部门、大学等),因此只会从该网站检索内容。

我仍然保留一些不好的文字,至少可以表达一些口头语言、对话、俚语……根据用途,它可能会很有用。

希望对您有所帮助。

关于java - 用无监督的网络抓取文本来训练 word2vec 是个好主意吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34941658/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com