gpt4 book ai didi

r - 如何在我自己的 R 语料库上训练 word2vec 模型?

转载 作者:行者123 更新时间:2023-12-05 05:11:04 26 4
gpt4 key购买 nike

我想使用 R 中的 rword2vec 包在我自己的语料库上训练 word2vec 模型。

用于训练模型的 word2vec 函数需要一个 train_file。 R 中包的文档只是指出这是训练文本数据,但没有具体说明如何创建它。

GitHub上例子中使用的训练数据可以在这里下载: http://mattmahoney.net/dc/text8.zip .我不知道它是什么类型的文件。

我已经查看了 rword2vec GitHub page 上的 README 文件并查看了 Google Code 上的官方 word2vec 页面.

我的语料库是一个包含大约 68,000 个文档的 .csv 文件。文件大小约为 300MB。我意识到在这种规模的语料库上训练模型可能需要很长时间(或者不可行),但我愿意在语料库的一个子集上训练它。我只是不知道如何创建函数所需的 train_file

最佳答案

解压 text8 后,您可以使用文本编辑器打开它。您会看到这是一份很长的文件。您将需要决定要将 68,000 份文档中的多少份用于培训,以及是否要将它们连接在一起或将它们作为单独的文档保存。参见 https://datascience.stackexchange.com/questions/11077/using-several-documents-with-word2vec

关于r - 如何在我自己的 R 语料库上训练 word2vec 模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55929977/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com