gpt4 book ai didi

r - 在 R 中使用 text2vec 预测下一个单词

转载 作者:行者123 更新时间:2023-12-04 22:57:54 25 4
gpt4 key购买 nike

我正在 R 中构建一个语言模型,以根据前一个单词预测句子中的下一个单词。目前我的模型是一个带有 Kneser-Ney 平滑的简单 ngram 模型。它通过在训练集中找到具有最大概率(频率)的 ngram 来预测下一个单词,其中平滑提供了一种插入低阶 ngram 的方法,这在高阶 ngram 频率低且可能无法提供可靠预测的情况下是有利的.虽然这种方法工作得相当好,但它在 n-gram 无法捕获上下文的情况下失败。例如,“外面温暖晴朗,我们去……”和“外面又冷又下雨,我们去……”将建议相同的预测,因为没有捕获天气的上下文在最后一个 n-gram 中(假设 n<5)。

我正在研究更高级的方法,我发现 text2vec包,它允许将单词映射到向量空间,其中具有相似含义的单词用相似(接近)向量表示。我有一种感觉,这种表示可以帮助预测下一个词,但我无法弄清楚如何准确定义训练任务。我的问题是 text2vec 是否是用于下一个单词预测的正确工具,如果是,可用于此任务的合适的预测算法是什么?

最佳答案

你可以试试char-rnnword-rnn (谷歌一点点)。
对于字符级模型 R/mxnet 实现,请查看 mxnet examples .可能可以使用 text2vec GloVe 嵌入将此代码扩展到词级模型。

如果您有任何成功,请告诉我们(我的意思是 text2vec 或/和 mxnet 开发人员)。我将成为 R 社区非常有趣的案例。我想执行这样的模型/实验,但仍然没有时间。

关于r - 在 R 中使用 text2vec 预测下一个单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36780491/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com