gpt4 book ai didi

单词预测 - 获得最常见的前任和后继

转载 作者:行者123 更新时间:2023-12-04 06:31:38 24 4
gpt4 key购买 nike

给定一个词,我想获得该词在英语中最常见的前驱和后继列表。我开发了一个代码,可以对任何语料库进行二元分析(我使用过安然电子邮件语料库)并且可以预测最常见的下一个可能的词,但我想要一些其他的解决方案,因为a) 我想检查我预测的工作/准确性b) 基于语料库或数据集的解决方案因未见过的词而失败

例如,给定“excellent”这个词,我想得到最有可能出现在excellent之前和之后的词

我的问题是是否存在任何特定的服务或 API?

最佳答案

任何解决这个问题的方法都必然是基于语料库的方法;你只需要一个更大的语料库。我不知道有任何 Web 服务或库可以为您执行此操作,但有一些方法可以获得更大的语料库:

  • Google 有 published从网络的英语部分收集的大量 n-grams 语料库。这是available通过语言数据联盟 (LDC),但我相信您必须是 LDC 成员才能获得它。 (许多大学都是。)
  • 如果您不是 LDC 成员,请尝试下载 Wikipedia database dump (得到 enwiki)并训练你的预测器。
  • 如果您恰好在使用 Python,请查看随 NLTK 提供的一组不错的语料库(和工具) .

至于看不见的单词问题,有很多方法可以解决它,例如通过将所有出现频率低于某个阈值的单词替换为特殊标记,如 <unseen>训练前。这将使您的评估变得更加困难。

关于单词预测 - 获得最常见的前任和后继,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8769586/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com