gpt4 book ai didi

java - 有没有可以用JAVA运行的城市词典或者俚语词典?

转载 作者:行者123 更新时间:2023-12-01 18:02:31 25 4
gpt4 key购买 nike

我正在创建一个噪声消除程序,主要检测- 拼写错误的单词-缩写-非标准字符以及不规范的词语。

我在前三个方面取得了进展,但对于最后一个,是否有任何好的库可以检测俚语或非标准单词。例如,它可以检测像 gr8 这样的单词,而不是“great”,以及“gudnight”来表示晚安。

最佳答案

我不知道有任何公开可用的库或已构建的语料库。您可以尝试从urbandictionary.com 上抓取它。我的建议是:

  1. 使用 Twitter API 并使用 lang=English 收集数千条消息

  2. 对单词进行标记。

  3. 消除那些非 ASCII 字符 - 表情符号、不同语言的单词等将会下降

  4. 应用您已有的 gr8、l8 等翻译规则。

  5. 访问project gutenberg并拿一些英语经典著作。对它们进行标记并构建 propah 英语单词的同义词库 (:))

  6. 从 Twitter 上收集的语料库中减去同义词库

  7. 开始检查剩余的列表 - 我保证您会发现许多其他规则可以添加到第 4 点。返回第 4 点并重复循环几次。

之后剩下的内容将俚语足够密集,使手动选择术语变得更加容易。
对于相当大的俚语语料库,整个过程将需要大约 1 周到 10 天的时间- (可选)与urbandictionary.com 进行交叉检查。

上次对我来说是一次有趣的经历。 (你知道吗,“我恨你”的推文数量大约是“我爱你”的 6 倍?也许这说明了推特用户的精神,我不知道)。

关于java - 有没有可以用JAVA运行的城市词典或者俚语词典?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39700994/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com