gpt4 book ai didi

language-agnostic - 具有语言检测功能的多语言拼写检查

转载 作者:行者123 更新时间:2023-12-04 12:56:10 25 4
gpt4 key购买 nike

我正在对混合语言网页进行拼写检查,但找不到关于该主题的任何现有研究。

目的是在混合语言网页中自动检测句子级别的语言,并根据相应的语言自动进行拼写检查。假设我们可以忽略将多种语言混合在一起的句子(例如“他有某个 je ne sais quoi”),并假设网页不能包含超过 2 或 3 种语言。

小例子(威尔士语 + 英语):http://wales.gov.uk/

我目前正在使用以下组合:

  • 字符分布(例如 0600-06FF = 阿拉伯语等)
  • n-Grams 识别具有相似字符的语言
  • 字典查找以识别语言环境,即 en-US、en-GB

  • 我有可用的代码,但我担心它可能很幼稚或不必要地重新发明轮子。有没有其他人做过这个?

    最佳答案

    您可以使用 API(Google 和 Yandex)进行拼写检查和语言检测 - 但我认为这个选项的可扩展性不是很强。

    另一个选择是使用免费的 lucene 工具进行拼写检查 http://wiki.apache.org/lucene-java/SpellChecker ,但你必须先索引一些语料库 - 维基百科是不错的选择。
    LD可以通过http://textcat.sourceforge.net/归档

    关于language-agnostic - 具有语言检测功能的多语言拼写检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5873601/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com