gpt4 book ai didi

python - 检测外来词

转载 作者:行者123 更新时间:2023-11-28 16:35:21 24 4
gpt4 key购买 nike

我正在编写一个脚本来检测语言 A 中语言 B 中的单词。这两种语言非常相似,并且可能有相同单词的实例。

如果你对我到目前为止的内容感兴趣,代码就在这里: https://github.com/arashsa/language-detection.git

我会在这里解释我的方法:我创建了一个 B 语言的双字母列表,一个 A 语言的双字母列表(B 语言的小语料库,A 语言的大语料库)。然后我删除所有常见的二元组。然后我浏览语言 A 中的文本,并使用二元语法检测语言 A 中的这些文本并将它们存储在一个文件中。然而,这种方法发现了很多两种语言共有的词,也发现了奇怪的二元组,比如相邻的两个国家的名字,以及其他异常现象。

你们有什么建议、阅读 Material 、我可能会使用的 NLP 方法吗?

最佳答案

如果您的方法返回两种语言中存在的单词,而您只想返回一种语言中存在的单词,您可能想要创建一个列表,其中包含语言 A 和一种语言中的 one-grams -grams in language B,然后删除两者中的单词。然后,如果您愿意,可以继续进行二元分析。

也就是说,Python 中有一些很好的语言识别工具。我发现 lang-id 是最好的之一。它使用 90 多种语言的语言分类器进行了预训练,如果您愿意,也可以很容易地训练其他语言。这是 docs .还有guess-language ,但根据我的估计,它的表现并不好。根据外语的本地化程度,您可以尝试以适当的粒度级别对文本进行分块,并通过(例如)langid 的分类器运行这些分块。

关于python - 检测外来词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27191457/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com