gpt4 book ai didi

.net - 如何确定文档的(自然)语言?

转载 作者:行者123 更新时间:2023-12-03 11:53:59 27 4
gpt4 key购买 nike

我有一套使用两种语言的文档:英语和德语。关于这些文档没有可用的元信息,程序只能查看其内容。基于此,程序必须决定用哪种语言编写文档。

是否有可以在几个小时内实现的针对该问题的“标准”算法?或者,一个免费的.NET库或工具包可以做到这一点?我知道LingPipe,但是

  • Java
  • 对于“半商业”用法不是免费的

  • 这个问题似乎很难解决。我 checkout 了 Google AJAX Language API(我是通过首先搜索该站点发现的),但是这太荒谬了。对于我指向的六个德语网页,只有一个猜测是正确的。其他猜测是瑞典文,英文,丹麦文和法文...

    我想到的一种简单方法是使用停用词列表。我的应用程序已经在德国文档中使用了这样的列表,以便通过Lucene.Net对其进行分析。如果我的应用程序从任何一种语言扫描文档中是否出现停用词,则赢得次数最多的停用词会获胜。可以肯定,这是一种非常幼稚的方法,但这可能已经足够了。不幸的是,尽管这是一个有趣的话题,但我没有时间成为自然语言处理方面的专家。

    最佳答案

    尝试测量文本中每个字母的出现情况。对于英语和德语文本,将计算频率以及它们的分布。获得这些数据后,您可能会推断出文本频率分布属于哪种语言。

    您应该使用贝叶斯推理来确定最接近的语言(具有一定的错误概率),或者可能还有其他统计方法可用于此类任务。

    关于.net - 如何确定文档的(自然)语言?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1383503/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com