gpt4 book ai didi

nlp - (人类)文档的语言

转载 作者:行者123 更新时间:2023-12-03 04:26:32 27 4
gpt4 key购买 nike

有没有一种方法(程序、库)可以大致了解文档是用哪种语言编写的?

我有一堆混合语言的文本文档(~500K),需要导入支持 i18n 的 CMS (Drupal)..

我不需要完美的匹配,只需要一些猜测。

最佳答案

考虑到您拥有需要识别的所有不同语言的语料库数据,有一种非常简单的方法可以做到这一点。这称为 n 元模型。我认为Lingua::Identify不过,这已经做到了,所以这是你最好的选择,而不是实现你自己的。

关于nlp - (人类)文档的语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/257125/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com