gpt4 book ai didi

internationalization - 自然语言语法和用户输入的名称

转载 作者:行者123 更新时间:2023-12-04 08:20:23 26 4
gpt4 key购买 nike

一些语言,尤其是斯拉夫语言,会根据语法上下文改变人名的结尾。 (对于那些了解语法或学习过对单词(例如德语或俄语)执行此操作并帮助搜索关键字的语言的人,我说的是名词变格。)

这可能是一组示例最简单的(在波兰语中,以保存整个不同字母的问题):

  • 多萝西看到了猫 — Dorota zobaczyła kota
  • 猫看到了多萝西 — Kot zobaczył Dorotę
  • 这是多萝西的猫——开玩笑的多萝蒂
  • 我把猫给了 Dorothy — Dałam kota Dorotie
  • 我和 Dorothy 一起散步 — Poszłam na spacer z Dorotą
  • “你好,多萝西!” ——“维塔姆,多罗托!”

  • 现在,如果在这些示例中,这里的名称是由用户输入的,那么就会引入一个语法噩梦的世界。重要的是,如果我选择 Katie (Kasia), examples are not directly comparable — 3 和 4 都是 Kasi,而不是 *Kasy 和 *Kasie — 男性名字将是 wholly different again .

    我猜以前有人处理过这种情况,但我的 Google-fu 今天似乎很弱。我可以找到很多关于自然语言处理的链接,但我认为这正是我想要的。需要明确的是:每个用户我只会有一个用户输入的名称,并且我需要将它们拒绝为已知配置 - 我将有一个本地化文本,其中将包含类似于 {name nominative} 的占位符和 {name dative} ,为了论证。我真的不想对文本进行词法分析来解决问题,我只需要拒绝一个用户输入的名称。

    任何人都对如何做到这一点有任何建议,或者我需要开始调用本地化机构;o)

    感兴趣的进一步阅读(全部在维基百科上):
  • Declension
  • Grammatical case
  • Declension in Polish
  • Declension in Russian
  • 捷克语的变格 nounspronouns

  • 免责声明:我知道这发生在许多其他语言中;突出显示斯拉夫语言仅仅是因为我有一个项目将本地化为一些斯拉夫语言。

    最佳答案

    在我看来,您想要一个用于抛光的形态引擎。简而言之,他们可以分析和生成从表面形式(我们读和写的)到某种抽象形式,例如“Dorothy + FEM + DAT”,同时考虑到变格和音系。

    看看这里(我不是波兰语,但它看起来不错,最重要的是它有下载:))
    http://nlp.ipipan.waw.pl/~wolinski/morfeusz/

    Here是关于这个主题的一些介绍。

    关于internationalization - 自然语言语法和用户输入的名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2867895/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com