gpt4 book ai didi

nlp - 词干提取器与词形还原器

转载 作者:行者123 更新时间:2023-12-03 05:24:18 27 4
gpt4 key购买 nike

自然语言处理(NLP),尤其是英语,已经发展到如果存在“完美”词形还原器,词干提取将成为一项过时技术的阶段。这是因为词干分析器将单词/标记的表面形式更改为一些无意义的词干。

然而,“完美”词形还原器的定义仍然存在疑问,因为不同的 NLP 任务需要不同级别的词形还原。例如。 Convert words between verb/noun/adjective forms

词干提取器

[in]: having
[out]: hav

词形还原器

[in]: having
[out]: have
  • 所以问题是,英语词干分析器现在还有用吗?因为我们有大量的英语词形还原工具

  • 如果不是,那么我们应该如何继续构建强大的词形还原器可以采用 nounifyverbifyadjectifyadverbify预处理?

  • 如何将词形还原任务轻松扩展到其他语言与英语有相似的形态结构?

最佳答案

问题 1:“[..] 英语词干分析器现在有用吗?因为我们有大量的英语词形还原工具”

是的。 词干提取器比词形还原器更简单、更小,并且通常更快,并且对于许多应用来说,它们的结果足够好。为此使用词形还原器是一种资源浪费。例如,考虑信息检索中的降维。您可以在搜索文档和查询中将所有drive/driven替换为drive。您不关心它是drivedrive还是x17a$,只要它将词形变化相关的单词聚集在一起即可。

问题 2:“[..]我们应该如何继续构建强大的词形还原器来进行名词化、动词化、形容词化和副词化预处理?

您对引理的定义是什么,它是否包含派生(drive - driver)或仅包含变形(drive - 驱动 - 驱动)?它考虑到语义了吗?

如果您想包含派生(大多数人会说包括动词名词等),请记住,派生比词形变化更加不规则。有很多特质、差距等。您是否真的希望改变(改变火车)和改变(作为硬币)拥有相同的引理?如果不是,你在哪里划定界限? 神经 - 放松地球 - 发掘 - 地球,.. .这实际上取决于应用程序。

如果考虑语义(bank将被标记为bank-moneybank-river取决于上下文),你要深入到什么程度(你能区分银行机构银行大楼)吗?有些应用程序可能根本不关心这一点,有些应用程序可能想要区分基本语义,有些应用程序可能希望它是细粒度的。

问题3:“词形还原任务如何轻松扩展到与英语具有相似形态结构的其他语言?”

“与英语相似的形态结构”是什么意思?英语几乎没有屈折形态。对于其他形态类型的语言(真正的屈折、粘着、模板等),有很好的词形还原器。

除了粘着语言可能存在的异常(exception)情况外,我认为查找表(例如压缩特里树)是最好的解决方案。 (可能有一些针对未知单词的备份规则,例如专有名称)。查找之后是某种消歧(范围从琐碎的 - 取第一个,或取第一个与单词 POS 标签一致的,到更复杂的)。更复杂的消歧通常是有监督的随机算法(例如 TreeTaggerFaster ),尽管也已经完成了机器学习和手动创建规则的组合(参见例如 this )。

显然,对于大多数语言,您不希望通过以下方式创建查找表手,而是从形态的描述中生成它那种语言。对于屈折语言,你可以去工程捷克语的 Hajic 或俄语的 Mikheev 的方式,或者,如果你够大胆的话,您使用两级形态学。或者你可以在两者之间做一些事情,如Hana (我自己)(注意这些都是满的包括词形还原作为其功能之一的形态分析器)。或者你可以学习以无监督的方式进行词形还原 Yarowsky andWicentowski ,可能通过手动后处理,纠正最常用的词。

有太多选择,这实际上完全取决于您想要对结果做什么。

关于nlp - 词干提取器与词形还原器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17317418/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com