gpt4 book ai didi

python - WordNetLemmatizer : Different handling of wn. ADJ 和 wn.ADJ_SAT?

转载 作者:行者123 更新时间:2023-12-03 17:04:00 26 4
gpt4 key购买 nike

我需要使用 nltk 对文本进行词形还原。为了做到这一点,我申请 nltk.pos_tag到每个句子,然后将生成的 Penn Treebank 标签 (http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) 转换为 WordNet 标签。我需要这样做,因为 WordNetLemmatizer.lemmatize()期望单词及其正确的 pos_tag 作为参数,否则它只会假设一切都是动词。

我刚刚发现 WordNet 中定义了五个不同的标签:

  • wn.VERB
  • wn.ADV
  • wn.NOUN
  • wn.ADJ
  • wn.ADJ_SAT

  • 然而, 我在互联网上找到的每个例子都忽略了 wn.ADJ_SAT 将 Treebank 标签转换为 WordNet 标签时。它们都只是将 Penn 标签映射到 WordNet 标签,如下所示:
  • 如果 Penn 标签以 J 开头:转换为 wn.ADJ
  • 如果 Penn 标签以 V 开头:转换为 wn.VERB
  • 如果 Penn 标签以 N 开头:转换为 wn.NOUN
  • 如果 Penn 标签以 R 开头:转换为 wn.ADV

  • 所以 wn.ADJ_SAT 从来没有被使用过。

    我的问题 现在是如果在某些情况下词形还原器为 ADJ_SAT 返回与 ADJ 不同的结果。什么是卫星形容词 (ADJ_SAT) 和非正常形容词 (ADJ) 的单词示例?

    最佳答案

    WordNetLemmatizerNLTK不区分卫星形容词和普通形容词。
    nltk.stem.WordNetLemmatizer.lemmatize是使用 "WordNet’s built-in morphy function. Returns the input word unchanged if it cannot be found in WordNet."

    在 WordNet 中,卫星形容词——更广泛地称为卫星同义词集——更像是 WordNet 其他地方使用的语义标签,而不是 nltk 中的特殊词性。

    来自wordnet glossary :

    Satellite Synset: Synset in an adjective cluster representing a concept that is similar in meaning to the concept represented by its head synset .



    用户 tripleee积分 out in this question下列:

    adjectives are subcategorized into 'head' and 'satellite' synsets within an adjective clutser



    另外, the nltk documentationnltk.stem.WordNetLemmatizer.lemmatize假定默认词性是名词而不是动词,除非另有说明。

    关于python - WordNetLemmatizer : Different handling of wn. ADJ 和 wn.ADJ_SAT?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51634328/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com