gpt4 book ai didi

python - 我是否缺少 spaCy 词形还原中的预处理功能?

转载 作者:行者123 更新时间:2023-12-04 08:48:34 26 4
gpt4 key购买 nike

我正在尝试使用 spacy 为文档中的所有标记获取引理(即 token.lemma_)。
代码:

sentence = 'I'm looking for all of the lemmas. Please help me find them!'
nlp = spacy.load('en', disable=['parser', 'NER])
doc = nlp(sentence)
tokens = [tokens.lemma_ for token in doc]
预期结果:
['look', 'lemma', 'help', 'find']
实际结果:
[-PRON-, 'be', 'look', 'all', 'of', 'the', 'lemma', '.', 'please', 'help', '-PRON-', 'find', '-PRON', '!']
我是否缺少 spacy 中的某种预处理功能,还是必须单独进行预处理?我希望在词形还原之前删除所有标点符号和停用词。

最佳答案

您可以使用

>>> [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
['look', 'lemma', 'help', 'find']
添加了以下部分:
  • if not token.is_stop - 如果 token 是停用词
  • and - 和
  • not token.is_punct - 如果标记是标点符号,则省略它们。
  • 关于python - 我是否缺少 spaCy 词形还原中的预处理功能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64185831/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com