gpt4 book ai didi

python - Stanford NLP Tagger via NLTK - tag_sents 将所有内容拆分为字符

转载 作者:太空宇宙 更新时间:2023-11-04 00:36:43 24 4
gpt4 key购买 nike

我希望有人对此有经验,因为除了 2015 年关于 NERtagger 的错误报告外,我无法在网上找到任何评论,这可能是相同的。

无论如何,我正在尝试批处理文本以绕过性能不佳的基本标记器。据我了解,tag_sents 应该有所帮助。

from nltk.tag.stanford import StanfordPOSTagger
from nltk import word_tokenize
import nltk

stanford_model = 'stanford-postagger/models/english-bidirectional-distsim.tagger'
stanford_jar = 'stanford-postagger/stanford-postagger.jar'
tagger = StanfordPOSTagger(stanford_model, stanford_jar)
tagger.java_options = '-mx4096m'
text = "The quick brown fox jumps over the lazy dog."
print tagger.tag_sents(text)

除了无论我传递给 tag_sents 方法什么,文本都会被拆分成字符而不是单词。任何人都知道为什么它不能正常工作?这按预期工作......

tag(text)

我也尝试将句子拆分成标记,看看是否有帮助,但处理方式相同

最佳答案

tag_sents 函数接受一个字符串列表。

tagger.tag_sents(word_tokenize("The quick brown fox jumps over the lazy dog."))

这是一个有用的习语:

 tagger.tag_sents(word_tokenize(sent) for sent in sent_tokenize(text))

其中 text 是一个字符串。

关于python - Stanford NLP Tagger via NLTK - tag_sents 将所有内容拆分为字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43747451/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com