gpt4 book ai didi

python - 我的 pos_tag 遍历每个字母,我需要它应用于整个单词

转载 作者:行者123 更新时间:2023-12-01 08:03:54 29 4
gpt4 key购买 nike

我正在为任何将创建的输入文本创建一个Python模板 每个单词的 XML 条目及其所属的 POS(词性)。

我使用 nltk 中的 pos_tag,但是当我获取单词并尝试对其进行标记时,它会标记每个字母而不是整个单词。

for word in textList:
if word in typeList:
tokenRest += 1
else:

wordXML = '<word number="' + str(corpusList) + '">'
wordformXML = "<wordform>" + word + "</wordform>"
posTag = "<POS>" + str(pos_tag(word)) + "</POS>"
fullWordXML = wordXML + "\r\n" + wordformXML + "\r\n" + posTag + "\r\n"
resultList.append(fullWordXML)
typeList.append(word)
corpusList += 1


print (resultList)

posTag = "<POS>" + str(pos_tag(word)) + "</POS>"我期望包含该单词的 pos_tag 输出包含该单词及其 POS 标签的字典。我得到的是一本字典,其中包含单词的每个字母以及每个字母的 POS 标签。像这样:

词形“看似”的输出类似于 <POS>[(\'s\', \'NN\'), (\'e\', \'NN\'), (\'e\', \'IN\'), (\'m\', \'NN\'), (\'i\', \'NN\'), (\'n\', \'VBP\'), (\'g\', \'NN\')]</POS> ,其输出应如下所示:

<POS>[(\'seeming\', \'NN\')]<POS>

有没有办法确保 pos_tag 适用于整个单词,或者我应该使用其他东西?

PS:我正在努力从字典中提取标签作为字符串,所以最终的代码不会像这样。目前,我只需要有关此问题的帮助。

最佳答案

nltk.tag.pos_tag 需要一个标记列表。如果您向它提供一个字符串,它会使用该字符串作为列表,并将每个字符解释为一个标记,并尝试为每个字符分配一个 POS。使用变量“word”,您可以执行 pos_tag([word]) 来对单个单词进行操作。

请参阅NLTK documentation on pos_tag了解更多信息。

关于python - 我的 pos_tag 遍历每个字母,我需要它应用于整个单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55618875/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com