gpt4 book ai didi

python - 更新文本中的标记词

转载 作者:太空宇宙 更新时间:2023-11-03 18:04:11 25 4
gpt4 key购买 nike

我有一个标记文本。标记文本包含一些不正确的标记词。所以我为原始标记器无法标记的单词制作了一个基于规则的标记器。我想在标记文本中仅用正确的标记词替换错误的标记词。标记文本的格式为

il/P ragazzo/V vuole/V andare/V a/P scuola/V`

正确标签的格式是:

[(u'porta', 'NN'), (u'scuola', 'NN'), (u'ragazzo', 'NN')]

输出将是`

il/P ragazzo/NN vuole/V andare/V a/P scuola/NN`

我尝试创建两个字典:一个用于标记文本,另一个用于正确的标记,然后在键相同后替换值,但字典不尊重文本的原始顺序,而是给我输出无序。有人可以知道如何替换原文中不正确的标记词吗?谢谢

最佳答案

您可以使用标签字典,然后在循环中将输入转换为输出,并保留顺序:

input = 'hil/P ragazzo/V vuole/V andare/V a/P scuola/V'
rules = [(u'porta', 'NN'), (u'scuola', 'NN'), (u'ragazzo', 'NN')]

rules_dict = {rule[0]: rule[1] for rule in rules}

parts = []
for token in input.split():
word, type = token.split('/')
if word in rules_dict:
parts.append(word + '/' + rules_dict[word])
else:
parts.append(token)

output = ' '.join(parts)
print(output)

关于python - 更新文本中的标记词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27179881/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com