gpt4 book ai didi

Python 在文本中查找单词标记的偏移量

转载 作者:行者123 更新时间:2023-12-05 06:02:30 27 4
gpt4 key购买 nike

我编写了这个函数 findTokenOffset 来查找给定单词在预标记文本中的偏移量(作为间隔单词列表或根据特定标记器)。

导入re, json

def word_regex_ascii(word):
return r"\b{}\b".format(re.escape(word))

def findTokenOffset(text,tokens):
seen = {} # map if a token has been see already!
items=[] # word tokens
my_regex = word_regex_ascii
# for each token word
for index_word,word in enumerate(tokens):

r = re.compile(my_regex(word), flags=re.I | re.X | re.UNICODE)

item = {}
# for each matched token in sentence
for m in r.finditer(text):

token=m.group()
characterOffsetBegin=m.start()
characterOffsetEnd=characterOffsetBegin+len(m.group()) - 1 # LP: star from 0

found=-1
if word in seen:
found=seen[word]

if characterOffsetBegin > found:
# store last word has been seen
seen[word] = characterOffsetEnd
item['index']=index_word+1 #// word index starts from 1
item['word']=token
item['characterOffsetBegin'] = characterOffsetBegin
item['characterOffsetEnd'] = characterOffsetEnd
items.append(item)

break
return items

当标记是单个单词时,这段代码可以正常工作

text = "George Washington came to Washington"
tokens = text.split()
offsets = findTokenOffset(text,tokens)
print(json.dumps(offsets, indent=2))

但是,应该有像这里这样的多代币方式的代币:

text = "George Washington came to Washington"
tokens = ["George Washington", "Washington"]
offsets = findTokenOffset(text,tokens)
print(json.dumps(offsets, indent=2))

由于在不同标记中重复单词,偏移量无法正常工作:

[
{
"index": 1,
"word": "George Washington",
"characterOffsetBegin": 0,
"characterOffsetEnd": 16
},
{
"index": 2,
"word": "Washington",
"characterOffsetBegin": 7,
"characterOffsetEnd": 16
}
]

如何添加对多 token 重叠 token 正则表达式匹配 的支持(感谢评论中对这个确切问题名称的建议)?

最佳答案

如果不需要结果输出中的搜索短语/词索引信息,可以使用以下方法:

import re,json

def findTokenOffset(text, pattern):
items = []
for m in pattern.finditer(text):
item = {}
item['word']=m.group()
item['characterOffsetBegin'] = m.start()
item['characterOffsetEnd'] = m.end()
items.append(item)
return items

text = "George Washington came to Washington Washington.com"
tokens = ["George Washington", "Washington"]
pattern = re.compile(fr'(?<!\w)(?:{"|".join(sorted(map(re.escape, tokens), key=len, reverse=True))})(?!\w)(?!\.\b)', re.I )
offsets = findTokenOffset(text,pattern)
print(json.dumps(offsets, indent=2))

Python demo 的输出:

[
{
"word": "George Washington",
"characterOffsetBegin": 0,
"characterOffsetEnd": 17
},
{
"word": "Washington",
"characterOffsetBegin": 26,
"characterOffsetEnd": 36
}
]

主要部分是pattern = re.compile(fr'(?<!\w)(?:{"|".join(sorted(map(re.escape, tokens), key=len, reverse=True))})\b(?!\.\b)', re.I )执行以下操作:

  • map(re.escape, tokens) - 转义内部的特殊字符 tokens字符串
  • sorted(..., key=len, reverse=True) - 对转义的项目进行排序 tokens按长度降序排列(以便 Washigton Post 可以早于 Washington 匹配)
  • "|".join(...) - 创建了一个替换列表 tokens , token1|token2|etc
  • (?<!\w)(?:...)(?!\w)(?!\.\b) - 是匹配 tokens 中所有选项的最终模式作为整个单词。 (?<!\w)(?!\w)用于启用字边界检测,即使 tokens以特殊字符开始/结束。

关于单词边界的注意事项

您应该检查您的 token 边界要求。我添加了 (?!\.\b)正如你提到的那样 Washington不应该匹配 Washington.com , 所以我推断当它紧跟 . 时想要使任何单词匹配失败和一个单词边界。还有很多其他可能的解决方案,主要的解决方案是空白边界(?<!\S)(?!\S) .

此外,参见Match a whole word in a string using dynamic regex .

关于Python 在文本中查找单词标记的偏移量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66907643/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com