gpt4 book ai didi

Python2 标记化并添加到字典

转载 作者:行者123 更新时间:2023-12-01 13:11:52 25 4
gpt4 key购买 nike

我有一些文本需要生成按空间分割的标记。
此外,我需要删除所有标点符号,因为我需要删除双大括号 [[...]] (包括双大括号)内的所有内容。

我将把每个 token 放在字典中作为具有值列表的键。

我试过正则表达式来删除这些双大括号模式,if-elses ...,但我找不到有效的解决方案。目前我有:

tokenDic = dict()
splittedWords = re.findall(r'\[\[\s*([^][]*?)]]', docs[doc], re.IGNORECASE)
tokenStr = splittedWords.split()

for token in tokenStr:
tokenDic[token].append(value);

我将不胜感激任何帮助 :)

谢谢

最佳答案

要删除 [[]] 中的所有内容,您可以使用 re.sub 并且您已经拥有正确的正则表达式,所以只需执行此操作。

 x = [[hello]]w&o%r*ld^$
y = re.sub("\[\[\s*([^][]*?)]]","",x)
z = re.sub("[^a-zA-Z\s]","",y)
print(z)

这打印“世界”

关于Python2 标记化并添加到字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59379798/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com