gpt4 book ai didi

python - 如何从 Unicode 文件中删除字母数字单词

转载 作者:太空宇宙 更新时间:2023-11-03 16:25:14 26 4
gpt4 key购买 nike

我需要使用字典数据库,但其中大部分是一些字母数字无用的东西,有趣的字段要么是非字母数字(例如汉字),要么在一些括号内。我搜索了很多,了解了很多工具,如 sed、awk、grep 等,我什至想过创建一个 Python 脚本来解决这个问题,但我从未找到解决方案。

数据库的一行如下所示:

助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367 DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4 Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist} 

我需要它是这样的:

助 ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist} 

我可以使用上述任何工具来完成此操作吗?

最佳答案

如果您仍然需要,这里有一个 Python 解决方案:

import re
alpha_brack = re.compile(r"([a-zA-Z0-9.\-]+)|({.*?})")

my_string = """
助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367
DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4
Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}"""

match = alpha_brack.findall(my_string)

new_string = my_string

for g0, _ in match: # only care about first group!
new_string = new_string.replace(g0,'',1) # replace only first occurence!

final = re.sub(r'\s{2,}',' ', new_string) # finally, clean up whitespace

print(final)

我的结果:

'助ジョ たすける たすかる すける すけ {帮助} {救援} {协助}'

关于python - 如何从 Unicode 文件中删除字母数字单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38047460/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com