作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的文件中包含用不同语言书写的文字。我想使用 python 编程语言解析它们,以便在所有文件中具有相同的结构。当前文件包含类似
的行1. word1
24. word2
- word3
word4
** word5
目标是让它们全部写成
** word
我已经从一个文件 fr 读取了一些代码,并写入了新文件 fw,如下所示
for line in fr:
match = re.search(r'^\*\* .*', line)
if match:
fw.write(line)
我有两个问题。
第一个问题。如何编写正则表达式,以便它将搜索不从字母字符开始的行并删除字母字符之前的所有内容?
我已经尝试过这样的
fw.write(re.sub(r'(^([^a-zA-Z].*)([a-zA-Z])*.*)', "** \1", line))
但它不起作用。
第二个问题。如何验证字符串是否以字母字符开头。我已经尝试过了
print line[0].isalpha()
它返回?。我需要先获得 unicode 吗?
谢谢。
最佳答案
字母的 unicode 属性为:\pL
。将其替换为 [a-zA-Z]
将其用作:
^\PL*(\pL+)
这意味着第 1 组中捕获的 0 个或多个非字母后跟 1 个或多个字母。
关于python - 如何在python中解析带有国际单词的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9570172/
我是一名优秀的程序员,十分优秀!