- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
以下代码根据子字符串的出现(我在这里说关键字)以及与其关联的文本从文件中提取行:
from itertools import count
def find_content_blocks_by_keywords(lines, keywords):
keyword_indexes = sorted([i for i, line in zip(count(), lines) for
keyword in keywords if re.search(keyword, line)])
return [lines[i:j] for i, j in zip([0]+keyword_indexes, keyword_indexes+[None])]
这是我的示例文本文件
keywords = ['Total item value', 'Total weight', 'Total volume']
lines = ['Total item value RSX 05,018.88\n',
'Total weight 90,969 EUR\n',
'Total volume -97.93 X3 Sca.\n',
'197.939 X3 Sca.']
要提取的子字符串及其值
result = find_content_blocks_by_keywords(lines, keywords):
示例结果:
[[],
['Total item value RSX 05,018.88\n'],
['Total weight 90,969 EUR\n'],
['Total volume -97.93 X3 Sca.\n', '197.939 X3 Sca.']]
我们可以直接使用 re.findall
或任何其他 re
方法来实现这一点吗?
由于我的文件中的内容不固定,因此无法使用某些正则表达式来提取它。逻辑是,找到关键字并获取其前面的所有内容,除非出现下一个关键字。
最佳答案
以下是我建议的修复方法:
from itertools import count
import re
keywords = ['Total item value', 'Total weight', 'Total volume']
lines = ['Total item value RSX 05,018.88\n',
'Total weight 90,969 EUR\n',
'Total volume -97.93 X3 Sca.\n',
'197.939 X3 Sca.']
pat = r'(?m)^(?:{0}).*(?:[\r\n]+(?!(?:{0})).*)*'.format("|".join([re.escape(x) for x in keywords]))
print(re.findall(pat, "\n".join(lines)))
Python demo 的输出:
['Total item value RSX 05,018.88\n', 'Total weight 90,969 EUR\n', 'Total volume -97.93 X3 Sca.\n\n197.939 X3 Sca.']
模式描述
(?m)
- re.MULTILINE
修饰符使 ^
匹配行首^
- 行的开头(?:{0})
- a non-capturing group它将包含 |
alternation operator 列出的替代品(例如商品总值(value)|总重量|总体积
).*
- 除 LF(该行的其余部分)之外的任何 0+ 个字符(?:[\r\n]+(?!(?:{0})).*)*
- 0 次或多次重复:
[\r\n]+(?!(?:{0}))
- 1 个或多个 LF 或/和 CR 符号 ([\r\n]+
) 后面没有任何关键字
项.*
- 该行的其余部分关于python - 根据子串索引查找内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50559811/
我正在尝试创建一个程序,其中字符串的前三个字符重复给定次数,如下所示: foo('Chocolate', 3) # => 'ChoChoCho' foo('Abc', 3) # => 'AbcAbcA
我有以下字符串: std::string str = "Mode:AAA:val:101:id:A1"; 我想分离一个位于 "val:" 和 ":id" 之间的子字符串,这是我的方法: std::st
DNA 字符串可以是任意长度,包含 5 个字母(A、T、G、C、N)的任意组合。 压缩包含 5 个字母(A、T、G、C、N)的 DNA 字母串的有效方法是什么?不是考虑每个字母表 3 位,我们可以使用
是否有一种使用 levenstein 距离将一个特定字符串与第二个较长字符串中的任何区域进行匹配的好方法? 例子: str1='aaaaa' str2='bbbbbbaabaabbbb' if str
使用 OAuth 并使用以下函数使用我们称为“foo”(实际上是 OAuth token )的字符串加密 key public function encrypt( $text ) { // a
我是一名优秀的程序员,十分优秀!