python - 使用正则表达式剪切以特定字符开头的字符串？-6ren

python - 使用正则表达式剪切以特定字符开头的字符串？

转载作者：行者123 更新时间：2023-11-28 23:01:20

24

4

我正在处理一个平面文件，数据是逐行格式的，如下所示

... blah blah blah | sku: 01234567 | price: 150 | ... blah blah blah

我要提取sku字段，它是长度为8个字符的数字。但是，我不确定是否应该使用split或regex，我不太擅长在python中使用regex。

最佳答案

假设您的sku值总是8个字符长，并且前面总是有'sku'，可能还有一些'：'（中间有或没有空格），那么我将使用regex：r'sku[\s:]*(\d{8})'：

>>> import re
>>> string = '... | sku: 01234567 | price: 150 | ... '
>>> re.findall(r'sku[\s:]*(\d{8})', string)[0]
'01234533'

如果 sku值的长度可能是可变的，请使用： r'sku[\s:]*(\d*)'：

>>> import re
>>> string = '... | sku: 01234 | price: 150 | sku: 99872453 | blah blah ... '
>>> re.findall(r'sku[\s:]*(\d*)', string)[0]
'01234'
>>> re.findall(r'sku[\s:]*(\d*)', string)[1]
'99872453'

编辑
如果您的“sku”后面跟着其他字符，如 sku1、 sku2、 sku-sp、 sku-18或 sku_anything，您可以尝试：

>>> re.findall(r'sku\D*(\d*)', string)[0]

这完全等同于：

>>> re.findall(r'sku[^0-9]*([0-9]*)', string)[0]

很一般。它将匹配以 sku开头的任何内容，然后是任何未确定数量的非十进制字符（ \D*，或 [^0-9]*）和一些十进制字符（ \d*，或 [0-9]*）。它将返回后者（一个长度待定的十进制字符字符串）。
现在，我用来构建这些表达式的东西是什么意思：
量词
*：当跟随单个字符或一类字符时，此符号表示表达式将匹配其跟随的任何未确定数量的字符或类（ *表示“0或一些”、 +表示“至少一个”、 ?表示“0或1”）。
{}的用法与 *、 +和 ?相同，即它们跟随一个字符或一类字符。它们也是量词。如果你说 c{4}，它将匹配由4'c'组成的任何字符串。如果你说 c{1,6}，它将匹配由1到6'c'组成的任何字符串。
班级
[]：定义一类字符。 [abc]表示任何字符“a”、“b”或“c”。 [a-z]表示任何小写字母。 [A-Z]，任意大写字母， [a-zA-Z]任意小写和大写字母，[0-9]任意十进制字符。如果要将小数与点或逗号、加号、减号和“e”（例如指数）匹配，只需说 [0-9,\.+-e]。
类内部的 ^用 []定义，表示“反向类”，除了类之外的所有内容。那么， [^0-9]表示除十进制字符以外的任何字符， [^a-z]表示除小写字母以外的任何字符，等等。
预定义类
这些是在python中预定义的类，用于使regex语法更友好：
\s：将匹配任何间距字符（空格、制表等）
\d：将匹配任何十进制字符（0、1、2、3、4、5、6、7、8、9。。。这相当于 [0-9]，这是在正则表达式中表示字符类的另一种方式）
\D：将匹配任何非十进制字符。。。这相当于 [^0-9]，这是在正则表达式中表示排除字符类的另一种方法。
\S：将匹配任何非空格字符。。。
\w：将匹配任何“单词字符”
\W：将匹配任何非单词字符
...
组
()定义了一些组。它们有很多用法。在这里，在 findall中，组将突出显示您希望由表达式返回的内容。。。即 (\d{8})或 [0-9]{8}意味着您希望表达式只返回匹配完整字符串中8个十进制字符的字符串。
正则表达式非常容易使用，而且非常有用。你只需要很好地理解他们能做什么和不能做什么（他们只限于普通语言）。如果您需要处理嵌套的级别，例如，或者使用上下文无关语法定义的其他语言，那么regex是不够的）。您可能需要查看以下页面：
http://docs.python.org/library/re.html
http://www.regular-expressions.info/tutorial.html

关于python - 使用正则表达式剪切以特定字符开头的字符串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11125401/

24

4

0

文章推荐： python - create_string_buffer 如何获取使用的大小

文章推荐： python - django manytomany 对象的字段返回空

文章推荐： python - 使用 openpyxl 从 excel 中的列获取值

文章推荐： python - 如何不在子流程中引用参数？

javascript - 如何在一个 URL 中包含两种类型的参数，一种以 "#"开头，另一种以 "&"开头，并且不替换另一种？
2种参数:尺寸和价格。目前，我只能单击选择/突出显示尺寸列中的一个，也只能单击选择/突出显示价格列中的一个，而不会影响另一个列中的一个。当我点击尺寸时，会添加一个 URL 参数“#size=4”。单
css - 为什么 css 对象要以前缀 o- 开头，而组件要以 c- 开头？
在css命名约定中，有什么原因，一些object最好以前缀o-和component开头> 以 c- 开头？我知道 o- 代表 object 而 c- 代表 component，但为什么不呢？难道我们
android - JSONArray 文本必须以字符 1 处的 '[' 开头......这很完美，但它确实以 '[' 开头
这就很迷惑了，一下子，下面的代码就不行了。尝试让我的 Android 很好地显示网页已经显示的内容: HttpClient httpclient = new DefaultHttpClient();
c# - 检查 Url 是否以 "http"或 "https"开头，非安全 Url 是否可能以 "https"开头？
我正在将我的网站发布到我无法控制的 IIS 服务器，我想从代码隐藏中了解它的 URL 是否以“http”或“https”开头。首先，我在本地尝试了这两种解决方案，都返回了正确的值(“http”):
linux - hadoop namenode 不是以 "sbin/start-dfs.sh"开头，而是以 "bin/hadoop namenode"开头(尽管没有显示错误)
如果我运行: sbin/start-dfs.sh 然后它实际上并没有启动一个名称节点尽管打印: Starting namenodes on [0.0.0.0] 0.0.0.0: starting na
PHP:更快地检查变量是整数还是以#开头
我正在开发一个包含一些数组的模块。现在我的数组包含: $omearray = array ( '#title' = 'title', 0 = array ( 'another array',
RegExp 匹配字符串不以 my 开头
对于 PMD，我希望有一个规则来警告我那些以 my 开头的丑陋变量。这意味着我必须接受所有不以my开头的变量。所以，我需要一个正则表达式(re)，其行为如下: re.match('myVar')
Java获取网页源码包含 "null"开头
出于某种奇怪的原因，当我尝试使用 URLConnection 获取网页源时，我在输出中得到“null”。有人可以解释一下吗？我的方法: public String getPageSource()
string - 如何批量检查某个字符串是否以特定单词*开头*
如何批量检查某个字符串(记录文本文件中的行)是否以特定单词开头？我知道如何检查句子/行(字符串)中是否存在单词(子字符串)，但我如何检查天气是否以这个词开头？谢谢:) 最佳答案这可以通过 FIN
Python 字符串以 # 开头
我有一个列表，其中包含多个网址和一些字符串，例如#skipsideNav、#content。我正在从这些字符串中分离出 url if link.startswith('/'): local_u
JQuery 类名选择器以？开头？
我有以下 html 标记: 我想选择类 bubble bubble_white 和 bubble bubble_black。我正在考虑下面的代码，但它不起作用: $(".bubbl
javascript - 正则表达式不以 "."开头
我有一个用于文件名验证的正则表达式。在这里: /^[0-9a-zA-Z\^\&\'\@\{\}\[\]\,\$\=\!\-\#\.\%\+\~\_; ]+$/ 如何更改它以检查文件名不是以
javascript - Sequelize查询字符串前缀/开头
我正在构建一个自动填充函数，它接受一个字符串输入并返回一个字符串建议列表。 Sequelize 的 iLike:query返回出现查询字符串的每个字符串。我想支持查询是前缀的字符串。例如当query=
Javascript正则表达式匹配字符串，除非字符串以“开头
我首先知道这可能是有史以来看起来最糟糕的正则表达式，但这里是。我有这个正则表达式 (?:http://)?(?:www.)?youtu(?:be)?.(?:[a-z]){2,3}(?:[a-z/?=
Python - 从文件中读取跳过行以 # 开头
尝试读取文件并根据行创建字典，跳过以#符号开头的行文件示例: param1=val1 # here is comment 我的功能: def readFromFile(name): conf
java - 字符串以空字符串 (""开头)
我的程序正在读取文本文件并根据文本执行操作。但是文本的第一行是有问题的。显然它以“”开头。这弄乱了我的 startsWith() 检查。为了理解这个问题，我使用了这段代码: System.ou
c - 为什么在C语言中变量名可以以$开头？
我的印象是变量名只能以字母和 _ 开头，但是在测试时，我还发现变量名可以以 $ 开头，如下所示: 代码 #include int main() { int myvar=13; int
regex - 我可以使用什么正则表达式将字符串拆分为整个单词，但前提是它们以 # 开头？
我试过这个... Dim myMatches As String() = System.Text.RegularExpressions.Regex.Split(postRow.Item("Post")
tags - CKEditor防止
开头
我正在使用CKEditor，默认情况下在内容的开头添加了。即使将enterMode设置为，它也只会影响Enter键的作用，并保留开始的。我遇到的问题是，如果文本以标记开头，它将围绕它包装，并且图像
linq - LINQ不是以List 开头
我有一个List ，其中有五个字符串: abc def ghi jkl mno 我还有另一个字符串“pq”，我需要知道列表中的每个字符串是否都不以“pq”开头-我将如何使用LINQ(.NET 4.0)

首页

博学

6Ren·AI

商城

python - 使用正则表达式剪切以特定字符开头的字符串？