Python 中文正则表达式笔记-6ren

Python 中文正则表达式笔记

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python 中文正则表达式笔记由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

从字符串的角度来说，中文不如英文整齐、规范，这是不可避免的现实。本文结合网上资料以及个人经验，以 python 语言为例，稍作总结。欢迎补充或挑错。一点经验可以使用 repr()函数查看字串的原始格式。这对于写正则表达式有所帮助。 Python 的 re模块有两个相似的函数：re.match(), re.search 。两个函数的匹配过程完全一致，只是起点不同。match只从字串的开始位置进行匹配，如果失败，它就此放弃；而search则会锲而不舍地完全遍历整个字串中所有可能的位置，直到成功地找到一个匹配，或者搜索完字串，以失败告终。如果你了解match的特性（在某些情况下比较快），大可以自由用它；如果不太清楚，search通常是你需要的那个函数。从一堆文本中，找出所有可能的匹配，以列表的形式返回，这种情况用findall()这个函数。例子见后面的代码。 utf8下，每个汉字占据3个字符位置，正则式为[\x80-\xff]{3}，这个都知道了吧。 unicode下，汉字的格式如\uXXXX，只要找到对应的字符集的范围，就能匹配相应的字串，方便从多语言文本中挑出所需要的某种语言的文本。不过，对于像日文这样的粘着语，既有中文字符，又有平假名片假名，或许结果会有所偏差。两种字符类可以并列在一起使用，例如，平假名、片假名、中文的放在一起，u"[\u4e00-\u9fa5\u3040-\u309f\u30a0-\u30ff]+"，来自定义所需要匹配的文本。匹配中文时，正则表达式和目标字串的格式必须相同。这一点至关重要。或者都用默认的utf8，此时你不用额外做什么；如果是unicode，就需要在正则式之前加上u""格式。可以这样定义unicode字符串：string=u"我爱正则表达式"。如果字串不是unicode的，可以使用unicode()函数转换之。如果你知道源字串的编码，可以使用newstr=unicode(oldstring, original_coding_name)的方式转换，例如 linux 下常用unicode(string, "utf8")，windows 下或许会用cp936吧，没测试。例程序。

复制代码代码如下:

 
 #!/usr/bin/python 
 
 # -*- coding: utf-8 -*- 
 
 # 
 
 #author: rex 
 
 #blog: http://iregex.org 
 
 #filename py_utf8_unicode.py 
 
 #created: 2010-06-27 09:11 
 
 import re 
 
 def findPart(regex, text, name): 
 
 res=re.findall(regex, text) 
 
 if res: 
 
 print "There are %d %s parts:\n"% (len(res), name) 
 
 for r in res: 
 
 print "\t",r 
 
 print 
 
 #sample is utf8 by default. 
 
 sample='''en: Regular expression is a powerful tool for manipulating text. 
 
 zh: 正则表达式是一种很有用的处理文本的工具。 
 
 jp: 正規表現は非常に役に立つツールテキストを操作することです。 
 
 jp-char: あアいイうウえエおオ 
 
 kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. 
 
 puc: 。？！、，；：“ ”‘ '——……·－·《》〈〉！￥％＆＊＃ 
 
 ''' 
 
 #let's look its raw representation under the hood: 
 
 print "the raw utf8 string is:\n", repr(sample) 
 
 print 
 
 #find the non-ascii chars: 
 
 findPart(r"[\x80-\xff]+",sample,"non-ascii") 
 
 #convert the utf8 to unicode 
 
 usample=unicode(sample,'utf8') 
 
 #let's look its raw representation under the hood: 
 
 print "the raw unicode string is:\n", repr(usample) 
 
 print 
 
 #get each language parts: 
 
 findPart(u"[\u4e00-\u9fa5]+", usample, "unicode chinese") 
 
 findPart(u"[\uac00-\ud7ff]+", usample, "unicode korean") 
 
 findPart(u"[\u30a0-\u30ff]+", usample, "unicode japanese katakana") 
 
 findPart(u"[\u3040-\u309f]+", usample, "unicode japanese hiragana") 
 
 findPart(u"[\u3000-\u303f\ufb00-\ufffd]+", usample, "unicode cjk Punctuation")

其输出结果为:

复制代码代码如下:

 
 the raw utf8 string is: 
 
 'en: Regular expression is a powerful tool for manipulating text.\nzh: \xe6\xad\xa3\xe5\x88\x99\xe8\xa1\xa8\xe8\xbe\xbe\xe5\xbc\x8f\xe6\x98\xaf\xe4\xb8\x80\xe7\xa7\x8d\xe5\xbe\x88\xe6\x9c\x89\xe7\x94\xa8\xe7\x9a\x84\xe5\xa4\x84\xe7\x90\x86\xe6\x96\x87\xe6\x9c\xac\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7\xe3\x80\x82\njp: \xe6\xad\xa3\xe8\xa6\x8f\xe8\xa1\xa8\xe7\x8f\xbe\xe3\x81\xaf\xe9\x9d\x9e\xe5\xb8\xb8\xe3\x81\xab\xe5\xbd\xb9\xe3\x81\xab\xe7\xab\x8b\xe3\x81\xa4\xe3\x83\x84\xe3\x83\xbc\xe3\x83\xab\xe3\x83\x86\xe3\x82\xad\xe3\x82\xb9\xe3\x83\x88\xe3\x82\x92\xe6\x93\x8d\xe4\xbd\x9c\xe3\x81\x99\xe3\x82\x8b\xe3\x81\x93\xe3\x81\xa8\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82\njp-char: \xe3\x81\x82\xe3\x82\xa2\xe3\x81\x84\xe3\x82\xa4\xe3\x81\x86\xe3\x82\xa6\xe3\x81\x88\xe3\x82\xa8\xe3\x81\x8a\xe3\x82\xaa\nkr:\xec\xa0\x95\xea\xb7\x9c \xed\x91\x9c\xed\x98\x84\xec\x8b\x9d\xec\x9d\x80 \xeb\xa7\xa4\xec\x9a\xb0 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xeb\x8f\x84\xea\xb5\xac \xed\x85\x8d\xec\x8a\xa4\xed\x8a\xb8\xeb\xa5\xbc \xec\xa1\xb0\xec\x9e\x91\xed\x95\x98\xeb\x8a\x94 \xea\xb2\x83\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4.\npuc: \xe3\x80\x82\xef\xbc\x9f\xef\xbc\x81\xe3\x80\x81\xef\xbc\x8c\xef\xbc\x9b\xef\xbc\x9a\xe2\x80\x9c \xe2\x80\x9d\xe2\x80\x98 \xe2\x80\x99\xe2\x80\x94\xe2\x80\x94\xe2\x80\xa6\xe2\x80\xa6\xc2\xb7\xef\xbc\x8d\xc2\xb7\xe3\x80\x8a\xe3\x80\x8b\xe3\x80\x88\xe3\x80\x89\xef\xbc\x81\xef\xbf\xa5\xef\xbc\x85\xef\xbc\x86\xef\xbc\x8a\xef\xbc\x83\n' 
 
 There are 14 non-ascii parts: 
 
 正则表达式是一种很有用的处理文本的工具。 
 
 正規表現は非常に役に立つツールテキストを操作することです。 
 
 あアいイうウえエおオ 
 
 정규 
 
 표현식은 
 
 매우 
 
 유용한 
 
 도구 
 
 텍스트를 
 
 조작하는 
 
 것입니다 
 
 。？！、，；：“ 
 
 ”‘ 
 
 '——……·－·《》〈〉！￥％＆＊＃ 
 
 the raw unicode string is: 
 
 u'en: Regular expression is a powerful tool for manipulating text.\nzh: \u6b63\u5219\u8868\u8fbe\u5f0f\u662f\u4e00\u79cd\u5f88\u6709\u7528\u7684\u5904\u7406\u6587\u672c\u7684\u5de5\u5177\u3002\njp: \u6b63\u898f\u8868\u73fe\u306f\u975e\u5e38\u306b\u5f79\u306b\u7acb\u3064\u30c4\u30fc\u30eb\u30c6\u30ad\u30b9\u30c8\u3092\u64cd\u4f5c\u3059\u308b\u3053\u3068\u3067\u3059\u3002\njp-char: \u3042\u30a2\u3044\u30a4\u3046\u30a6\u3048\u30a8\u304a\u30aa\nkr:\uc815\uaddc \ud45c\ud604\uc2dd\uc740 \ub9e4\uc6b0 \uc720\uc6a9\ud55c \ub3c4\uad6c \ud14d\uc2a4\ud2b8\ub97c \uc870\uc791\ud558\ub294 \uac83\uc785\ub2c8\ub2e4.\npuc: \u3002\uff1f\uff01\u3001\uff0c\uff1b\uff1a\u201c \u201d\u2018 \u2019\u2014\u2014\u2026\u2026\xb7\uff0d\xb7\u300a\u300b\u3008\u3009\uff01\uffe5\uff05\uff06\uff0a\uff03\n' 
 
 There are 6 unicode chinese parts: 
 
 正则表达式是一种很有用的处理文本的工具 
 
 正規表現 
 
 非常 
 
 役 
 
 立 
 
 操作 
 
 There are 8 unicode korean parts: 
 
 정규 
 
 표현식은 
 
 매우 
 
 유용한 
 
 도구 
 
 텍스트를 
 
 조작하는 
 
 것입니다 
 
 There are 6 unicode japanese katakana parts: 
 
 ツールテキスト 
 
 ア 
 
 イ 
 
 ウ 
 
 エ 
 
 オ 
 
 There are 11 unicode japanese hiragana parts: 
 
 は 
 
 に 
 
 に 
 
 つ 
 
 を 
 
 することです 
 
 あ 
 
 い 
 
 う 
 
 え 
 
 お 
 
 There are 5 unicode cjk Punctuation parts: 
 
 。 
 
 。 
 
 。？！、，；： 
 
 － 
 
 《》〈〉！￥％＆＊＃

。

最后此篇关于Python 中文正则表达式笔记的文章就讲到这里了,如果你想了解更多关于Python 中文正则表达式笔记的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：正则表达式笔记三则

文章推荐：利用iOS实现系统相册大图浏览功能详解

文章推荐：网站优化如何提高网站内容质量

文章推荐：详解IOS 单例的两种方式

javascript 中文/日文字符解码
我在服务器上创建了一个 JSONP 函数并像这样返回一个 UTF-8 编码的 json 对象 applyLocalization({"Name":"%E5%90%8D%E5%89%8D","Age":
string - 如何在Flutter中将Unicode字符串转换为正确的字符串(中文)
我正在开发一个应用程序，在该应用程序中我从API获取数据，并且正在获取这样的汉字 “u9c9cu82b1u548cu7231” 鲜花和爱如何转换？最佳答案您的字符串采用转义的unicode格式。
php - 中文/日文字母的正则表达式
好吧，我已经有了这个正则表达式，用于我网站上允许的名称。但是，我还希望添加名称可能使用的其他字母。有人有好的 regex 或知道如何使它更完整吗？我已经搜索了一段时间，但找不到适合我需要的内容。这是
php - 中文/日文字母的正则表达式
好吧，我已经有了这个正则表达式，用于我网站上允许的名称。但是，我还希望添加名称可能使用的其他字母。有人有好的 regex 或知道如何使它更完整吗？我已经搜索了一段时间，但找不到适合我需要的内容。这是
Yii框架多语言站点配置方法分析【中文/英文切换站点】
本文实例讲述了Yii框架多语言站点配置方法。分享给大家供大家参考，具体如下：这里假设我们要建立中文／英文切换的站点 1. 设置全局默认的语言文件添加代码：protected/confi
r - 如何在R中使用正确的(中文)编码下载网页文本
我想知道如何设置编码参数，以便当我下载文本时，它“看起来”与我在网络浏览器中的页面源代码中看到的一样，例如: readLines("http://www.baidu.com/s?wd=r+projec
unicode - 中文 <-> 英文翻译/字义数据库
我计划开发一个 web 应用程序，它将使用一种新颖的方式来帮助人们学习汉字并记住它们的含义。由于我不想/不能花费数年时间手动翻译所有中文字符，我想知道是否有(最好是开源的)数据库(任何形式)提供此功
javascript - 如何在html中渲染非英文字符(日语，中文)
我知道我的问题已经在这里有了解决方案。但我只想具体说明我的情况。我有一个 json 对象，其中包含非英语字符。例如。 {“my_chinise_name”:“吉米”}。该对象将通过 javascr
java - 中文(简体和繁体)和韩文文本的字符损坏
我有一个设置，其中邮件服务器(postfix)收到的电子邮件被处理，生成的电子邮件的正文(html或纯文本)和附件被解析为单独的文件并保存，为此我使用javax mail api。当电子邮件正文为中
django - 中文 django 翻译不起作用
我的 settings.py 看起来像这样: LANGUAGES = ( ('en', _('English')), ('fr', _('French')), #Simplif
python - QValueAxis 显示困惑的代码(中文)？
在我的图表中，x轴需要显示中文，y轴需要显示英文，但x轴显示困惑的代码。有人可以帮助我吗？ self.chart.createDefaultAxes() axis_x, axis_y = self.c
python - Beautifulsoup 返回奇怪的字符(中文)
使用Python3和BeautifulSoup v4 url='http://www.eurobasket2015.org/en/compID_qMRZdYCZI6EoANOrUf9le2.seaso
xcode - NSManagedObject 子类和应用程序名称(中文)
我的开发应用程序名称为中文。今天我从 CoreData 收到错误: CoreData: warning: Unable to load class named '￐ﾟ￐ﾣ￐ﾝ￐ﾚ.' for enti
java - 用java解析阿拉伯文/中文/日文RSS提要
我正在用 java 编写一个 rss feed 解析器，在解析包含阿拉伯文/中文/日文字符的 feed 时遇到了问题。 Example feed 当我打印它们时，我只是得到一组问号“?????? ??
python - 如何在python程序中比较非英文(中文)字符？
在我的一个Python程序(python 2.7)中，我需要处理一些汉字: 我有一个文件A.txt，它有两列:“name”和“score”，“name”列可以取一些中文字符串，score是一个1 到
android - 如何让android设备 "speak"中文？
我正在学习使用 eclipse 和 ADT 插件在 Android 上开发应用。根据android SDK 文档中的这篇文章http://androidappdocs.appspot.com/res
javascript - 中文 URL 编码问题
我有这样的中文文字:“回家” - 好像是英文的“house”。我去 google.com，在搜索中输入“回家”并得到这样的 url: http://www.google.ru/... q=%E5%9
ios - NSSortDescriptor 中文...怎么样？
我正在为我的应用程序添加中文支持。我有这条线可以对英语和其他语言进行排序 NSSortDescriptor *sortByItem = [NSSortDescriptor sortDesc
python - 打印日文(中文)字符
我读日语，想尝试处理一些日语文本。我使用 Python 3 尝试了这个: for i in range(1,65535): print(chr(i), end='') 然后 Python 给了
c# - 将文本框输入翻译成西类牙语、中文、德语
我想将文本框值翻译成特定语言，如西类牙语、中文、德语等，它们都在下面的下拉列表中，我想在标签中显示文本框翻译值，但不在标签中显示翻译值。 English J

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python 中文正则表达式笔记