python - 使用 python 的 re 模块解析文件名-6ren

python - 使用 python 的 re 模块解析文件名

转载作者：行者123 更新时间：2023-11-28 22:54:12

25

4

我正在开发扫描用户视频文件并尝试从文件名中识别它们的视频播放器。如果视频是电影，我想获取它的名称和视频质量；如果是电视节目，我想获取节目名称、季数、剧集数和视频质量。

我用谷歌搜索了一些示例文件名并制作了简单的脚本来尝试获取信息，但我真的很难处理异常情况，例如在质量之前有剧集名称，当文件具有“PROPER”或“PROPER”之类的标签时如果用户将视频的来源(如“BluRay”)放在质量之前。

如果有更熟练使用正则表达式的人提供一些帮助，我将不胜感激。

谢谢!

import re
names = [
    "The.Newsroom.2012.S02E06.720p.HDTV.x264-KILLERS.mkv",
    "Breaking.Bad.S05E10.Buried.HDTV.XviD-AFG.avi",
    "Breaking.Bad.S05E10.Buried.720p.HDTV.x264-AFG.mkv", #Incorrectly nonHD
    "Dexter.S08E08.HDTV.XviD-AFG.avi",
    "Dexter.S08E07.1080p.HDTV.x264-QCF.mkv",
    "Dexter S08E07 720p HDTV x264-QCF.mkv",
    "The.Great.Gatsby.2013.BluRay.1080p.DTS.x264-CHD.mkv", #Incorrectly nonHD
    "The Forbidden Girl 2013 BRRIP Xvid AC3-BHRG.avi",
    "Pain.&.Gain.2013.720p.BluRay.DD5.1.x264-HiDt.mkv",
    "Band.of.Brothers.S01E02.Day.of.Days.DVDRip.XviD-AC3-BAGS.avi",
    "Dexter.S08E06.PROPER.720p.HDTV.x264-IMMERSE.mkv", #Incorrectly nonHD
    "Dexter S08E06 PROPER 720p HDTV x264-IMMERSE.mkv" #Incorrectly nonHD
]
for name in names:
    tv = re.findall(r"(.*?)[ |.]S([\d+]{1,2})E([\d+]{1,2})[ |.]([\d+]{3,4}p|)", name) #FIXME: Get quality also after "PROPER/EPTITLE/.."
    if len(tv)>0:
        print("---------- TV ----------")
        print("Show: "+tv[0][0].replace(".", " "))
        print("Season: "+str(int(tv[0][1])))
        print("Episode: "+str(int(tv[0][2])))
        print("Quality: "+(tv[0][3] if len(tv[0][3])>0 else "nonHD"))
    else:
        movie = re.findall(r"(.*?[ |.][\d+]{4})[ |.]([\d+]{3,4}p|)", name) #FIXME: Get quality also after "BluRay/HDTV/HDDVD/.."
        if len(movie)>0:
            print("--------- MOVIE --------")
            print("Title: "+movie[0][0].replace(".", " "))
            print("Quality: "+(movie[0][1] if len(movie[0][1])>0 else "nonHD"))
        else:
            print("error")

最佳答案

正如 Josh 所提到的，+ 限定符不应与 {m,n} 一起使用。 + 匹配一个或多个 re，而 {m,n} 贪婪地匹配 m 到 n 次重复。 (参见:re syntax)。

他还指出了使用 re.VERBOSE 的好处以帮助提高正则表达式的可读性。

编辑:(感谢@eyguem 指出这一点)我可能是错的，但是您的 [ |.] 是在尝试匹配空格和句点？如果是这样，您就不需要 | ~~并且转义特殊字符(例如 .)可能是个好习惯。 (即 [\.])。~~

如果你知道季节/剧集和质量之间的字符串是字母、空格或句点，你可以使用类似这样的东西(编辑:如果有非字母字符，如“-”、“+”等，你'需要将它们添加到字符集中):

    tv = re.findall(r"""(.*)          # Title
                        [ .]
                        S(\d{1,2})    # Season
                        E(\d{1,2})    # Episode
                        [ .a-zA-Z]*  # Space, period, or words like PROPER/Buried
                        (\d{3,4}p)?   # Quality
                    """, name, re.VERBOSE)

同样，您可以为电影部分执行此操作:

movie = re.findall(r"""(.*?[ .]\d{4})  # Title including year
                       [ .a-zA-Z]*     # Space, period, or words
                       (\d{3,4}p)?      # Quality
                    """, name, re.VERBOSE)

这是输出:

---------- TV ----------
Show: The Newsroom 2012
Season: 2
Episode: 6
Quality: 720p
---------- TV ----------
Show: Breaking Bad
Season: 5
Episode: 10
Quality: nonHD
---------- TV ----------
Show: Breaking Bad
Season: 5
Episode: 10
Quality: 720p
---------- TV ----------
Show: Dexter
Season: 8
Episode: 8
Quality: nonHD
---------- TV ----------
Show: Dexter
Season: 8
Episode: 7
Quality: 1080p
---------- TV ----------
Show: Dexter
Season: 8
Episode: 7
Quality: 720p
--------- MOVIE --------
Title: The Great Gatsby 2013
Quality: 1080p
--------- MOVIE --------
Title: The Forbidden Girl 2013
Quality: nonHD
--------- MOVIE --------
Title: Pain & Gain 2013
Quality: 720p
---------- TV ----------
Show: Band of Brothers
Season: 1
Episode: 2
Quality: nonHD
---------- TV ----------
Show: Dexter
Season: 8
Episode: 6
Quality: 720p
---------- TV ----------
Show: Dexter
Season: 8
Episode: 6
Quality: 720p

关于python - 使用 python 的 re 模块解析文件名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18340576/

25

4

0

文章推荐： tomcat - tomcat 7 管理器的用户/密码

文章推荐： java - HTTP 客户端-服务器请求响应

文章推荐： java - 在 Tomcat 6-Java 7/8 中运行 Tomcat 6-Java 6 WebApps

SSIS - 如何遍历文件夹中的文件并获取路径+文件名，最后执行存储过程，参数为路径+文件名
任何帮助深表感谢。我正在尝试创建一个 SSIS 包来遍历文件夹中的文件并获取路径+文件名，最后执行存储的过程，参数为路径+文件名。我不确定如何获取路径+文件名并将其作为参数插入到存储过程中。我附上了截
Powershell脚本来定位特定文件/文件名？
我想编写一个小脚本来搜索确切的文件名，而不是文件名中的字符串。例如，如果我使用资源管理器搜索“主机”，默认情况下我会得到多个结果。对于脚本，我只需要我指定的名称。我假设这可能吗？我才真正开始编写脚
Python字符串编码-文件名
str(文件.key) = '1011/101011/文件名' newFileName = str(file.key) 但是，当我运行代码时，我得到: UnicodeEncodeError: 'asc
文件名正则表达式提取方法
下面这段子程基本上可以算是比较不错的通用匹配了。(PS:我突然发现CODE_LITE把我的UBB转义了！！！晕,我只好自己转义了。。。) Dim objRegExp,Matc
PHP Unicode 文件名
PHP 无法处理带有 Unicode 字符的文件:当我在浏览器上访问 testSite/главная.php 时，它会抛出此错误。 Warning: Unknown: failed to open
VBA Vlookup 文件名
我正在尝试包含 Dim在 Vlookup 中。 Dim filename As String filename = Format(DateAdd("d", -6, Now()), "mm-dd-yy"
makefile 链接目录/文件名
在我的日常构建项目中，我们将其库存储到其版本名称目录中。 . 对于最新的，我们正在创建符号链接(symbolic link)作为“最新”。前任。- ls -ltr drw-r--r-- 1 4096
yeoman 。文件名、目录名或卷标语法不正确
重新安装了 Windows 10(版本 10.0.14393)。重新安装了以下内容: java java version "1.8.0_121" Java(TM) SE Runtime Environ
没有日期的 Jekyll 文件名
我想使用 Jekyll 和 GitHub Pages 构建文档站点。问题是 Jekyll 只接受 _posts 下的文件名具有精确的图案，如 YYYY-MM-DD-your-title-is-here
java - 按升序读取多个文件文件名
我不知道我发生了什么事。我想访问一个包含多个文件的目录，假设: folder\\1.txt 2.txt 3.txt.... 现在我想根据它们的出现情况来阅读它们，我的意思是首先是最低的，只是我想按升
unix - 你如何获得 a/into 文件名？
如何将/放入文件名(即/不分隔路径的组成部分)？最佳答案你不知道。 UNIX 文件名中不允许使用斜线。关于unix - 你如何获得 a/into 文件名？，我们在Stack Overflow上找
python - 递归复制文件夹并更改复制文件的文件夹/文件名
我需要复制一个大文件夹，并重命名其中的所有文件和文件夹(如果它们包含特定字符串)。基本上我想复制所有内容并将 10 的任何实例更改为 11。例如，如果我有一个结构如下的文件夹: mainfolder
python - 文件名、目录名或卷标语法不正确
我有一个简单的 python (2.7) 脚本，应该执行一些 svn 命令: def getStatusOutput(cmd): print cmd p = subprocess.Po
python - Genfromtxt 文件名
我正在尝试读取以字符串形式存储在数据文件中的文件名。那里没问题。如果我将它传递给 genfromtxt，我会收到错误“IOError:Z:\Python\Rb input.txt not found”
具有多个句点的 C 文件名
简单的问题。当我尝试打开名为 text.txt 的文件时，它可以正常工作。但是，如果我将文件重命名为 text.cir.txt，则会出现错误。我可以做什么来修复它？ FILE *fd; char
c# - 获取用我的应用程序打开的文件的路径+文件名
我是 c# 的业余爱好者，我一直无法找到这个问题的答案。也许我不知道要使用的正确术语。当一个视频文件被拖到我的 exe 应用程序上时，我希望应用程序知道它是用一个文件启动的，并且能够知道该文件的路径
c# - 如何使用子字符串删除字符串结尾(文件名)？
我知道我必须使用 Substring 来删除，但我不知道该怎么做。我需要像这样删除字符串的结尾来自 "C:\\Users\\myname\\Pictures\\shoeImage.jpg" 到 "C
java - 文件名、目录名或卷标语法不正确
运行 eclipse 时我收到此错误。但是当我运行我的项目时，它是在内部浏览器中执行的。但它不会在默认的系统浏览器中执行。对此任何一个答案。先谢谢您的回答最佳答案您可以从 eclipse 更改浏览
android - 提示用户输入路径/文件名
我想要求用户选择一个要从外部存储打开的文件并接收它的路径。最好我想避免过多的编码并使用一些标准方法(众所周知，系统提供的 Intent 或类似方法)。所说的文件是SpatiaLite db文件(*.s
Postgresql 全文搜索非常短的文档(文件名)
我有一个文件名数据库，我正在尝试使用 PG 的全文搜索工具在其中进行搜索。我在文件名表上运行搜索查询，问题是排名函数没有按照我希望的那样对结果进行排名。为了便于讨论，我们假设架构如下所示: creat

首页

博学

6Ren·AI

商城

python - 使用 python 的 re 模块解析文件名