gpt4 book ai didi

python - 使用 python 的 re 模块解析文件名

转载 作者:行者123 更新时间:2023-11-28 22:54:12 25 4
gpt4 key购买 nike

我正在开发扫描用户视频文件并尝试从文件名中识别它们的视频播放器。如果视频是电影,我想获取它的名称和视频质量;如果是电视节目,我想获取节目名称、季数、剧集数和视频质量。

我用谷歌搜索了一些示例文件名并制作了简单的脚本来尝试获取信息,但我真的很难处理异常情况,例如在质量之前有剧集名称,当文件具有“PROPER”或“PROPER”之类的标签时如果用户将视频的来源(如“BluRay”)放在质量之前。

如果有更熟练使用正则表达式的人提供一些帮助,我将不胜感激。

谢谢!

import re
names = [
"The.Newsroom.2012.S02E06.720p.HDTV.x264-KILLERS.mkv",
"Breaking.Bad.S05E10.Buried.HDTV.XviD-AFG.avi",
"Breaking.Bad.S05E10.Buried.720p.HDTV.x264-AFG.mkv", #Incorrectly nonHD
"Dexter.S08E08.HDTV.XviD-AFG.avi",
"Dexter.S08E07.1080p.HDTV.x264-QCF.mkv",
"Dexter S08E07 720p HDTV x264-QCF.mkv",
"The.Great.Gatsby.2013.BluRay.1080p.DTS.x264-CHD.mkv", #Incorrectly nonHD
"The Forbidden Girl 2013 BRRIP Xvid AC3-BHRG.avi",
"Pain.&.Gain.2013.720p.BluRay.DD5.1.x264-HiDt.mkv",
"Band.of.Brothers.S01E02.Day.of.Days.DVDRip.XviD-AC3-BAGS.avi",
"Dexter.S08E06.PROPER.720p.HDTV.x264-IMMERSE.mkv", #Incorrectly nonHD
"Dexter S08E06 PROPER 720p HDTV x264-IMMERSE.mkv" #Incorrectly nonHD
]
for name in names:
tv = re.findall(r"(.*?)[ |.]S([\d+]{1,2})E([\d+]{1,2})[ |.]([\d+]{3,4}p|)", name) #FIXME: Get quality also after "PROPER/EPTITLE/.."
if len(tv)>0:
print("---------- TV ----------")
print("Show: "+tv[0][0].replace(".", " "))
print("Season: "+str(int(tv[0][1])))
print("Episode: "+str(int(tv[0][2])))
print("Quality: "+(tv[0][3] if len(tv[0][3])>0 else "nonHD"))
else:
movie = re.findall(r"(.*?[ |.][\d+]{4})[ |.]([\d+]{3,4}p|)", name) #FIXME: Get quality also after "BluRay/HDTV/HDDVD/.."
if len(movie)>0:
print("--------- MOVIE --------")
print("Title: "+movie[0][0].replace(".", " "))
print("Quality: "+(movie[0][1] if len(movie[0][1])>0 else "nonHD"))
else:
print("error")

最佳答案

正如 Josh 所提到的,+ 限定符不应与 {m,n} 一起使用。 + 匹配一个或多个 re,而 {m,n} 贪婪地匹配 m 到 n 次重复。 (参见:re syntax)。

他还指出了使用 re.VERBOSE 的好处以帮助提高正则表达式的可读性。

编辑:(感谢@eyguem 指出这一点)我可能是错的,但是您的 [ |.] 是在尝试匹配空格和句点?如果是这样,您就不需要 | 并且转义特殊字符(例如 .)可能是个好习惯。 (即 [\.])。

如果你知道季节/剧集和质量之间的字符串是字母、空格或句点,你可以使用类似这样的东西(编辑:如果有非字母字符,如“-”、“+”等,你'需要将它们添加到字符集中):

    tv = re.findall(r"""(.*)          # Title
[ .]
S(\d{1,2}) # Season
E(\d{1,2}) # Episode
[ .a-zA-Z]* # Space, period, or words like PROPER/Buried
(\d{3,4}p)? # Quality
""", name, re.VERBOSE)

同样,您可以为电影部分执行此操作:

movie = re.findall(r"""(.*?[ .]\d{4})  # Title including year
[ .a-zA-Z]* # Space, period, or words
(\d{3,4}p)? # Quality
""", name, re.VERBOSE)

这是输出:

---------- TV ----------
Show: The Newsroom 2012
Season: 2
Episode: 6
Quality: 720p
---------- TV ----------
Show: Breaking Bad
Season: 5
Episode: 10
Quality: nonHD
---------- TV ----------
Show: Breaking Bad
Season: 5
Episode: 10
Quality: 720p
---------- TV ----------
Show: Dexter
Season: 8
Episode: 8
Quality: nonHD
---------- TV ----------
Show: Dexter
Season: 8
Episode: 7
Quality: 1080p
---------- TV ----------
Show: Dexter
Season: 8
Episode: 7
Quality: 720p
--------- MOVIE --------
Title: The Great Gatsby 2013
Quality: 1080p
--------- MOVIE --------
Title: The Forbidden Girl 2013
Quality: nonHD
--------- MOVIE --------
Title: Pain & Gain 2013
Quality: 720p
---------- TV ----------
Show: Band of Brothers
Season: 1
Episode: 2
Quality: nonHD
---------- TV ----------
Show: Dexter
Season: 8
Episode: 6
Quality: 720p
---------- TV ----------
Show: Dexter
Season: 8
Episode: 6
Quality: 720p

关于python - 使用 python 的 re 模块解析文件名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18340576/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com