python - 使用正则表达式解析 .srt 文件-6ren

python - 使用正则表达式解析 .srt 文件

转载作者：太空宇宙更新时间：2023-11-04 06:47:24

27

4

我正在用 python 编写一个小脚本，但由于我是新手，所以我被困在了一个部分:我需要从 .srt 文件中获取时间和文本。例如，来自

1
00:00:01,000 --> 00:00:04,074
Subtitles downloaded from www.OpenSubtitles.org

我需要得到:

00:00:01,000 --> 00:00:04,074

和

从 www.OpenSubtitles.org 下载的字幕。

我已经成功地为计时制作了正则表达式，但我被文本困住了。我尝试使用 look behind 我使用我的正则表达式进行计时:

( ?<=(\d+):(\d+):(\d+)(?:\,)(\d+) --> (\d+):(\d+):(\d+)(?:\,)(\d+) )\w+

但没有效果。就个人而言，我认为使用look behind 是解决此问题的正确方法，但我不确定如何正确编写它。谁能帮我？谢谢。

最佳答案

老实说，我看不出有任何理由在这个问题上使用正则表达式。 .srt 文件是 highly structured .结构如下:

从 1 开始的整数，单调递增
开始-->停止计时
一行或多行字幕内容
一个空行

... 并重复。请注意粗体部分 - 您可能需要在时间码后捕获 1、2 或 20 行字幕内容。

所以，就利用结构吧。通过这种方式，您可以一次解析所有内容，而无需一次将多行内容放入内存，并且仍然将每个字幕的所有信息保存在一起。

from itertools import groupby
# "chunk" our input file, delimited by blank lines
with open(filename) as f:
    res = [list(g) for b,g in groupby(f, lambda x: bool(x.strip())) if b]

例如，使用 SRT 文档页面上的示例，我得到:

res
Out[60]: 
[['1\n',
  '00:02:17,440 --> 00:02:20,375\n',
  "Senator, we're making\n",
  'our final approach into Coruscant.\n'],
 ['2\n', '00:02:20,476 --> 00:02:22,501\n', 'Very good, Lieutenant.\n']]

我可以进一步将其转换为有意义的对象列表:

from collections import namedtuple

Subtitle = namedtuple('Subtitle', 'number start end content')

subs = []

for sub in res:
    if len(sub) >= 3: # not strictly necessary, but better safe than sorry
        sub = [x.strip() for x in sub]
        number, start_end, *content = sub # py3 syntax
        start, end = start_end.split(' --> ')
        subs.append(Subtitle(number, start, end, content))

subs
Out[65]: 
[Subtitle(number='1', start='00:02:17,440', end='00:02:20,375', content=["Senator, we're making", 'our final approach into Coruscant.']),
 Subtitle(number='2', start='00:02:20,476', end='00:02:22,501', content=['Very good, Lieutenant.'])]

关于python - 使用正则表达式解析 .srt 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23620423/

27

4

0

文章推荐： java - RESTEasy + Spring 3 + Maven

文章推荐： css - 如何在背景图像上应用两个滤镜？

文章推荐： c - 如何创建矩阵的静态数组

文章推荐： java - Spring请求参数中的特殊符号

regex - 使用正则表达式解析字幕(srt)
我想用正则表达式解析字幕。但不匹配多行文本。正则表达式代码: (?(\d+))\n(?([\d:,]+))[\s-{2}\>]+(?([\d:,]+))\n(?(.+|\n)) https://re
C# - 用于获取文本内容的正则表达式字幕文件 (.srt)？
我有一个srt文件 1 00:00:07,000 --> 00:00:09,000 Time to amaze the world.. create by Hazy 2 00:00:11,000 --
nginx - FFMPEG SRT 多个调用者进入一个听众？
我正在使用这条线: exec_push /home/production/bin/ffmpeg -i rtmp://localhost:1935/live/slot4 -codec copy -g 1
FFMPEG SRT 视频仅将音频发送到 icecast
所以我知道使用 FFMPEG 你可以阅读 srt://现在我现在您也可以拍摄视频并将其仅转换为音频。但是我们遇到的问题是我们不知道如何只发送视频中的音频srt到icecast服务器到 iceca
.srt 文件中的 FFMPEG 多种样式
我有一个 SRT 文件，想更改各个轨道的背景颜色和透明度。这可能吗，还是我必须采用更高级的格式？这个任务甚至可以在 FFMPEG 中工作吗？ 1 0:0:1,440 --> 0:0:1,970 Y1
ffmpeg 刻录中文字幕(srt)出现错误
我用ffmpeg给视频加中文字幕。并且已经安装了 libass 库。我执行以下命令会出现错误信息 ffmpeg -i video.mp4 -vf "ass=subtitle.srt" -y out.
bash - 我需要一些关于 SRT 字幕文本处理的想法
标题说明了我真正需要的 ATM。基本上我已经创建了一个基于 Tesseract 和 ImageMagick 的 OCR 工具链。我已经设法使输出文本非常一致。我正在使用它对一些旧的硬字幕视频进行 O
java - 从文本读取 srt 文件时出现奇怪的字符
我尝试将文件读取为字符串，我尝试将其编码为 UTF-8 但仍然失败，它在输出中返回一些奇怪的字符。这是我读取文件的函数: private static String readFile(String
JavaScript - 生成 .SRT 文件
我制作了一个脚本来在我的浏览器中编辑我的字幕。不在文本编辑器等中。所以我做了所有事情，我正处于最后阶段，当我单击“保存”按钮下载我编辑的版本时，我的浏览器会按预期自动下载 SRT 文件，但是副标题是显
c++ - 从 .srt 文件中读取时间字符串并更改它的函数
我正在开发一个非常简单的程序，它将接收一个文件的名称和一个数字(您想从该文件延迟多少字幕)，然后将该文件另存为另一个延迟时间的文件。我的问题是如何编写一个可以改变时间的函数。假设文件看起来像这样:
python - 使用正则表达式解析 .srt 文件
我正在用 python 编写一个小脚本，但由于我是新手，所以我被困在了一个部分:我需要从 .srt 文件中获取时间和文本。例如，来自 1 00:00:01,000 --> 00:00:04,074 S
php - 解析 .srt 文件
1 00:00:00,074 --> 00:00:02,564 Previously on Breaking Bad... 2 00:00:02,663 --> 00:00:04,393 Words.
javascript - 从 .SRT 文件中添加或减去秒数
我已经搜索过了，没有找到类似的东西。我想要实现的是创建一个简单的 PHP/js/jq 脚本，它可以从 .srt 文件中添加或减去秒数。我不确定正则表达式是我应该用来实现它还是其他东西。用户将上传/
video - ffmpeg 将视频和 srt 与多行结合起来？
我知道如何通过 ffmpeg 组合视频 1.mp4 和 srt 1.srt 文档， ffmpeg -i 1.mp4 -i 1.srt -map 0 -map 1 -c copy -crf 23 vid
android - MediaPlayer 的字幕功能不工作(SRT 文件)
我正在尝试显示 .srt 文件中的字幕。 (适用于安卓 4.1+)设备中同时存在mp4文件和srt文件。 public class MainActivity extends Activity impl
java - 将 .srt 文件分割成相等的 block
我是新手，我需要将 Srt(字幕文件)分成多个 block 。例如:如果我有一个视频的字幕文件(60 分钟)。然后将字幕文件分割成6个字幕文件，每个字幕文件10分钟。即 6 X 10 = 60 分
java - 字幕编辑器[.srt 到 .ssa]
我一直在研究java上的字幕系统。可以保存正常的 .srt 文件并且字幕显示正常。我希望字幕具有不同的属性，例如 diff 字体/颜色/大小，所有这些属性都未编码在普通 .srt 中，该文件必须保存为
algorithm - KornShell (ksh) 调度算法 (SRT)
我接到了一项任务，要从如下所示的 txt 文件中读取模拟进程。 ID: 35; Arrival_Time: 0; Total_Exec_Time: 4; ID: 65; Arrival_Time: 2
带字幕的 Android MediaPlayer/VideoView (SRT)
Android 的 MediaPlayer 是否支持 SRT 字幕？我试图将 SRT 文件放在与视频文件相同的目录中并命名为相同的文件(当然除了扩展名)，但没有任何运气让它们显示。有什么想法和建议吗？
用于 SRT 字幕的 Java API
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。

首页

博学

6Ren·AI

商城

python - 使用正则表达式解析 .srt 文件