bash - 我需要一些关于 SRT 字幕文本处理的想法-6ren

bash - 我需要一些关于 SRT 字幕文本处理的想法

转载作者：行者123 更新时间：2023-12-04 10:45:49

标题说明了我真正需要的 ATM。
基本上我已经创建了一个基于 Tesseract 和 ImageMagick 的 OCR 工具链。我已经设法使输出文本非常一致。我正在使用它对一些旧的硬字幕视频进行 OCR，并将它们制作成软字幕 SRT 字幕。为了获取图像输入的屏幕截图，我使用了我很久以前发现并重写的旧 shell 脚本的修改版本。这些被输入到第二个脚本中，该脚本将它们处理成 Tessaract 可读的形式。在这一点上，我可以轻松地手动完成剩余的工作，但如果可能的话，我想自动化除最终校对之外的所有工作。
示例文本(来自当前项目)

03:04.418  Their parents have always written    letters thanking us. =  
03:05.018  Their parents have always written    letters thanking us. =  
03:05.619  Their parents have always written    letters thanking us. =  
03:06.219  Their parents have always written    letters thanking us. =  
03:06.820  Their parents have always written    letters thanking us. =  
03:07.421  Their parents have always written    letters thanking us. =  
03:08.021  Their parents have always written    letters thanking us. =  
03:08.622  This seminary was highly reeemmended.    | am relieved te leave her in your care. =  
03:09.222  This seminary was highly reeemmended.    | am relieved te leave her in your care. =  
03:09.823  This seminary was highly reeemmended.    | am relieved te leave her in your care. =  
03:10.424  This seminary was highly reeemmended.    | am relieved te leave her in your care. =  
03:11.024  This seminary was highly reeemmended.    | am relieved te leave her in your care. =  
03:11.625  This seminary was highly reeemmended.    | am relieved te leave her in your care. =  
03:12.225  In additien te all the previeus requests se far..."  
03:12.826  In additien te all the previeus requests se far..."  
03:13.427  In additien te all the previeus requests se far..."  
03:14.027  In additien te all the previeus requests se far..."  
03:14.628  In additien te all the previeus requests se far..."

基本上我想匹配文本并从第一行和最后一行中提取时间戳并将它们设置为 srt 格式

1
00:03:04,418 --> 00:03:08,021
Their parents have always written
letters thanking us. =  

2
00:03:08,622 --> 00:03:08,622
This seminary was highly reeemmended
| am relieved te leave her in your care. = 

3
00:03:12,225 --> 00:03:14,628
In additien te all the previeus requests se far..."

在这一点上，我认为它是一个单独的脚本。
基本上 sub.txt 在 sub.srt 中。然后做一个校对通行证。现在检测到的文本中有一些可变性，但它是最小的。我偶尔会被检测为 |或 [ ，它有时会在一些奇怪的极端情况下混淆 o 和 e。
2020 年 2 月 2 日编辑:
我进行了一些更改和调整，以进一步获得我想要的。到我的 shell 脚本和 Ivans。我已经消除了 ivans 脚本和我的脚本生成的空白子行。
更新处理和 ocr 脚本 BTW

#!/bin/bash -x
 
cd "$1"
mkdir ocr

for f in *.png ;
do
base="$(basename "$f" | cut -d "." -f 1,2)"
echo "$base"
if [[ -z "$2" ]] ; 
then
tran="$(convert "$f"  -separate -average  -crop +0+720 -threshold 11% -fill black -draw 'color 700,10 floodfill' +repage ocr/"$base".png)"
  
else
tran="$(convert "$f"  -separate -average  -crop +0+720 -negate -threshold 15% -fill white -draw 'color 700,10 floodfill' +repage ocr/"$base".png)"
  
fi 
$tran
cd ocr
magick mogrify -pointsize 50 -fill blue -draw 'text 1400,310 "L" ' +repage "$base".png
cd ..


done
cd ocr
for i in *.png ;
do base2="$(basename "$i" | cut -d "." -f 1,2 | cut -d ":" -f 2,3)"
tesseract "$i" stdout -c page_separator='' --psm 6 --oem 1 --dpi 300 | { tr '\n' ' '; tr -s  [:space:] ' ';  echo; } >> text.txt
echo "$base2""  " >> time.txt

done
awk '{printf ("%s", $0); getline < "text.txt"; print $0 }' time.txt >> out.txt
sed -i 's/|/I/g' out.txt
sed -i 's/\[/I/g' out.txt
#sed -i 's/L//g' out.txt
#sed -i 's/=//g' out.txt
sed -i 's/.$//' out.txt
sed -i 's/.$//' out.txt

while read line ; do
sed "/[[:alpha:]]/ !d" >> sub.txt
done <out.txt
exit

制作蓝色 L 的部分是确保每一行都包含用于时间戳匹配的内容。
更新的 IVAN SRT 脚本

#!/bin/bash -x

sub="$1"            # path to sub file
OLD=$IFS            # remember current delimiter
IFS=$'\n'           # set delimiter to the new line
raw=( $(cat $sub) ) # load sub into raw array
IFS=$OLD            # set default delimiter back

reset () {
    unset raw[0]        # remove 1-st item from array
    raw=( "${raw[@]}" ) # rearange array
}

output () {
   
    printf "00:$time1 --> 00:$time3\n$text1\n\n"
    
    }

speen () {
    time3=$time2
    reset
    test=( "${raw[@]::2}" ) # get two more items
    test2=( ${test[0]} )    # split 2-nd item
    time2=${test2[0]}       # get 2-nd timing
    text2=${test2[@]:1}     # get 2-nd text
    
    # if only one item in test than this is the end, return
    
            
    [[ "${test[1]}" ]] || { printf "00:$time1 --> 00:$time2\n$text1\n\n"; raw=; return; }
    #   compare,     speen more if match,  print ang go further if not 
    
    [[ "$text1" == "$text2" ]] && speen || output
}

N=1 # set counter
while [[ "${raw[@]}" ]]; do # loop through data
    echo $((N++))       # print and inc counter
    test1=( $raw )      # get 1-st item
    time1=${test1[0]}   # get 1-st timing
    text1=${test1[@]:1}
    # get 1-st text
    speen
done

我刚刚添加了第三个时间变量以将旧的 time2 值保存为 time3。基本上消除空白时间戳行破坏了他的匹配。我意识到 time2 是第一个不匹配的时间戳。所以我需要保存上一个循环中的前一个。因此 time3=$time2然后休息 time2 值。然后使用旧的time2(现在的time3)打印子字符串。

最佳答案

以此结束

#!/bin/bash

sub=file            # path to sub file
OLD=$IFS            # remember current delimiter
IFS=$'\n'           # set delimiter to the new line
raw=( $(cat $sub) ) # load sub into raw array
IFS=$OLD            # set default delimiter back

reset () {
    unset raw[0]        # remove 1-st item from array
    raw=( "${raw[@]}" ) # rearange array
}

output () {
    text1=${text1//|/I} # change | to I in text
    text1=${text1//[/I} # change [ to I in text
    printf "$time1 --> $time2\n$text1\n\n"    
}

speen () {
    reset
    test=( "${raw[@]::2}" ) # get two more items
    test2=( ${test[0]} )    # split 2-nd item
    time2=${test2[0]}       # get 2-nd timing
    text2=${test2[@]:1}     # get 2-nd text
    # if only one item in test than this is the end, return
    [[ "${test[1]}" ]] || { printf "$time1 --> $time2\n$text1\n\n"; raw=; return; }
    #   compare,     speen more if match,  print ang go further if not 
    [[ "$text1" == "$text2" ]] && speen || output
}

N=1 # set counter
while [[ "${raw[@]}" ]]; do # loop through data
    echo $((N++))       # print and inc counter
    test1=( $raw )      # get 1-st item
    time1=${test1[0]}   # get 1-st timing
    text1=${test1[@]:1} # get 1-st text
    speen
done

关于bash - 我需要一些关于 SRT 字幕文本处理的想法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59713297/

文章推荐： python - PyCryptoDome/Python 中 AES-CFB 的加密不等式

文章推荐： ruby - 如何使用 Watir 在没有图像的情况下启动 Chrome？

文章推荐： Spring Boot Rest - 如何接受多个 header

文章推荐： php - Woocommerce，删除产品页面上的价格

regex - 使用正则表达式解析字幕(srt)
我想用正则表达式解析字幕。但不匹配多行文本。正则表达式代码: (?(\d+))\n(?([\d:,]+))[\s-{2}\>]+(?([\d:,]+))\n(?(.+|\n)) https://re
C# - 用于获取文本内容的正则表达式字幕文件 (.srt)？
我有一个srt文件 1 00:00:07,000 --> 00:00:09,000 Time to amaze the world.. create by Hazy 2 00:00:11,000 --
nginx - FFMPEG SRT 多个调用者进入一个听众？
我正在使用这条线: exec_push /home/production/bin/ffmpeg -i rtmp://localhost:1935/live/slot4 -codec copy -g 1
FFMPEG SRT 视频仅将音频发送到 icecast
所以我知道使用 FFMPEG 你可以阅读 srt://现在我现在您也可以拍摄视频并将其仅转换为音频。但是我们遇到的问题是我们不知道如何只发送视频中的音频srt到icecast服务器到 iceca
.srt 文件中的 FFMPEG 多种样式
我有一个 SRT 文件，想更改各个轨道的背景颜色和透明度。这可能吗，还是我必须采用更高级的格式？这个任务甚至可以在 FFMPEG 中工作吗？ 1 0:0:1,440 --> 0:0:1,970 Y1
ffmpeg 刻录中文字幕(srt)出现错误
我用ffmpeg给视频加中文字幕。并且已经安装了 libass 库。我执行以下命令会出现错误信息 ffmpeg -i video.mp4 -vf "ass=subtitle.srt" -y out.
bash - 我需要一些关于 SRT 字幕文本处理的想法
标题说明了我真正需要的 ATM。基本上我已经创建了一个基于 Tesseract 和 ImageMagick 的 OCR 工具链。我已经设法使输出文本非常一致。我正在使用它对一些旧的硬字幕视频进行 O
java - 从文本读取 srt 文件时出现奇怪的字符
我尝试将文件读取为字符串，我尝试将其编码为 UTF-8 但仍然失败，它在输出中返回一些奇怪的字符。这是我读取文件的函数: private static String readFile(String
JavaScript - 生成 .SRT 文件
我制作了一个脚本来在我的浏览器中编辑我的字幕。不在文本编辑器等中。所以我做了所有事情，我正处于最后阶段，当我单击“保存”按钮下载我编辑的版本时，我的浏览器会按预期自动下载 SRT 文件，但是副标题是显
c++ - 从 .srt 文件中读取时间字符串并更改它的函数
我正在开发一个非常简单的程序，它将接收一个文件的名称和一个数字(您想从该文件延迟多少字幕)，然后将该文件另存为另一个延迟时间的文件。我的问题是如何编写一个可以改变时间的函数。假设文件看起来像这样:
python - 使用正则表达式解析 .srt 文件
我正在用 python 编写一个小脚本，但由于我是新手，所以我被困在了一个部分:我需要从 .srt 文件中获取时间和文本。例如，来自 1 00:00:01,000 --> 00:00:04,074 S
php - 解析 .srt 文件
1 00:00:00,074 --> 00:00:02,564 Previously on Breaking Bad... 2 00:00:02,663 --> 00:00:04,393 Words.
javascript - 从 .SRT 文件中添加或减去秒数
我已经搜索过了，没有找到类似的东西。我想要实现的是创建一个简单的 PHP/js/jq 脚本，它可以从 .srt 文件中添加或减去秒数。我不确定正则表达式是我应该用来实现它还是其他东西。用户将上传/
video - ffmpeg 将视频和 srt 与多行结合起来？
我知道如何通过 ffmpeg 组合视频 1.mp4 和 srt 1.srt 文档， ffmpeg -i 1.mp4 -i 1.srt -map 0 -map 1 -c copy -crf 23 vid
android - MediaPlayer 的字幕功能不工作(SRT 文件)
我正在尝试显示 .srt 文件中的字幕。 (适用于安卓 4.1+)设备中同时存在mp4文件和srt文件。 public class MainActivity extends Activity impl
java - 将 .srt 文件分割成相等的 block
我是新手，我需要将 Srt(字幕文件)分成多个 block 。例如:如果我有一个视频的字幕文件(60 分钟)。然后将字幕文件分割成6个字幕文件，每个字幕文件10分钟。即 6 X 10 = 60 分
java - 字幕编辑器[.srt 到 .ssa]
我一直在研究java上的字幕系统。可以保存正常的 .srt 文件并且字幕显示正常。我希望字幕具有不同的属性，例如 diff 字体/颜色/大小，所有这些属性都未编码在普通 .srt 中，该文件必须保存为
algorithm - KornShell (ksh) 调度算法 (SRT)
我接到了一项任务，要从如下所示的 txt 文件中读取模拟进程。 ID: 35; Arrival_Time: 0; Total_Exec_Time: 4; ID: 65; Arrival_Time: 2
带字幕的 Android MediaPlayer/VideoView (SRT)
Android 的 MediaPlayer 是否支持 SRT 字幕？我试图将 SRT 文件放在与视频文件相同的目录中并命名为相同的文件(当然除了扩展名)，但没有任何运气让它们显示。有什么想法和建议吗？
用于 SRT 字幕的 Java API
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

bash - 我需要一些关于 SRT 字幕文本处理的想法