gpt4 book ai didi

python - 将视频帧从 ffmpeg 管道传输到 numpy 数组,而无需将整个电影加载到内存中

转载 作者:行者123 更新时间:2023-12-04 22:45:19 28 4
gpt4 key购买 nike

我不确定我要问的内容是否可行或实用,但我正在尝试尝试以有序但“按需”的方式从视频中加载帧。
基本上我现在要做的是通过管道将整个未压缩的视频读入缓冲区 stdout ,例如:

H, W = 1080, 1920 # video dimensions
video = '/path/to/video.mp4' # path to video

# ffmpeg command
command = [ "ffmpeg",
'-i', video,
'-pix_fmt', 'rgb24',
'-f', 'rawvideo',
'pipe:1' ]

# run ffmpeg and load all frames into numpy array (num_frames, H, W, 3)
pipe = subprocess.run(command, stdout=subprocess.PIPE, bufsize=10**8)
video = np.frombuffer(pipe.stdout, dtype=np.uint8).reshape(-1, H, W, 3)

# or alternatively load individual frames in a loop
nb_img = H*W*3 # H * W * 3 channels * 1-byte/channel
for i in range(0, len(pipe.stdout), nb_img):
img = np.frombuffer(pipe.stdout, dtype=np.uint8, count=nb_img, offset=i).reshape(H, W, 3)
我想知道是否可以在 Python 中执行相同的过程,但无需先将整个视频加载到内存中。在我的脑海中,我正在想象这样的事情:
  • 打开缓冲区
  • 按需寻找内存位置
  • 将帧加载到 numpy 数组

  • 我知道还有其他库,例如 OpenCV,可以实现同样的行为,但我想知道:
  • 是否可以使用这种 ffmpeg-pipe-to-numpy-array 操作有效地执行此操作?
  • 这是否会直接破坏 ffmpeg 的加速优势,而不是通过 OpenCV 搜索/加载或首先提取帧然后加载单个文件?
  • 最佳答案

    在不将整部电影加载到内存中的情况下,寻找和提取帧是可能的,并且相对简单。
    当要查找的请求帧不是 时,会出现一些加速损失。关键帧 .
    当 FFmpeg 被请求寻找非关键帧时,它会寻找到请求帧之前最近的关键帧,并将从关键帧到请求帧的所有帧解码。
    演示代码示例执行以下操作:

  • 使用运行帧计数器构建合成 1fps 视频 - 非常适合测试。
  • 将 FFmpeg 作为子进程执行,并将 stdout 作为输出 PIPE。
    代码示例寻找到第 11 秒,并将持续时间设置为 5 秒。
  • 从 PIPE 读取(并显示)解码的视频帧,直到没有更多帧要读取。

  • 这是代码示例:
    import numpy as np
    import cv2
    import subprocess as sp
    import shlex

    # Build synthetic 1fps video (with a frame counter):
    # Set GOP size to 20 frames (place key frame every 20 frames - for testing).
    #########################################################################
    W, H = 320, 240 # video dimensions
    video_path = 'video.mp4' # path to video
    sp.run(shlex.split(f'ffmpeg -y -f lavfi -i testsrc=size={W}x{H}:rate=1 -vcodec libx264 -g 20 -crf 17 -pix_fmt yuv420p -t 60 {video_path}'))
    #########################################################################


    # ffmpeg command
    command = [ 'ffmpeg',
    '-ss', '00:00:11', # Seek to 11'th second.
    '-i', video_path,
    '-pix_fmt', 'bgr24', # brg24 for matching OpenCV
    '-f', 'rawvideo',
    '-t', '5', # Play 5 seconds long
    'pipe:' ]

    # Execute FFmpeg as sub-process with stdout as a pipe
    process = sp.Popen(command, stdout=sp.PIPE, bufsize=10**8)

    # Load individual frames in a loop
    nb_img = H*W*3 # H * W * 3 channels * 1-byte/channel

    # Read decoded video frames from the PIPE until no more frames to read
    while True:
    # Read decoded video frame (in raw video format) from stdout process.
    buffer = process.stdout.read(W*H*3)

    # Break the loop if buffer length is not W*H*3 (when FFmpeg streaming ends).
    if len(buffer) != W*H*3:
    break

    img = np.frombuffer(buffer, np.uint8).reshape(H, W, 3)

    cv2.imshow('img', img) # Show the image for testing
    cv2.waitKey(1000)

    process.stdout.close()
    process.wait()
    cv2.destroyAllWindows()

    笔记:
    论据 -t 5当预先知道播放时长时是相关的。
    如果事先不知道播放时长,您可以删除 -t并在需要时打破循环。

    时间测量:
  • 测量一次读取所有帧。
  • 在循环中逐帧测量阅读量。
  • # 6000 frames:
    sp.run(shlex.split(f'ffmpeg -y -f lavfi -i testsrc=size={W}x{H}:rate=1 -vcodec libx264 -g 20 -crf 17 -pix_fmt yuv420p -t 6000 {video_path}'))

    # ffmpeg command
    command = [ 'ffmpeg',
    '-ss', '00:00:11', # Seek to 11'th second.
    '-i', video_path,
    '-pix_fmt', 'bgr24', # brg24 for matching OpenCV
    '-f', 'rawvideo',
    '-t', '5000', # Play 5000 seconds long (5000 frames).
    'pipe:' ]



    # Load all frames into numpy array
    ################################################################################
    t = time.time()

    # run ffmpeg and load all frames into numpy array (num_frames, H, W, 3)
    process = sp.run(command, stdout=sp.PIPE, bufsize=10**8)
    video = np.frombuffer(process.stdout, dtype=np.uint8).reshape(-1, H, W, 3)

    elapsed1 = time.time() - t
    ################################################################################


    # Load load individual frames in a loop
    ################################################################################
    t = time.time()

    # Execute FFmpeg as sub-process with stdout as a pipe
    process = sp.Popen(command, stdout=sp.PIPE, bufsize=10**8)

    # Read decoded video frames from the PIPE until no more frames to read
    while True:
    # Read decoded video frame (in raw video format) from stdout process.
    buffer = process.stdout.read(W*H*3)

    # Break the loop if buffer length is not W*H*3 (when FFmpeg streaming ends).
    if len(buffer) != W*H*3:
    break

    img = np.frombuffer(buffer, np.uint8).reshape(H, W, 3)

    elapsed2 = time.time() - t

    process.wait()


    ################################################################################

    print(f'Read all frames at once elapsed time: {elapsed1}')
    print(f'Read frame by frame elapsed time: {elapsed2}')

    结果: Read all frames at once elapsed time: 7.371837854385376 Read frame by frame elapsed time: 10.089557886123657结果表明,逐帧阅读存在一定的开销。
  • 开销相对较小。
    开销有可能与 Python 而不是 FFmpeg 相关。
  • 关于python - 将视频帧从 ffmpeg 管道传输到 numpy 数组,而无需将整个电影加载到内存中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67352282/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com