gpt4 book ai didi

android - FFMpeg 库 : how to precisely seek in an audio file

转载 作者:塔克拉玛干 更新时间:2023-11-02 22:40:24 25 4
gpt4 key购买 nike

在我的 Android 应用程序中使用 FFMpeg 库,我尝试了解如何在音频文件中非常精确的位置进行搜索。

例如,我想将文件中的当前位置设置为 #1234567 帧(在以 44100 Hz 编码的文件中),这相当于在 27994.717 毫秒处寻找。

为此,我尝试了以下方法:

// this:
av_seek_frame(formatContext, -1, 27994717, 0);

// or this:
av_seek_frame(formatContext, -1, 27994717, AVSEEK_FLAG_ANY);

// or even this:
avformat_seek_file(formatContext, -1, 27994617, 27994717, 27994817, 0);

使用以微秒为单位的位置给了我迄今为止最好的结果。

但由于某种原因,定位并不完全准确:当我从音频文件中提取样本时,它并没有准确地从预期位置开始。有大约 30-40 毫秒的轻微延迟(即使我寻找位置 0,令人惊讶的是......)。

我使用函数的方式是否正确,甚至是正确的函数?

编辑

以下是我如何获得该职位:

AVPacket packet;
AVStream *stream = NULL;
AVFormatContext *formatContext = NULL;
AVCodec *dec = NULL;

// initialization:
avformat_open_input(&formatContext, filename, NULL, NULL);
avformat_find_stream_info(formatContext, NULL);
int audio_stream_index = av_find_best_stream(formatContext, AVMEDIA_TYPE_AUDIO, -1, -1, &dec, 0);
stream = formatContext->streams[audio_stream_index];

...

// later, when I extract samples, here is how I get my position, in microseconds:
av_read_frame(formatContext, &packet);
long position = (long) (1000000 * (packet.pts * ((float) stream->time_base.num / stream->time_base.den)));

感谢那段代码,我可以获得当前帧的开始位置(帧 = 样本 block ,大小取决于音频格式 - mp3 为 1152 个样本,ogg 为 128 到 1152,.. .)

问题是:我在 position 中得到的值不准确:实际上大约晚了 30 毫秒。比如说1000000,实际持仓大概是1030000...

我做错了什么?它是 FFMpeg 中的错误吗?

感谢您的帮助。

最佳答案

晚了,但希望对某人有所帮助。这个想法是在搜索时保存时间戳,然后将 AVPacket->pts 与这个值进行比较(你可以用 AVStream->dts 来做,但它并没有给出好的结果结果在我的实验中)。如果 pts 仍然低于我们的目标时间戳,则使用 AVPacket->side_dataAV_PKT_DATA_SKIP_SAMPLES 能力跳过帧。

求方法代码:

void audio_decoder::seek(float seconds) {
auto stream = m_format_ctx->streams[m_packet->stream_index];

// convert seconds provided by the user to a timestamp in a correct base,
// then save it for later.
m_target_ts = av_rescale_q(seconds * AV_TIME_BASE, AV_TIME_BASE_Q, stream->time_base);

avcodec_flush_buffers(m_codec_ctx.get());

// Here we seek within given stream index and the correct timestamp
// for that stream. Using AVSEEK_FLAG_BACKWARD to make sure we're
// always *before* requested timestamp.
if(int err = av_seek_frame(m_format_ctx.get(), m_packet->stream_index, m_target_ts, AVSEEK_FLAG_BACKWARD)) {
error("audio_decoder: Error while seeking ({})", av_err_str(err));
}
}

以及解码方法的代码:

void audio_decoder::decode() {
<...>

while(is_decoding) {
// Read data as usual.
av_read_frame(m_format_ctx.get(), m_packet.get());

// Here is the juicy part. We were seeking, but the seek
// wasn't precise enough so we need to drop some frames.
if(m_packet->pts > 0 && m_target_ts > 0 && m_packet->pts < m_target_ts) {
auto stream = m_format_ctx->streams[m_packet->stream_index];

// Conversion from delta timestamp to frames.
auto time_delta = static_cast<float>(m_target_ts - m_packet->pts) / stream->time_base.den;
int64_t skip_frames = time_delta * m_codec_ctx->time_base.den / m_codec_ctx->time_base.num;

// Next step: we need to provide side data to our packet,
// and it will tell the codec to drop frames.
uint8_t *data = av_packet_get_side_data(m_packet.get(), AV_PKT_DATA_SKIP_SAMPLES, nullptr);
if(!data) {
data = av_packet_new_side_data(m_packet.get(), AV_PKT_DATA_SKIP_SAMPLES, 10);
}

// Define parameters of side data. You can check them here:
// https://ffmpeg.org/doxygen/trunk/group__lavc__packet.html#ga9a80bfcacc586b483a973272800edb97
*reinterpret_cast<uint32_t*>(data) = skip_frames;
data[8] = 0;
}

// Send packet as usual.
avcodec_send_packet(m_codec_ctx.get(), m_packet.get());

// Proceed to the receiving frames as usual, nothing to change there.
}
<...>
}

如果没有上下文不清楚,你可以在我的项目中查看相同的代码audio_decoder.cpp .

关于android - FFMpeg 库 : how to precisely seek in an audio file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53015621/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com