python - tf.contrib.signal.stft 返回一个空矩阵-6ren

python - tf.contrib.signal.stft 返回一个空矩阵

转载作者：行者123 更新时间：2023-12-02 21:19:15

25

4

这是我运行的一段代码:

import tensorflow as tf

sess = tf.InteractiveSession()

filename = 'song.mp3' # 30 second mp3 file
SAMPLES_PER_SEC = 44100

audio_binary = tf.read_file(filename)

pcm = tf.contrib.ffmpeg.decode_audio(audio_binary, file_format='mp3', samples_per_second=SAMPLES_PER_SEC, channel_count = 1)
stft = tf.contrib.signal.stft(pcm, frame_length=1024, frame_step=512, fft_length=1024)

sess.close()

mp3 文件被正确解码，因为 print(pcm.eval().shape)返回:

(1323119, 1)

当我用 print(pcm.eval()[1000:1010]) 打印它们时，甚至还有一些实际的非零值。 :

[[ 0.18793298]
 [ 0.16214484]
 [ 0.16022217]
 [ 0.15918455]
 [ 0.16428113]
 [ 0.19858395]
 [ 0.22861415]
 [ 0.2347789 ]
 [ 0.22684409]
 [ 0.20728172]]

但是由于某种原因 print(stft.eval().shape)评估为:

(1323119, 0, 513) # why the zero dimension?

因此 print(stft.eval())是:

[]

根据 this tf.contrib.signal.stft 的第二个维度输出等于帧数。为什么没有框架呢？

最佳答案

看来tf.contrib.ffmpeg.decode_audio返回一个形状为 (?, 1) 的张量这是 ? 的一个信号 sample 。

然而tf.contrib.signal.stft预计 (signal_count, samples)张量作为输入，因此必须事先对其进行转置。

像这样修改调用可以解决问题:

stft = tf.contrib.signal.stft(tf.transpose(pcm), frame_length=1024, frame_step=512, fft_length=1024)

关于python - tf.contrib.signal.stft 返回一个空矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47729101/

25

4

0

文章推荐： java - 安装Chronix

文章推荐： reactjs - 用于在一个文件中导出模块的 es6 语法

文章推荐： android - 动态设置底板的最大展开高度

文章推荐： docker - 可以从不是容器的Docker镜像检索文件吗？

audio - readAudio-> cropAudio-> STFT == readAudio-> STFT-> cropAudio
以下是否相同？读取音频文件，然后将其裁剪为特定的帧长，并在摘录中执行短时傅立叶变换代码:stft(cropAudio(readAudio(wav))) 读取音频文件，然后对整个音频文件执行短时傅立
python - STFT 生成的重叠帧数
我使用scipy.signal.stft来获取音频的stft。没问题，我正在得到结果。但我不明白的是，当使用采样率为fs=44100 Hz的169600个样本的音频来计算stft时，我得到 3 个返回
Python:从 STFT 重建音频文件
作为一个简单的实验，我想计算 stft音频文件: sample_rate, samples = wav.read(file) f, t, Zxx = stft(samples, sample_rate
python - 如何应用二进制掩码和 STFT 来生成音频文件？
所以这里的想法是:您可以使用短时傅里叶变换 (stft) 从音频文件生成频谱图。然后有些人生成了一种称为“二进制掩码”的东西，以从反向 stft 生成不同的音频(即，去除背景噪声等)。以下是我的理解
python - Matplotlib 频谱图与 STFT
我目前正在使用 matplotlib 计算频谱图。我指定 NFFT=512，但生成的图像高度为 257。然后，我尝试执行 STFT(短时傅里叶变换)，它给出了 512 维向量(如预期)。如果我绘制 S
python - Librosa 音调跟踪 - STFT
我正在使用 this检测音高的算法 this音频文件。正如您所听到的，这是在吉他上弹奏的 E2 音符，背景中有一点噪音。我使用 STFT 生成了这个频谱图: 我正在像这样使用上面链接的算法: y,
signal-processing - STFT/FFT 工作流程顺序
我正在尝试实现 FFT，我对代码等没问题，但事情的一般顺序让我感到困惑。我认为这是正确的事情顺序吗？输入 -> 重叠输入 -> 窗口化 -> FFT -> 相位计算/重叠补偿 -> 输出我得到的
fft - STFT 澄清(实时输入的 FFT)
我通过相关了解了 DFT 的工作原理，并将其用作理解 FFT 结果的基础。如果我有一个以 44.1kHz 采样的离散信号，那么这意味着如果我要获取 1 秒的数据，我将有 44,100 个样本。为了对其
python - 使用 SciPy stft 函数指定短时傅里叶变换段中的样本数
我想对我的数据执行短时傅里叶变换，并为每个段指定特定的样本长度。我想使用信号子模块中的 SciPy 函数 stft。但是，当我通过以下方式创建长度 10e5 的音频数组时: fs = 10e3 # S
c++ - 实时数据的 STFT/滑动 FFT
我最近接手了一个项目，我需要对传入的麦克风数据执行实时滑动 FFT 分析。我选择执行此操作的环境是 OpenGL 和 Cinder，并使用 C++。这是我第一次接触音频编程，我有点困惑。这就是我试
python - 在 Librosa 中获取与 STFT 相关的频率
使用时librosa.stft()要计算频谱图，如何取回相关的频率值？我对生成图像不感兴趣，如 librosa.display.specshow ，而是我想要掌握这些值。 y, sr = libros
python - tf.contrib.signal.stft 返回一个空矩阵
这是我运行的一段代码: import tensorflow as tf sess = tf.InteractiveSession() filename = 'song.mp3' # 30 second
python - 模块 'scipy.signal' 没有属性 'stft'
根据文档，有一个 scipy.signal.stft 但是当尝试访问该函数时，我从标题中收到错误。该函数记录在 here . 此外，scip.signal.istft 也不存在。有什么建议吗？最佳答
fft - 在 Julia 中实现 STFT(短时傅立叶变换)的最佳方法是什么
所以，我想知道如何实现 STFT在 Julia 中，可能使用汉明窗。我在互联网上找不到任何东西。最好的方法是什么？我宁愿不使用 Python 库，但如果可能的话，我宁愿使用纯原生的 Julia。也许
python - scipy.signal.spectrogram 和 scipy.signal.stft 有什么区别？
函数 spicy.signal.spectrogram:https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.spectr
python - 如何通过 pywt 从 wav 文件中获取 2D 小波(如 stft)？
我正在尝试从声音文件(.wav)中获取特征；我尝试过 stft 来获取 2D 特征(x 是时间，y 是频率) 我尝试过 pywt，但得到的是一维数组。如果我输入一个 1D (1000,) wav 数
python - python librosa.core.stft() 和 matlab spectrogram(x) 的输出之间的区别
我正在将 Python 代码转换为 MATLAB。 Python 代码，使用以下命令: stft_ch = librosa.core.stft(audio_input[:, ch_cnt], n_ff
python - 使用 tensorflow.contrib.signal 重建信号会导致放大或调制(帧、overlap_and_add、stft 等)
更新:我在 librosa 中重新实现了这个来进行比较，结果确实与 tensorflow 的结果有很大不同。 Librosa 给出了我期望的结果(但不是 tensorflow)。我已将其发布为 is
pytorch - 如何在基于 arm 的 CPU 上模拟/运行使用 ATen STFT 实现的 PyTorch 模型？
我正在尝试在没有 gpu 的基于 arm 的设备上为 ASR 运行我的 PyTorch 模型。据我所知，arm 不支持 ATen 使用的 MKL。自然地，当我尝试进行推理时会收到以下错误: Runti

首页

博学

6Ren·AI

商城

python - tf.contrib.signal.stft 返回一个空矩阵