- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我使用 OpenAI 的 Whisper用于语音识别的 python 库。我怎样才能给出一些提示短语,因为它可以用其他一些 ASR 来完成,例如 Google ?
用 OpenAI 的 Whisper 转录(在带有 Nvidia GeForce RTX 3090 的 Ubuntu 20.04 x64 LTS 上测试):
conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large
如果使用 Nvidia GeForce RTX 3090,请在 conda activate whisperpy39
之后添加以下内容:
pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch
最佳答案
提示短语/提升的 2 个潜在位置:
https://github.com/openai/whisper/blob/15ab54826343c27cfaf44ce31e9c8fb63d0aa775/whisper/decoding.py#L87-L88 :在 prompt
中添加提示短语(而不是在 prefix
中:请参阅此 discussion 关于 prompt
与 prefix
。有一个 new --initial_prompt
自 commit 2037b65 选项:
whisper audio.mp3 --initial\_prompt "So we were just talking about DALL·E"
https://github.com/openai/whisper/blob/15ab54826343c27cfaf44ce31e9c8fb63d0aa775/whisper/decoding.py#L302 :更改代码以增加包含提示短语的序列的可能性,e.g. :
Currently there's no interface for this other than giving the
initial_prompt
like the above; you could hack something with logit biasing, that effectively boosts the predicted probability of certain tokens. TheLogitFilter
class is designed to support this.
我不知道它的效率如何。此外,当提示词不在词典中时,会出现一个潜在问题,在这种情况下,需要将提示词添加到词典中,这可能很困难。
关于python - 如何给 OpenAI 的 Whisper ASR 一些提示短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73833916/
Anaconda是什么? Anaconda 是一个开源的 Python 发行版本,主要面向数据科学、机器学习和数据分析等领域。它不仅包含了 Python 解释器本身,更重要的是集成了大量的用于科学计
我正在尝试使用中国耳语算法进行人脸聚类。我已经使用 dlib 和 python 为每张脸提取特征并映射到 128 D 向量,如 Davisking 在 https://github.com/davis
我正在尝试删除一些旧的 Graphite 测试耳语指标,但没有成功。我可以通过删除文件来删除指标。 (请参阅:How to cleanup the graphite whisper's data?)但
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
我已配置 Graphite 来监控我的应用程序指标。我配置了 Zabbix 来监控我的服务器 CPU 和其他指标。现在我想将一些关键的 Graphite 指标传递给 Zabbix 来为它们添加触发器。
我正在使用 Whisper在 Swift 中如下: let message = Message(title: message, backgroundColor: FlatOrange())
我使用 OpenAI 的 Whisper用于语音识别的 python 库。如何获取单词级时间戳? 用 OpenAI 的 Whisper 转录(在带有 Nvidia GeForce RTX 3090 的
我使用 OpenAI 的 Whisper用于语音识别的 python 库。我有一些训练数据:要么是纯文本,要么是音频+相应的转录。如何根据我自己的训练数据微调来自 OpenAI 的 Whisper A
我使用 OpenAI 的 Whisper用于语音识别的 python 库。我怎样才能给出一些提示短语,因为它可以用其他一些 ASR 来完成,例如 Google ? 用 OpenAI 的 Whisper
我使用 OpenAI 的 Whisper用于语音识别的 python 库。我有一些训练数据:要么是纯文本,要么是音频+相应的转录。如何根据我自己的训练数据微调来自 OpenAI 的 Whisper A
我使用 OpenAI 的 Whisper用于语音识别的 python 库。我怎样才能给出一些提示短语,因为它可以用其他一些 ASR 来完成,例如 Google ? 用 OpenAI 的 Whisper
我使用 OpenAI 的 Whisper用于语音识别的 python 库。如何获取单词级时间戳? 用 OpenAI 的 Whisper 转录(在带有 Nvidia GeForce RTX 3090 的
我一直在尝试理解 whisper-info.py 的输出,但它对我来说似乎有点神秘。 目前这是我的设置: storage-schema.conf [carbon] pattern = ^carbon\
嗨,我正在尝试构建 Signal Server由 OpenWhisperSystems 提供。每次我发出 mvn clean install 我收到以下错误 [ERROR] Failed to exe
我想以特定的时间间隔播放流媒体 - 如果您愿意的话,可以将其视为一种在线广播。我目前正在使用Icecast但更愿意采用点对点解决方案。我看到 Swarm roadmap 上有一个流式传输的概念证明但周
我正在尝试使用 whisper-merge合并 2 个 wsp 文件。他们有相同的保留策略,一个只是拥有比另一个更旧的数据。 当我运行 whisper-merge oldfile.wsp newfil
我是一名优秀的程序员,十分优秀!