gpt4 book ai didi

google-cloud-platform - Google 的文本转语音 (WaveNet) 质量因长文本而下降

转载 作者:行者123 更新时间:2023-12-02 03:30:33 25 4
gpt4 key购买 nike

将 API 与瑞典语语音 sv-SE-Wavenet-A 结合使用,似乎音频质量会随着文本长度的增加而降低。

短文本:

Det ter sig logiskt att man gått över till tvångsfinansiering av en kanal som under året alltså tappade sex procent av tittartiden. Till slut kommer ingen titta, men alla kommer ändå tvingas betala.

长文本(粗体=上面的短文本):

SVT backade sex procent - endast en tredjedel tittas - tvingas betala ändå Preliminära siffror från mätföretaget MMS visar på att vuxendagiset SVT tappade sex procent av sin tittartid under 2018. Nu tittas det på endast en dryg tredjedel av tiden på SVT, men alla i Sverige tvingas ändå betala sedan årsskiftet. SVT. SVT:s tittarsiffror tappade till 34.9% i så kallad tittartidsandel. Det tvångsfinansierade vuxendagiset har alltså bara en dryg tredjedel av tittartiden, men samtliga med inkomst i Sverige måste likväl betala för detta. Siffrorna från MMS är preliminära och SVT ska ha 34.9% av tittartiden, TV4-gruppen 31.9%, Discovery Networks-gruppen 11.9%, och Nordic Entertainment Group 11.6%. Discovery inkluderar Kanal 5 och Nordic Entertaingment TV3. Det ter sig logiskt att man gått över till tvångsfinansiering av en kanal som under året alltså tappade sex procent av tittartiden. Till slut kommer ingen titta, men alla kommer ändå tvingas betala. Socialism baserar sig på tvång när folk inte frivilligt gör det som socialisterna vill åstakomma. Det är en ren skam att de borgerliga partierna var med och drev igenom tvångsfinansieringen av det konsekvenslösa vuxendagiset. Lämplig åtgärd är att istället koda SVT, så får de som vill betala för detta göra det och övriga slipper. Så kan också SVT falla bort i glömskan. Tills detta sker kommer förstås bloggen bevaka SVT:s felsteg, men kom ihåg att anmälningar till granskningsnämnden ej ska göras då det legitimerar ett sjukt och helt konsekvenslöst meningslöst system. SVT är ett aktiebolag, som besitter beskattningsrätt av svenska folket. Nedanstående kommentarer är inte en del av det redaktionella innehållet och användare ansvarar själva för sina kommentarer. Se även kommentarsreglerna, inklusive listan med kommentatorer som automatiskt kommer raderas på grund av brott mot dessa. Genom att kommentera samtycker du till att din kommentar, tidsstämpel, profillänk och pseudonym sparas av Googles Blogger-system så länge det är relevant, dvs så länge blogginlägget är publicerat.

API请求

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
input: text,
voice: {
languageCode: 'sv-SE',
ssmlGender: 'FEMALE',
name: 'sv-SE-Wavenet-A',
},
audioConfig: {
audioEncoding: 'MP3',
},
})

API 的结果

音频对比首先播放我发送短文本时得到的结果。然后它会播放相同的文本,但从我发送长文本时得到的结果中删除。最后,将它们一起播放。

这是一个错误还是预期的?使用 en-US 或 en-GB 语音时,我根本没有注意到任何质量下降。

我注意到瑞典语音使用与所有其他语音不同的naturalSampleRateHertz,也许这可能会导致此问题?

最佳答案

这可能与使用 MP3 as encoding format 更相关与其他语言的采样率差异相比。由于 MP3 是一种有损格式,因此预计可能会损失一些质量;短文件和长文件之间的差异可能与 MP3 encoding algorithm 有关。正在使用中。

我已经检查了我身边的 Speech Synthesis API ,并且“sv-SE-Wavenet-A”语音似乎使用的是 24000 的naturalSampleRateHertz,因为我检查过的所有wavenet(所有 en-US-Wavenet 语音也都是 24000)。

我会向您推荐change the audioEncoding flag转换为其他编码格式,例如“OGG_OPUS”,这将产生更好的音频质量。

  audioConfig: {
audioEncoding: 'OGG_OPUS',
},

如果MP3格式是必须的,那么您可以更改您这边的格式,这样您就可以在MP3编码中选择您认为方便的参数,以确保最大的音频质量,同时压缩音频文件。

关于google-cloud-platform - Google 的文本转语音 (WaveNet) 质量因长文本而下降,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54074052/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com