python - Azure 发音评估 SDK 与 api 调用相比返回错误结果-6ren

python - Azure 发音评估 SDK 与 api 调用相比返回错误结果

转载作者：行者123 更新时间：2023-12-03 02:02:43

24

4

我正在使用azure语音sdk进行发音评估，当我使用azure提供的api时它工作正常，但是当我使用语音sdk时结果不正确。我遵循 cognitive services speech sdk 中的示例

这是我用于sdk的代码

    def speech_recognition_with_pull_stream(self):
    class WavFileReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):
        def __init__(self, filename: str):
            super().__init__()
            self._file_h = wave.open(filename, mode=None)

            self.sample_width = self._file_h.getsampwidth()

            assert self._file_h.getnchannels() == 1
            assert self._file_h.getsampwidth() == 2
            # assert self._file_h.getframerate() == 16000  #comment this line because every .wav file read is 48000
            assert self._file_h.getcomptype() == 'NONE'

        def read(self, buffer: memoryview) -> int:
            size = buffer.nbytes
            print(size)
            print(len(buffer))
            frames = self._file_h.readframes(len(buffer) // self.sample_width)

            buffer[:len(frames)] = frames

            return len(frames)

        def close(self):
            self._file_h.close()

    speech_key = os.getenv('AZURE_SUBSCRIPTION_KEY')
    service_region = os.getenv('AZURE_REGION')
    speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)

    # specify the audio format
    wave_format = speechsdk.audio.AudioStreamFormat(samples_per_second=16000, bits_per_sample=16, channels=1)

    # setup the audio stream
    callback = WavFileReaderCallback('/Users/146072/Downloads/58638f26-ed07-40b7-8672-1948c814bd69.wav')
    stream = speechsdk.audio.PullAudioInputStream(callback, wave_format)
    audio_config = speechsdk.audio.AudioConfig(stream=stream)

    # instantiate the speech recognizer with pull stream input
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config, language='en-US')

    reference_text = 'We had a great time taking a long walk outside in the morning'
    pronunciation_assessment_config = speechsdk.PronunciationAssessmentConfig(
        reference_text=reference_text,
        grading_system=PronunciationAssessmentGradingSystem.HundredMark,
        granularity=PronunciationAssessmentGranularity.Word,
    )
    pronunciation_assessment_config.phoneme_alphabet = "IPA"
    pronunciation_assessment_config.apply_to(speech_recognizer)
    speech_recognition_result = speech_recognizer.recognize_once()
    print(speech_recognition_result.text)

    # The pronunciation assessment result as a Speech SDK object
    pronunciation_assessment_result = speechsdk.PronunciationAssessmentResult(speech_recognition_result)
    print(pronunciation_assessment_result)

    # The pronunciation assessment result as a JSON string
    pronunciation_assessment_result_json = speech_recognition_result.properties.get(
        speechsdk.PropertyId.SpeechServiceResponse_JsonResult
    )
    print(pronunciation_assessment_result_json)

    return json.loads(pronunciation_assessment_result_json)

这是 sdk 的结果

"PronunciationAssessment": {
    "AccuracyScore": 26,
    "FluencyScore": 9,
    "CompletenessScore": 46,
    "PronScore": 19.8
  },

这里是api调用的代码

    def ackaud(self):
    #    f.save(audio)
    # print('file uploaded successfully')

    # a generator which reads audio data chunk by chunk
    # the audio_source can be any audio input stream which provides read() method, e.g. audio file, microphone, memory stream, etc.
    def get_chunk(audio_source, chunk_size=1024):
        while True:
            # time.sleep(chunk_size / 32000) # to simulate human speaking rate
            chunk = audio_source.read(chunk_size)
            if not chunk:
                # global uploadFinishTime
                # uploadFinishTime = time.time()
                break
            yield chunk

    # build pronunciation assessment parameters
    referenceText = 'We had a great time taking a long walk outside in the morning. '

    pronAssessmentParamsJson = "{\"ReferenceText\":\"%s\",\"GradingSystem\":\"HundredMark\",\"Dimension\":\"Comprehensive\",\"EnableMiscue\":\"True\"}" % referenceText
    pronAssessmentParamsBase64 = base64.b64encode(bytes(pronAssessmentParamsJson, 'utf-8'))
    pronAssessmentParams = str(pronAssessmentParamsBase64, "utf-8")

    subscription_key = os.getenv('AZURE_SUBSCRIPTION_KEY')
    region = os.getenv('AZURE_REGION')

    # build request
    url = "https://%s.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=%s&usePipelineVersion=0" % (
    region, 'en-US')
    headers = {'Accept': 'application/json;text/xml',
               'Connection': 'Keep-Alive',
               'Content-Type': 'audio/wav; codecs=audio/pcm; samplerate=16000',
               'Ocp-Apim-Subscription-Key': subscription_key,
               'Pronunciation-Assessment': pronAssessmentParams,
               'Transfer-Encoding': 'chunked',
               'Expect': '100-continue'}

    audioFile = open('/Users/146072/Downloads/58638f26-ed07-40b7-8672-1948c814bd69.wav', 'rb')
    # audioFile = f
    # send request with chunked data
    response = requests.post(url=url, data=get_chunk(audioFile), headers=headers)
    # getResponseTime = time.time()
    audioFile.close()

    # latency = getResponseTime - uploadFinishTime
    # print("Latency = %sms" % int(latency * 1000))

    return response.json()

这是 api 的结果

"AccuracyScore": 100,
"FluencyScore": 100,
"CompletenessScore": 100,
"PronScore": 100,

我的设置有什么问题吗？非常感谢。

最佳答案

安装最新的语音 SDK 1.26.0，因为 REST API 使用普遍可用的版本 3.1。

这是document安装语音SDK。

关于python - Azure 发音评估 SDK 与 api 调用相比返回错误结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/75606993/

24

4

0

文章推荐： javascript - 在 JavaScript 双 for 循环中更新 HTML 进度条？

文章推荐： sql-server - 无法使用域凭据从 PowerShell 连接到 SQL Server

sdk - 如何获取OpenCL SDK？
我正在细读 http://www.khronos.org/网站，只找到了 OpenCL 的头文件(不是我不关心的 OpenGL)。如何获取 OpenCL SDK？最佳答案 AMD 的 ATI Str
android - 最小 sdk 级别太低(如 8 sdk 级别)和目标 sdk 更高 sdk 级别(如 23 sdk 级别)有什么影响？
Android 项目中最低(最低 sdk)和最高(目标 sdk)级别是否有任何影响。这些东西是否会影响项目的可靠性和效率。最佳答案没有影响，如果您以 SDK 级别 8 为目标，那么您的应用将以 9
android - 最小 SDK 版本/目标 SDK 版本与编译 SDK 版本有什么区别？
“min sdk version/target sdk version”和“compile sdk version”有什么区别？我知道 min 和 target sdk 是什么意思，但是 compil
android - DJI Mobile Sample Sdk Android - SDK 注册失败 [dji-sdk]
我正在尝试运行 Dji Mobile-Sdk-Android:https://github.com/dji-sdk/Mobile-SDK-Android使用 dji 网站上的说明:https://de
iphone - 新的 Facebook IOS SDK？我们可以将旧 sdk 与新 sdk 一起使用吗？
我目前正在向我的 iPhone 应用程序添加新的 Facebook iOS sdk 3.1.1。我看到 sdk 有重大变化。例如。我的旧 sdk 创建一个 Facebook 对象并从 FBReques
iphone - 与 iphone SDK 的版本兼容性。 tar 使用更高版本的 sdk 获取旧版本的 sdk
我最近刚刚下载了 Xcode 4.6 with mac 10.8.4 with iOS 6.0 SDK package，我立即注意到我无法使用我的 iPhone 3Gs with iOS 4.6 进行
sdk - 从哪里获得 OpenCL SDK？
我尝试下载 OpenCL SDK。但是没办法。我有一个 AMD GPU，所以我在谷歌上搜索了 AMD SDK，但是来自谷歌的所有链接和一些教程都被破坏了，不可能通过 AMD 开发者网站找到 sdk。
sdk - 谷歌云 SDK 身份验证
安装 Google Cloud SDK 后，当我运行时 gcloud 授权登录我收到一条错误消息: Your browser has been opened to visit: https://a
sdk - 从哪里下载 CUDA SDK
我一直在 nvidia 网站上搜索 GPU 计算 SDK，因为我正在尝试构建具有 cuda 支持的点云库 (PCL)。但是，在 nvidia 网站上，我只能找到工具包的链接，而不是 SDK 的单个下载
sdk - SDK:到底是什么？它怎么可能有用？
Closed. This question needs to be more focused。它当前不接受答案。想改善这个问题吗？更新问题，使其仅关注editing this post一个问题。 2
Android SDK 不断安装已安装的 SDK
当我打开 Android SDK 管理器时，会出现一个屏幕“选择要安装的包”。它列出了一堆带有绿色复选标记(已经安装)的软件包，还有一些带有 x's 的软件包，它们没有安装。如果我选择“全部接受”，它
android - 如何在已发布的 Play 应用程序上回滚 Gradle SDK 设置？什么是 Target SDK 和最小 SDK？
在开发过程中，我发布了 SDK 21 Lollipop，但我无法在我的 KitKat 设备上使用它。应用程序非常简单，我只将 SDK 用于动画和 Material 设计，但是当我尝试对 Play 商店
c# -/usr/share/dotnet/sdks/microsoft.docker.sdk/sdk/sdk.props 找不到
enter image description here friend 们好在使用 Linux、jenkins 和 docker 探索 dotnet 核心时，我遇到了构建问题，该问题在标题“/usr
android - 将外部 JAR 作为外部 SDK 添加到 Android 项目，例如 Dropbox sdk 或其他类型的第三方 sdk
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
sdk - flutter 包失败取决于来自 sdk 的 flutter_test any，它需要 SDK 版本 <2.0.0，版本解决失败
我创建了一个flutter项目，运行flutter packages get，输出如下:【二】flutter包搞定等待另一个 flutter 命令释放启动锁...第二次运行“flutter packa
android - 什么是 "Android SDK Tools"、 "Android SDK Platform Tools"和 "Android SDK Build tools"？
这个问题在这里已经有了答案: What are the Android SDK build-tools, platform-tools and tools? And which version sh
sdk - Corona SDK 3d 引擎
我使用 Corona SDK 已经快一年了，并且开发了几个简单的游戏。我现在正在寻找的是在 Corona SDK 中创建 3D 幻觉的某种方法。如果有人有 Corona 3D 方面的经验，我将不胜感激
sdk - Java ME SDK 8.1中的MIDP
我有一个CLDC 1.1 / MIDP 2.0项目，可以使用Java ME SDK 3.2很好地进行编译。最近，我已将Java SE升级到8，结果Java ME SDK开始在Windows启动时显示
sdk - 是否有华擎 RGB 同步 SDK？
有没有办法以编程方式控制连接到华擎主板的 RGB 照明？我知道华硕有一个 Aura SDK，但华擎是否也有一个用于他们的硬件？如果是，我在哪里可以找到它？最佳答案没有用于华擎多彩的 sdk。但是
sdk - CRM 2011 SDK 交易
如何使用 crm 2011 sdk 和 XrmServiceContext 创建事务？在下一个示例中，'new_brand' 是一些自定义实体。我想创建三个品牌。第三个拥有错误的 OwnerID g

首页

博学

6Ren·AI

商城

python - Azure 发音评估 SDK 与 api 调用相比返回错误结果