python - Pyspark:在驱动程序和工作人员上使用 ffmpeg-6ren

python - Pyspark:在驱动程序和工作人员上使用 ffmpeg

转载作者：行者123 更新时间：2023-12-04 22:58:11

31

4

我正在尝试在我的 Spark 集群(在 Databricks 中)上处理一批音频文件。我有一个安装 ffmpeg (带有 apt )和 pydub (带有 pip )的初始化脚本。
我有一个要处理的文件路径的数据框，当我调用打开/处理/导出的 UDF 时，有时会收到以下错误:

pydub.exceptions.CouldntEncodeError: Encoding failed. ffmpeg/avlib returned error code: 1
...
[wav @ 0x1e1b4c0] Could not find codec parameters for stream 0 
(Audio: pcm_s16le ([1][0][0][0] / 0x0001), 48000 Hz, 1 channels, 768 kb/s): unspecified sample format

也就是说，我使用 pydub 的 UDF 可以正确处理某些文件，但对于其他一些文件则失败。我检查了 file命令，所有这些 MP3 文件似乎都具有相同的配置/编解码器。所以我认为 pyspark 将我的数据帧中的“行”分配给驱动程序和工作人员，但只有驱动程序具有 ffmpeg。所以我的 worker 处理的所有文件都失败了。
我的假设正确吗？
我该如何解决这个问题？我也不知道怎么做:

仅在驱动程序上进行处理(具有所有要求)

在worker上也安装ffmpeg

最佳答案

首先，需要在所有具有init Scripts的节点上安装ffmpeg，它是pydub的依赖项。 .
这可以通过在数据 block 单元格

中使用以下代码来实现

dbutils.fs.mkdirs("dbfs:/databricks/scripts/") #create a new dir
dbutils.fs.put("/databricks/scripts/installffmpeg.sh",
"""
#!/bin/bash
sudo apt-get update
sudo apt-get -y install ffmpeg
""", True) #create an init script into the newly created dir

然后转到 Clsusters -> Edit -> Advanced Options - Init Scripts 将目录添加到文件路径

选择Confirm

现在启动集群时将安装 ffmpeg

转到 Libraries，安装 New，在此处输入您的 pydub 包和版本:

点击 install完毕!

关于python - Pyspark:在驱动程序和工作人员上使用 ffmpeg，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64425119/

31

4

0

文章推荐： python - 导出动画 ffmpeg 时出错 - Matplotlib

文章推荐： ffmpeg将覆盖图像添加到已经绘制文本的命令

.net - 人员(手动)测试的代码覆盖率？
是否有用于手动测试的代码覆盖工具？比如我新写了30行代码，编译，然后运行，有什么办法可以快速验证这30行都运行了吗？另外，后来，在我将代码 checkin 正式版本后，有什么方法可以验证测试部门在进
参与 A OR B 的 SQLite 人员
老实说，这是一个家庭作业问题，但我已经浪费了好几个小时，而且无法正确解决。它返回错误数量的结果或错误的数据: 我需要选择参与指导电影和/或在电影中表演的每个人以及他们所做的次数，如果至少 5 次。有
cocoa - 当前收据无效或不匹配的 ds 人员 ID
我正在尝试测试 MacOS 的应用内购买。输入测试用户凭据后，App Store 提示:“当前收据无效或 ds 人员 ID 不匹配。”并且购买失败。最佳答案我尝试了很多方法来解决这个问题。 Get
svn - 如何将 SVN 用户映射到 Jenkins 人员
我正在为 Jenkins 使用 ActiveDirectory 插件，因此用户必须使用他们的凭据登录到 Jenkins。然后用户在 Jenkins 中被称为 joe.doe，这很完美。当同一个人 c
sharepoint-2010 - 如何从 Infopath 人员/组选择器中检索电子邮件地址
如何从 Infopath 人员/组选取器检索电子邮件地址？当我将人员/组选取器添加到 infopath 表单时，我只得到 3 个字段 DisplayName、AccountId、AccountType
cocoa - 用于在 iCal 中显示空闲/忙碌时间的 API(Apple 人员？)
在 Snow Leopard 中，可以在 iCal 事件中显示空闲/忙碌时间。我搜索了 CalStore.framework 的 header ，但找不到任何描述该字段的属性。如何检索日历事件的忙/闲
javascript - SharePoint 2013 JavaScript 从用户(人员)字段获取值(value)
是否有人成功地从专门针对 SharePoint 2013 的新建或编辑表单中获取用户(个人或组)字段的值？我已经尝试了通过搜索互联网找到的所有解决方案以及我自己能想到的所有解决方案，所有结果都为空白
objective-c - 将 Twitter 帐户添加到 ABRecordRef(人员)的最简单方法
所以我需要将一个 Twitter 帐户添加到 ABRecordRef 中。然而，最快的方法似乎是获取社交资料属性的多值引用，创建它的可变版本，查找它是否有 Twitter 条目，如果已经有，则创建
java - 将应用程序从 Tomcat 部署到 Sun Java Web Server 7 时出现问题...我是 .NET 人员 :(
我正在尝试将使用 Tomcat(最初是 5.5，但可以与 7 一起使用)在 MyEclipse 中开发的应用程序部署到我们的演示服务器 (Sun Java Web Server 7)。不幸的是，所有设

首页

博学

6Ren·AI

商城

python - Pyspark:在驱动程序和工作人员上使用 ffmpeg