python - 使用 HDFS 在不同的 python 进程之间共享资源(文件)-6ren

python - 使用 HDFS 在不同的 python 进程之间共享资源(文件)

转载作者：太空狗更新时间：2023-10-30 01:28:25

26

4

所以我有一些代码试图在 HDFS 上查找资源...如果不存在，它将计算该文件的内容，然后写入它。下次访问它时，读者只需查看该文件即可。这是为了防止对某些函数进行昂贵的重新计算

但是...我有几个进程在同一集群的不同机器上同时运行。我怀疑他们正在尝试访问相同的资源，而我遇到了导致大量错误的竞争条件，导致我无法打开文件或文件存在但无法读取。

希望这个时间线能证明我认为我的问题是什么

进程A去访问资源X
进程A发现资源X存在并开始写入
进程B去访问资源X
进程 A 完成写入资源 X...等等

显然，我希望进程 B 等待进程 A 完成资源 X，并在 A 完成后简单地读取它。

我想到了信号量之类的东西，但我不知道如何在查看相同 HDFS 位置的不同处理器上的不同 python 进程中使用它们。任何帮助将不胜感激

更新:要清楚..进程 A 和进程 B 最终将计算完全相同的输出(即相同的文件名、相同的内容、相同的位置)。理想情况下，B 不必计算它。 B 会等待 A 计算它，然后在 A 完成后读取输出。本质上，整个过程就像使用 HDFS 的“长期缓存”一样工作。给定函数将具有输出签名的位置。任何需要函数输出的进程都会首先确定输出签名(这基本上是一些函数参数、输入等的哈希)。然后它将检查 HDFS 以查看它是否存在。如果不是...它将写入计算并将其写入 HDFS，以便其他进程也可以读取它。

最佳答案

(撇开这听起来 HDFS 可能不是您的用例的正确解决方案，我假设您不能切换到其他东西。如果可以，看看 Redis 或 memcached。)

在这种情况下，您应该拥有一个负责计算/缓存这些结果的单一服务。这样，您所有的流程都必须做的就是请求创建资源(如果尚未创建)。如果尚未计算，服务将计算它；一旦它被计算出来(或者如果它已经被计算出来)，一个表明资源可用的信号，或者甚至只是资源本身，都会返回到您的进程。

如果由于某种原因您不能这样做，您可以尝试使用 HDFS 进行同步。例如，您可以尝试创建具有标记值的资源，其中表示进程 A 当前正在构建此文件。同时，进程 A 可能正在计算值并将其写入临时资源；一旦完成，它就可以将临时资源移到哨兵资源上。它既笨拙又骇人听闻，您应该尽量避免使用它，但这是一个选择。

你说你想避免昂贵的重新计算，但如果进程 B 正在等待进程 A 计算资源，为什么进程 B(以及 C 和 D)不能自己计算资源？如果这对您来说没问题，那么在资源不存在的情况下，您可以让每个进程开始计算并写入一个临时文件，然后将该文件移动到资源位置。希望移动是原子的，所以其中一个会干净利落地获胜；如果它们完全相同，那也没关系。一旦它在那里，它将在未来可用。这确实涉及多个进程同时向 HDFS 集群发送相同数据的可能性，因此它不是最高效的，但它有多糟糕取决于您的用例。您可以通过例如在计算之后和上传到 HDFS 之前检查自您上次查看后是否有人创建了资源来降低效率；如果是这样，甚至不需要创建临时资源。

TLDR:您可以只使用 HDFS 来完成它，但是最好有一个为您管理它的服务，而且最好不要为此使用 HDFS(尽管即使您使用的是 Redis 或 memcached，您仍然可能希望服务为您处理它；这再次取决于您的特定用例)。

关于python - 使用 HDFS 在不同的 python 进程之间共享资源(文件)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31860630/

26

4

0

文章推荐： python - 类型错误 "Bad input argument to theano function"

文章推荐： python - 在保持值(value)关联的同时在 Pandas 中重新采样

文章推荐： python - MediaDefiningClass 对象不可迭代？

ruby-on-rails - 资源 vs 资源 rails 3
有人告诉我，如果我只有一个“东西”，比如家(不是多个家)，我应该在 routes.rb 中使用资源 :home，而不是资源 :home。但是当我查看路由时，POST 函数似乎想要 home#creat
java - 资源 <资源 ID 的编号> 类型 0x12 无效
Activity 开始。这些代码框架顺利通过。 // Initialize array adapters. One for already paired devices and //
183、故障排除和调试HBase：资源
资源 search-hadoop.com search-hadoop.com索引所有邮件列表，非常适合历史搜索。当你遇到问题时首先在这里搜索，因为很可能有人已经遇到了你的问题。邮件列表在A
WPF - 使用来自另一个程序集的样式/资源
我是 WPF 的新手，正在努力使用位于单独程序集中的样式。这就是我正在做的:- 我有一个带有\Themes 文件夹的类库项目，其中包含一个“generic.xaml”，它合并了\Themes 内的子文
Eclipse - "Virtual"资源
我正在编写一个使用虚拟树状文件结构的插件。基本上它就像一个包含文件的标准文件系统，区别在于这些文件实际上并不存在于文件系统中的特定位置，而只是 java 对象。这些当前由使用 SettingProv
找不到 WPF 资源
如果我在 XAML 中使用以下内容，我会收到错误消息: 错
Laravel 资源 - 如何检查给定值是否存在？
我正在使用 laravel 资源来获取 api 的数据: return [ 'id' => $this->id, 'unread' =>
使用配置文件属性过滤 Maven 资源
我有以下 pom.xml: 4.0.0 mycompany resource-fail 0.0.1-SNAPSHOT BazBat
.net - 您何时处置GDI +资源？
许多GDI +类都实现IDisposable，但是我不确定何时应该调用Dispose。对于使用new或静态方法(例如Graphics.CreateGraphics)创建的实例来说，这很明显。但是，由属
RESTful 资源 - 接受对象列表
我正在构建一组 RESTful 资源，其工作方式如下:(我将使用“people”作为示例): 获取/people/{key} - 返回一个人对象 (JSON) GET/people?first_nam
iphone - Cocos2d 资源
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
AngularJS 资源 promise
我有一个使用 $resource 的简单 Controller : var Regions = $resource('mocks/regions.json'); $scope.regions =
使用存储的 Azure 资源
在 Azure 门户中，如何查看不同资源之间的依赖关系。我特别想查看哪些资源正在使用我要删除的存储。最佳答案您可以使用应用程序洞察应用程序 map 来执行此操作: 您还可以打开存储帐户的日志记录:
Cordova / ionic 资源
我正在使用 ionic 生成资源(图标和启动画面)。我正在使用 ionic v2.1.0 和 cordova v6.4.0。到目前为止我一直在使用(它在以前的版本中工作): cordova plat
子文件夹中的 FuelPHP 资源
是否可以使用 Assets 包含子文件夹中的文件？示例:[base_url]/assets/css/pepper-grinder/jquery-ui-1.8.11.custom.min.css 最佳
java - 资源/目录树
我正在阅读一些尝试教授 Android 开发的书。在书中，作者概述了 res/下的一些目录。他提到 res/menu 包含基于 XML 的菜单规范。他还提到了保存“通用文件”的 res/raw。当我创
java - JDBC 资源
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
AngularJS 资源 : how to update
我在服务器上使用 express-resource。在我的 AngularJS Controller 中: var User = $resource('/services/users/:use
java - 资源$NotFoundException
因此，每当我运行我的应用程序时，它都会立即崩溃并给出以下错误: No package identifier when getting value for resource number 0x00000
使用基本身份验证加载 UIWebView 资源
对于我正在创建的(网络)应用程序，我需要使用基本身份验证在我的 UIWebView 中加载页面。现在设置我使用的授权 header : NSString *result = [NSString st

首页

博学

6Ren·AI

商城

python - 使用 HDFS 在不同的 python 进程之间共享资源(文件)