python - hadoop 流 : importing modules on EMR-6ren

python - hadoop 流 : importing modules on EMR

转载作者：可可西里更新时间：2023-11-01 14:23:12

24

4

This previous question addressed如何为 hadoop 流导入 nltk 等模块。

概述的步骤是:

zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod

您现在可以导入 nltk 模块以在您的 Python 脚本中使用:导入 zip 导入

importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')

我有一份工作想在 Amazon's EMR 上运行，而且我不确定将压缩文件放在哪里。我是否需要在引导选项下创建引导脚本，或者我应该将 tar.gz 放在 S3 中，然后放在额外的参数中？我对这一切还很陌生，非常感谢能够引导我完成整个过程的答案。

最佳答案

您有以下选择:

创建引导操作脚本并将其放在 S3 上。该脚本将以您喜欢的任何格式下载模块，并将其放置在您的映射器/缩减器可以访问的位置。要找出您必须放置文件的确切位置，请以完成后不会关闭的方式启动集群，在那里进行 ssh 并检查目录结构。
使用 mrjob 启动您的工作流程。当使用 mrjob 启 Action 业时，可以指定 bootstrap_python_packages mrjob 将通过解压缩 .tar.gz 并运行 setup.py install 自动安装。

http://packages.python.org/mrjob/configs-runners.html

我更喜欢选项 2，因为 mrjob 在用 Python 开发 MapReduce 作业方面也有很大帮助。特别是它允许在本地(使用或不使用 Hadoop)以及 EMR 上运行作业，这简化了调试。

关于python - hadoop 流 : importing modules on EMR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8129543/

24

4

0

文章推荐： hadoop - hive 是否为每条记录实例化一个新的 UDF 对象？

文章推荐： windows - Scapy 在 Windows 7 64 位 Python 3.5 上安装失败

文章推荐：使用 Kerberos 的 Hadoop Web 身份验证

文章推荐： hadoop 将\r\n 转换为\n 并破坏 ARC 格式

module - Perl6 : use module inside other module
我有 4 个文件。 C:\perlCode2\start.pl6 C:\perlCode2\file0.pm6 C:\perlCode2\folder1\file1.pm6 C:\perlCode2\
python - 如何构建模块以避免出现类似 "import module.module.module"的情况
我有一个结构如下的模块: /module __init__.py /submod_1 __init__.py submod_1_class.py
java模块访问问题: "Class in a module cannot access class in unnamed module because module x does not read unnamed module y"
我的源代码在 java 7 上编译并在 java 11 上运行。我正在尝试将 imperva RASP 作为 java 代理集成到 tomcat 中。但是，当我启动 tomcat 服务器时，它抛出以
node.js - 为什么 module.export { ...require ('module' ) } 有效，但 module.export { require ('module' ) } 不起作用
justExport.js const first = () => { console.log('frist from justExport') } const second = () => {
typescript - typescript 文件中的 module.exports 返回 'module is not a module.'
以下模块用JS文件编写: module.exports = { propA: 1, propB: 2 } 允许稍后从模块导入属性，如:从“路径/到/模块”导入 { propA} 然而，将文件格
angular - 如何在嵌套延迟加载模块中实现 ngx 翻译(App Module->(Module 1->(Module 2)))
我一直在尝试在嵌套的惰性加载模块中实现ngx翻译，但一直未能如愿。我面临的唯一问题是，每当我通过选择器更改语言时，嵌套延迟加载模块中的语言都不会更改。 HttpLoader 工作正常，其他一切工作正常
r - 将 Shiny Modules 中的数据从 Module 1 传递到 Module 2
我没有可重复的示例，因为问题更多是关于模块如何工作。我试图了解如何将一些 react 功能从一个模块传递到下一个模块。过去我收到过有关使用 ObserveEvent 的回复，但是当我在一个模块中使用响
module - "High-level modules"和 "low-level modules"是什么(在依赖倒置原则的背景下)？
我正在阅读Wikipedia's definition of Dependency inversion principle ，它使用了两个术语高级模块和低级模块，我无法弄清楚。它们是什么以及依赖倒置
module - OCaml 模块 : bringing (interconnected) types from different modules into a new module
问题我遇到的一个问题是将两个模块的类型和值带入一个新的组合模块中。我举个例子。目前我有以下两种类型签名 module type Ordered = sig type t (* the type
javascript - 当没有定义默认导出时，import Module from 'module' 会导入什么？为什么它与 import * as Module 不同？
我是 JavaScript 的新手，最近一直在努力处理导入问题。有一件事我无法理解。在较旧的节点模块(主要是那些在 ES6 之前出现的模块)中，可以使用 npm 安装，例如 express，通常没有
javascript - 如何将 ./[module] 映射到 System.JS 中的/[module]/[module].js？
我正在尝试使用 System.JS 将 material-ui 导入我的 React 应用在我的应用中，我这样做: import {AppBar, Tabs, Tab, Card, CardTitl
module - 在当前命名空间中声明一个模块用于 `module->exports`
我想使用功能module->exports查找模块提供的所有导出。不幸的是，传递给该函数的模块必须在当前命名空间中声明，然后才能在其上使用该函数。当我静态地知道模块是什么时，这没问题，我只需要将其引入
python : how to import module in other module
目录结构如下 outdir |--lib |--- __init__.py |--- abc.py |--indir
angular - 错误 : Cannot find module 'app/MyComponent/MyComponent.module' Error: Cannot find module
这与提到的非常相似 here但是评论或回答中提供的每个解决方案都没有解决我的问题。想看看是否还有其他我应该看的东西。我尝试了不同的路径，比如 ./app/mycomponent/mycomponent
Angular ngrx-store : How to share store among modules (main module/feature module)
我有两个 Angular 模块:main 和 feature: 主/根模块: @NgModule({ imports: [ StoreModule.forRoot({route
module - 中的文件 ""第 6 行 ImportError : No module named Crypto. 密码
我尝试在 Ubuntu 04.12 LTS x64 中安装“Userful MultiSeat-X64-5.0.1 ...”，在安装结束时遇到以下错误: File "", line 6, in Im
javascript - Import { module } from lib 和 import module from lib/module 在 Javascript 中的区别
我正在尝试优化我的 vendor bundle.js，因为它已经膨胀并且我正在使用 material-ui 库。 import Card from 'material-ui'; // Very bad
windows - 导入模块 : The specified module 'msonline' was not loaded because no valid module file was found in any module directory
错误: Import-Module : The specified module 'msonline' was not loaded because no valid module file was
active-directory - 导入模块 : The specified module 'activedirectory' was not loaded because no valid module file was found in any module directory
我在 Server 2008 SP2(64 位)上执行导入模块 ActiveDirectory 时遇到问题。 NET Framework 3.5 SP1 已安装我下载了 Windows6.0-KB9
sql-server - 导入模块 : The specified module 'SqlServer' was not loaded because no valid module file was found in any module directory
嗯，你好! 我正在编写一个脚本来获取 Sql 作业历史记录，并且需要使用“SqlServer”模块。它已安装，但由于上面的错误消息，我无法导入它。当我到达模块路径时，文件夹“SqlServer”存在并

首页

博学

6Ren·AI

商城

python - hadoop 流 : importing modules on EMR