python - 使用pickle和sys.stdin在Hadoop中加载defaultdict-6ren

python - 使用pickle和sys.stdin在Hadoop中加载defaultdict

转载作者：行者123 更新时间：2023-12-02 20:09:17

25

4

大约一个小时前，我发布了一个类似的问题，但是自从意识到我在问一个错误的问题之后，就将其删除。我有以下腌制的defaultdict:

ccollections
defaultdict
p0
(c__builtin__
list
p1
tp2
Rp3
V"I love that"
p4
(lp5
S'05-Aug-13 10:17'
p6
aS'05-Aug-13 10:17'

使用Hadoop时，始终使用以下命令读取输入:

for line in sys.stdin:

我尝试使用以下方法读取腌制的 defaultdict:

myDict = pickle.load(sys.stdin)
for text, date in myDict.iteritems():

但无济于事。我使用.load('filename.txt')在本地对其进行测试时，其余代码均可以正常工作。我做错了吗？如何加载信息？

更新:

遵循在线教程之后，我可以将代码修改为:

def read_input(file):
    for line in file:
        print line

def main(separator='\t'):
    myDict = read_input(sys.stdin)

这会打印出每一行，表明它已成功读取文件-但是，此输出不保留 defaultdict结构的相似之处:

p769    

aS'05-Aug-13 10:19' 

p770    

aS'05-Aug-13 15:19' 

p771    

as"I love that"

显然这不好。有人有什么建议吗？

最佳答案

为什么输入数据为泡菜格式？您的输入数据来自哪里？ Hadoop / MapReduce的目标之一是处理太大而无法容纳在一台计算机内存中的数据。因此，读取整个输入数据然后尝试对其进行反序列化会违反MR设计范式，并且极有可能甚至无法用于生产规模的数据集。

解决方案是将输入数据格式化为TSV文本文件，例如每行字典中只有一个元组。然后，您可以单独处理每个元组，例如:

for line in sys.stdin:
    tuple = line.split("\t")
    key, value = process(tuple)
    emit(key, value)

关于python - 使用pickle和sys.stdin在Hadoop中加载defaultdict，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18580321/

25

4

0

文章推荐： hadoop - 仅限Hadoop map 作业

文章推荐： docker - Makefile - 包罗万象的目标

文章推荐： docker - "are replaced with '与ansible

文章推荐： hadoop - HBase分布式模式

python - 为什么我必须做 `sys.stdin = codecs.getreader(sys.stdin.encoding)(sys.stdin)` ？
我正在编写一个 python 程序，它将所有输入都大写(替代非工作 tr '[:lowers:]' '[:upper:]')。语言环境是 ru_RU.UTF-8，我使用 PYTHONIOENCODIN
jquery - Sys.ArgumentTypeException : Object of type 'Sys._Application' cannot be converted to type 'Sys._Application' . 参数名称:实例
我收到错误；MVC Microsoft JScript 运行时错误:Sys.ArgumentTypeException:“Sys._Application”类型的对象无法转换为“Sys._Applic
sys - 错误 : Could not find a version that satisfies the requirement sys (from versions: none) ERROR: No matching distribution found for sys
尝试使用 IDLE 在 Python 3.7.4 版本中安装 sys 包时，出现以下错误: 输入:C:\Users\UserName\Downloads>pip install sys 输出: 采集系
python - sys.stdout 未重新分配给 sys.__stdout__
我对 Python 还很陌生，所以我还在学习这门语言。我遇到的一件事是重新分配 sys.stdout 以更改打印的默认输出。所以我写了这个作为测试: import sys sys.stdout = o
python - sys.exc_info 还是 sys.last_*？
我应该选择 sys.exc_info()在 sys.last_value和 friend (sys.last_type，sys.last_traceback)？最佳答案查看sys.last_val
linux: 为什么我不能搜索/sys/class 但我可以搜索/sys
我的 shell 脚本中出现奇怪的错误。使用这个: $find /sys/class/ -name temp -exec cat '{}' ';' 我得到输出 77000 find: `/sys/ke
python - 无法从 sys 库导入 sys 类
我只想从 sys 库导入 argv 和可执行函数。所以我使用 from 和 import 来指定这些函数，如下所示:- from sys import argv from sys import ex
Python:在加载 `sys.argv`模块之前找到 `sys`
我想找到调用我的程序的命令行参数，即 sys.argv，但我想在 Python 使 sys.argv 可用之前执行此操作.这是因为我在 usercustomize.py 中运行代码，该代码由 site
python - sys 和 os.sys 有什么区别
sys和os.sys在python中有什么区别？我见过很多项目在导入os时使用sys。当我尝试 dir(sys) 和 dir(os.sys) 时，它们的功能相同，输出也相同。我经常看到像这样使用 s
oracle - sys.col$ 和 sys.coltype$ 的区别
create table T ( ID number, COL1 SYS.XMLTYPE )XMLType COLUMN COL1 STORE AS CLOB; select obj#,col
SQL Server : SELECT from sys. 表和 sys.views
下面的 SQL 似乎可以工作，但我想知道是否有更好的方法来编写它。我正在尝试选择具有特定名称的所有 View 和表。如果找到匹配项，则应该只有一个返回值。 SELECT DISTINCT name F
java - Sys.getTime() 和 Sys.getTimerResolution() 的替代品？
在我的客户端(使用 LWJGL)中，我使用以下代码: private static long getTime() { return (Sys.getTime() * 1000) / Sys.g
python - 何时使用 sys.stdout 而不是 sys.stderr？
我的老板让我看一些旧代码，其中所有内容都被发送到 stderr。我知道 stderr 应该有警告和错误，但他们什么时候才真正应该转到 stdout？此程序是一项服务。它发送到 stderr 的一些消
python - `sys.meta_path` 和 `sys.path_hooks` 导入器对象有什么区别？
使用 importlib，“Meta Path Finder”(通过遍历 sys.meta_path 找到)和“Path Entry Finder”(通过遍历 sys.path_hooks 找到)有什
python - 安装 os sys 包接收 os sys 时出现无效车轮错误
我正在运行这个命令来安装 os_sys 包: pip3 install os_sys 但收到此错误: ERROR: os-sys has an invalid wheel, could not rea
sql-server - sys.dm_database_encryption_keys 中的加密状态与 sys.databases 不一致
如果我查询sys.dm_database_encryption_keys，它返回的encryption_state为3(加密)，percent_complete 0。如果我查询 sys.databas
r - R 中的 sys.frame、sys.nframe 等
有人可以向我解释一下这些不同的环境函数具体有什么作用吗？即哪个返回什么帧？阅读文档后我完全困惑了(http://stat.ethz.ch/R-manual/R-patched/library/base
python - 恢复重定向的 sys.stdout 和 sys.stderr 产生奇怪的结果
查看其他 stackoverflow 帖子后，我似乎无法解决这个重定向问题。我想做的是抑制 stdout 和 stderr，然后在捕获错误后恢复它们。抑制效果很好，但恢复它们只成功了一半。如果我尝试
python sys.argv[1] 与 sys.argv[1 :]
这个问题在这里已经有了答案: Understanding slicing (38 个答案) 关闭 3 个月前。我写了这段代码: #!/usr/bin/env python import sys i
python - 在 sys.modules 中动态创建模块导致 sys 变为 None
我正在创建一个名为 Qt ( Github link ) 的模块，我在其中为另一个模块起别名(例如 PyQt4)，这样当我导入 Qt 我实际上正在导入 PyQt4: from Qt import Qt

首页

博学

6Ren·AI

商城

python - 使用pickle和sys.stdin在Hadoop中加载defaultdict