gpt4 book ai didi

python - 用于科学数据分析的 Python 流式传输

转载 作者:行者123 更新时间:2023-12-02 20:08:34 24 4
gpt4 key购买 nike

我刚开始在笔记本电脑上的单节点集群上使用 hadoop,我尝试用 Python 来做,我比 Java 更了解。显然,流式传输是最简单的方法,无需安装任何其他软件包。

好吧,我的问题是,当我对流媒体进行一些数据分析时,我必须:

  • 将我的数据(矩阵、数组...)转换为适合流式传输的默认输入文件格式的文本文件。
  • 在我的 mapper.py 中重新构建我的数据以明确地制作(键,值)对并将它们打印出来。
  • 以文本格式读取结果并将其转换为矩阵数据,以便我可以用它们做其他事情。

  • 当您使用文本文件作为输入进行字数统计时,一切看起来都很好。但是你如何处理流中的数据结构呢?我这样做的方式似乎无法接受......

    最佳答案

    对于python和hadoop,请查找MRjob包,http://pythonhosted.org/mrjob/

    您可以编写自己的编码-解码协议(protocol),将流矩阵行编写为 rownum-values 对,或将每个元素编写为 row:col-value 对等。

    无论哪种方式,hadoop 都不是用于矩阵运算的最佳框架,因为它是为大量不相关的数据而设计的,即当您的键值处理不依赖于其他值或以非常有限的方式依赖时。

    关于python - 用于科学数据分析的 Python 流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19511581/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com