gpt4 book ai didi

hadoop - 我可以直接从配置单元表中提取数据到H2O吗?

转载 作者:行者123 更新时间:2023-12-02 20:43:37 25 4
gpt4 key购买 nike

我们将数据存储在配置单元文本文件和拼花地板文件中,是否可以将这些数据直接加载到H2O中,还是必须经历诸如csv或pandas数据框之类的中间步骤?

最佳答案

是的,您可以找到所需的所有信息here

H2O当前支持以下文件类型:

  • CSV(定界)文件(包括压缩的CSV文件)
  • ORC
  • SVMLight
  • ARFF
  • XLS
  • XLSX
  • Avro版本1.8.0(无多文件解析或列类型修改)
  • Parquet

  • 笔记:
  • ORC仅在H2O作为Hadoop作业运行时才可用。
  • 用户还可以导入以ORC格式保存的Hive文件。
  • 将并行数据导入集群时:
  • 如果数据是未压缩的csv文件,则H2O可以进行偏移读取,因此群集中的每个节点都可以并行地直接读取其csv文件的一部分。
  • 如果压缩了数据,则H2O必须先读取整个文件并将其解压缩,然后再进行并行读取。
    因此,如果您有从HDFS读取的非常大的数据文件,则最好使用解压缩的csv。但是,如果数据距离LAN较远,则最好使用压缩的csv。
  • 关于hadoop - 我可以直接从配置单元表中提取数据到H2O吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48915519/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com