- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个令人尴尬的并行任务,我使用 Spark 来分配计算。这些计算是在 Python 中进行的,我使用 PySpark 来读取和预处理数据。我的任务的输入数据存储在 HBase 中。不幸的是,我还没有找到一种令人满意的(即易于使用和可扩展的)方式来使用 Python 从/向 Spark 读取/写入 HBase 数据。
我之前探索过的内容:
使用 happybase
从我的 Python 进程中连接。这个包允许使用 HBase 的 Thrift API 从 Python 连接到 HBase。这样,我基本上跳过 Spark 进行数据读取/写入,并且错过了潜在的 HBase-Spark 优化。读取速度似乎相当快,但写入速度很慢。这是目前我最好的解决方案。
使用利用 HBase 的 MapReduce 接口(interface)的 SparkContext 的 newAPIHadoopRDD
和 saveAsNewAPIHadoopDataset
。这方面的示例曾经包含在 Spark 代码库中 (see here)。但是,这些现在被认为已过时,有利于 HBase 的 Spark 绑定(bind) (see here)。我还发现这种方法既慢又麻烦(对于读、写效果很好),例如,从 newAPIHadoopRDD
返回的字符串必须以各种方式进行解析和转换,最终得到我想要的 Python 对象。它还一次只支持一列。
我知道的替代方案:
我目前正在使用 Cloudera 的 CDH,5.7.0 版提供了 hbase-spark
(CDH release notes 和 a detailed blog post)。该模块(以前称为 SparkOnHBase
)将正式成为 HBase 2.0 的一部分。不幸的是,这个绝妙的解决方案似乎只适用于 Scala/Java。
华为 Spark-SQL-on-HBase/Astro (我看不出两者有什么区别……)。它看起来不像我希望我的解决方案那样强大和得到很好的支持。
最佳答案
我找到了 this comment由 hbase-spark
的制造商之一提供,这似乎表明有一种方法可以使用 PySpark 通过 Spark SQL 查询 HBase。
事实上,the pattern described here可以应用于使用 PySpark 使用 Spark SQL 查询 HBase,如以下示例所示:
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext()
sqlc = SQLContext(sc)
data_source_format = 'org.apache.hadoop.hbase.spark'
df = sc.parallelize([('a', '1.0'), ('b', '2.0')]).toDF(schema=['col0', 'col1'])
# ''.join(string.split()) in order to write a multi-line JSON string here.
catalog = ''.join("""{
"table":{"namespace":"default", "name":"testtable"},
"rowkey":"key",
"columns":{
"col0":{"cf":"rowkey", "col":"key", "type":"string"},
"col1":{"cf":"cf", "col":"col1", "type":"string"}
}
}""".split())
# Writing
df.write\
.options(catalog=catalog)\ # alternatively: .option('catalog', catalog)
.format(data_source_format)\
.save()
# Reading
df = sqlc.read\
.options(catalog=catalog)\
.format(data_source_format)\
.load()
我为此尝试过 hbase-spark-1.2.0-cdh5.7.0.jar
(由 Cloudera 分发),但遇到了麻烦(org.apache.hadoop. hbase.spark.DefaultSource 不允许 create table as select
写入时,java.util.NoSuchElementException: None.get
读取时)。事实证明,当前版本的 CDH 不包括允许 Spark SQL-HBase 集成的 hbase-spark
更改。
对我有用的是 shc
Spark 包,找到 here .我必须对上述脚本进行的唯一更改是更改:
data_source_format = 'org.apache.spark.sql.execution.datasources.hbase'
下面是我如何在我的 CDH 集群上提交上述脚本,遵循 shc
自述文件中的示例:
spark-submit --packages com.hortonworks:shc:1.0.0-1.6-s_2.10 --repositories http://repo.hortonworks.com/content/groups/public/ --files /opt/cloudera/parcels/CDH/lib/hbase/conf/hbase-site.xml example.py
关于shc
的大部分工作似乎已经合并到HBase 的hbase-spark
模块中,以便在2.0 版本中发布。这样,就可以使用上述模式对 HBase 进行 Spark SQL 查询(有关详细信息,请参阅:https://hbase.apache.org/book.html#_sparksql_dataframes)。我上面的示例显示了 PySpark 用户的情况。
最后,一个警告:我上面的示例数据只有字符串。 shc
不支持 Python 数据转换,因此我遇到了整数和 float 未显示在 HBase 中或具有奇怪值的问题。
关于python - 如何使用 Python 连接 HBase 和 Spark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38470114/
我知道这个问题可能已经被问过,但我检查了所有这些,我认为我的情况有所不同(请友善)。所以我有两个数据集,第一个是测试数据集,第二个是我保存在数据框中的预测(预测值,这就是没有数据列的原因)。我想合并两
在 .loc 方法的帮助下,我根据同一数据框中另一列中的值来识别 Panda 数据框中某一列中的值。 下面给出了代码片段供您引用: var1 = output_df['Player'].loc[out
当我在 Windows 中使用 WinSCP 通过 Ubuntu 连接到 VMware 时,它提示: The server rejected SFTP connection, but it lis
我正在开发一个使用 xml web 服务的 android 应用程序。在 wi-fi 网络中连接时工作正常,但在 3G 网络中连接时失败(未找到 http 404)。 这不仅仅发生在设备中。为了进行测
我有一个XIB包含我的控件的文件,加载到 Interface Builder(Snow Leopard 上的 Xcode 4.0.2)中。 文件的所有者被设置为 someClassController
我在本地计算机上管理 MySQL 数据库,并通过运行以下程序通过 C 连接到它: #include #include #include int main(int argc, char** arg
我不知道为什么每次有人访问我网站上的页面时,都会打开一个与数据库的新连接。最终我到达了大约 300 并收到错误并且页面不再加载。我认为它应该工作的方式是,我将 maxIdle 设置为 30,这意味着
希望清理 NMEA GPS 中的 .txt 文件。我当前的代码如下。 deletes = ['$GPGGA', '$GPGSA', '$GPGSV', '$PSRF156', ] searchquer
我有一个 URL、一个用户名和一个密码。我想在 C# .Net WinForms 中建立 VPN 连接。 你能告诉我从哪里开始吗?任何第三方 API? 代码示例将受到高度赞赏... 最佳答案 您可以像
有没有更好的方法将字符串 vector 转换为字符 vector ,字符串之间的终止符为零。 因此,如果我有一个包含以下字符串的 vector "test","my","string",那么我想接收一
我正在编写一个库,它不断检查 android 设备的连接,并在设备连接、断开连接或互联网连接变慢时给出回调。 https://github.com/muddassir235/connection_ch
我的操作系统:Centos 7 + CLOUDLINUX 7.7当我尝试从服务器登录Mysql时 [root@server3 ~]# Mysql -u root -h localhost -P 330
我收到错误:Puma 发现此错误:无法打开到本地主机的 TCP 连接:9200(连接被拒绝 - 连接(2)用于“本地主机”端口 9200)(Faraday::ConnectionFailed)在我的
请给我一些解决以下错误的方法。 这是一个聊天应用....代码和错误如下:: conversations_controller.rb def create if Conversation.bet
我想将两个单元格中的数据连接到一个单元格中。我还想只组合那些具有相同 ID 的单元格。 任务 ID 名称 4355.2 参与者 4355.2 领袖 4462.1 在线 4462.1 快速 4597.1
我经常需要连接 TSQL 中的字段... 使用“+”运算符时 TSQL 强制您处理的两个问题是 Data Type Precedence和 NULL 值。 使用数据类型优先级,问题是转换错误。 1)
有没有在 iPad 或 iPhone 应用程序中使用 Facebook 连接。 这个想法是登录这个应用程序,然后能够看到我的哪些 facebook 用户也在使用该应用程序及其功能。 最佳答案 是的。
我在连接或打印字符串时遇到了一个奇怪的问题。我有一个 char * ,可以将其设置为字符串文字的几个值之一。 char *myStrLiteral = NULL; ... if(blah) myS
对于以下数据 - let $x := "Yahooooo !!!! Select one number - " let $y := 1 2 3 4 5 6 7 我想得到
我正在看 UDEMY for perl 的培训视频,但是视频不清晰,看起来有错误。 培训展示了如何使用以下示例连接 2 个字符串: #!usr/bin/perl print $str = "Hi";
我是一名优秀的程序员,十分优秀!