gpt4 book ai didi

caching - Spark SQL : how to cache sql query result without using rdd. 缓存()

转载 作者:行者123 更新时间:2023-12-02 08:35:08 30 4
gpt4 key购买 nike

有没有办法在不使用rdd.cache()的情况下缓存一个缓存sql查询结果?例如:

output = sqlContext.sql("SELECT * From people")

我们可以使用output.cache()来缓存结果,但是我们不能使用sql查询来处理它。

所以我想问是否有类似sqlcontext.cacheTable()之类的东西来缓存结果?

最佳答案

您应该使用 sqlContext.cacheTable("table_name") 来缓存它,或者使用 CACHE TABLE table_name SQL 查询。

这是一个例子。我在 HDFS 上有这个文件:

1|Alex|alex@gmail.com
2|Paul|paul@example.com
3|John|john@yahoo.com

然后是PySpark中的代码:

people = sc.textFile('hdfs://sparkdemo:8020/people.txt')
people_t = people.map(lambda x: x.split('|')).map(lambda x: Row(id=x[0], name=x[1], email=x[2]))
tbl = sqlContext.inferSchema(people_t)
tbl.registerTempTable('people')

现在我们有了一个表并可以查询它:

sqlContext.sql('select * from people').collect()

要坚持它,我们有 3 个选择:

# 1st - using SQL
sqlContext.sql('CACHE TABLE people').collect()
# 2nd - using SQLContext
sqlContext.cacheTable('people')
sqlContext.sql('select count(*) from people').collect()
# 3rd - using Spark cache underlying RDD
tbl.cache()
sqlContext.sql('select count(*) from people').collect()

第一个和第二个选项是首选,因为它们将以优化的内存中列格式缓存数据,而第三个选项将像任何其他 RDD 一样以面向行的方式缓存数据

回到你的问题,这是一个可能的解决方案:

output = sqlContext.sql("SELECT * From people")
output.registerTempTable('people2')
sqlContext.cacheTable('people2')
sqlContext.sql("SELECT count(*) From people2").collect()

关于caching - Spark SQL : how to cache sql query result without using rdd. 缓存(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28027160/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com