python - PySpark 上 Spark-cassandra 的服务器端过滤-6ren

python - PySpark 上 Spark-cassandra 的服务器端过滤

转载作者：太空宇宙更新时间：2023-11-03 16:51:04

24

4

我是Spark新手，想了解更多与Cassandra合作时的操作情况。

大多数教程都提醒我进行服务器端过滤，我完全理解这样做的重要性。

然而，这些教程要么基于 Scala，要么基于 pyspark_cassandra，并且没有一个使用 PySpark。

只是好奇以下脚本是否正在执行服务器端过滤。

给定一个 SparkConf 对象 conf:

sc = pyspark.SparkContext(conf=conf)

sqlContext = SQLContext(sc)
df = (sqlContext.read.format("org.apache.spark.sql.cassandra")
    .options(keyspace="ks", table="tbl").load())

df.filter("id = 1234").show()

此外，在这种情况下，我是否将整个表加载到我的 Spark 集群中进行过滤？

最佳答案

Cassandra 连接器支持 Spark DataFrames 上的谓词下推，因此只要启用下推，您就可以安全地假设基本过滤器在 Cassandra 端执行。它可能不适用于复杂的谓词。如果您有疑问，最好检查 BasicCassandraPredicatePushDown docstrings 。

您还可以检查执行计划(解释)。如果预测是下推的，则应在 PushedFilters 部分中列出，例如:

df = (sqlContext
  .read
  .format("org.apache.spark.sql.cassandra")
  .options(table="words", keyspace="test")
  .load())

df.select("word").where(col("word") == "bar").explain()
## == Physical Plan ==
## Scan org.apache.spark.sql.cassandra.CassandraSourceRelation@62738171[word#0] 
## ... PushedFilters: [EqualTo(word,bar)]

在 Spark 1.6 中，PushedFilters 的解释有点误导。它将列出数据源已显示的所有过滤器，但实际上不会告诉您数据源使用了哪些过滤器。在这种情况下，最好只查看解释计划是否有针对谓词的单独过滤步骤。如果是，则连接器没有下推谓词。如果没有，则谓词被推送。

另一个选项是打开 Spark Cassandra 连接器的 INFO/DEBUG 日志记录，以准确查看连接器在 Catalyst 中执行的操作

关于python - PySpark 上 Spark-cassandra 的服务器端过滤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35835876/

24

4

0

文章推荐： date - 如何使用日期文本和扩展名配置 Logrotate

文章推荐： ruby-on-rails - 奇怪的 rspec 错误 `undefined method model_name`

文章推荐： Ubuntu + i3lock 锁定盖子关闭

javascript变量到jade模板中-服务器端
我在使用 Jade 和 express 时遇到了一些问题。这是 serder 端: router.get('/login', function (req, res) { res.status(2
JavaScript 服务器端？
是否可以使用 JavaScript 服务器端，从而在某些核心计算中不会显示在页面源代码中？我正在开发一款游戏，代码的一个关键部分只需要在服务器端计算然后传回客户端。我的整个游戏都是用 Javasc
ExtJS 和页面授权(服务器端)
我正在寻找有关如何使用 ExtJS 4 实现安全页面的信息。我所说的安全页面是指用户将使用 Siteminder (SSO) 登录我们的网站，因此我们将拥有用户的身份。然后我们将通过进行数据库/LDA
django - 如何调试从计算机到服务器的连接，服务器端
我的 Centos 7 服务器正在运行 apache 2.4.6，并且正在使用 mod_wsgi 提供 django webapp。我的问题是我无法从另一台计算机的浏览器访问服务器 url。我没有从
javascript - ExtJs - 服务器端？
我们收到了客户的请求，要求我们基于 ExtJS 框架构建 Web 应用程序。我查看了互联网，发现 ExtJs 只是一个客户端 javascript 控件，但我认为 Web 应用程序也必须具有服务器端
Blazor(服务器端)在同级组件之间进行通信
我有三个组件。组件一包含组件二和三。组件二是一个列表。组件三用于向数据库添加项目。当我将一个项目保存到数据库时，我想更新组件二中的列表。我怎么做？最佳答案设想让我们假设:
php - 最高格式的YouTube下载器(服务器端)
欢迎，我正在寻找能使我以尽可能高的格式下载youtube视频的youtube api。几年前，这项工作更为简单，因为url拥有关于质量的信息，例如“fmt = 22”或“fmt = 6”，我们现在
javascript - 手动重置密码解析服务器，服务器端
我想将电子邮件 x@x.com 的用户密码设置为“an”。但代码不起作用。这是我的云代码: Parse.Cloud.define('testSetPasswordForUser', functio
php - 如何为流音乐的iPhone应用程序设计后端(服务器端)
正在阅读http://cocoawithlove.com/2010/03/streaming-mp3aac-audio-again.html这篇文章，想知道如何在服务器端实现它，是否像将文件放在htd
服务器端 JavaScript 问题
我有一个使用一些 css/javascript 选项卡的 php 脚本，它们在我的本地服务器上运行，但当我上传到我的在线服务器时则不起作用。只是想知道是否有人知道为什么会出现这种情况？所有路径都
Javascript 获取页面源(服务器端)
是否可以从 JavaScript 脚本获取服务器端页面的源代码？我希望能够获取服务器上同一文件夹中的页面的源代码。除了javascript之外，是否可以不使用任何其他东西？最佳答案如果您想从 ja
.net - .NET生成WORD文档的有效方法-服务器端
.NET 4.0 我正在寻找在我们的服务器上生成Word文档的最简单方法。局限性: 服务器端我不想在服务器上安装word 数据源是XML 我试图用XSLT生成快速简单的DOCX，但是我可以找到的用
jquery - 服务器端/客户端电子邮件验证器差异
我正在使用 native jQuery 验证库来验证在联系表单中输入的电子邮件地址。由于这是一个表达式引擎站点，因此我使用其电子邮件验证器作为服务器端备份。当我输入 test@b.c 时，jQuer
javascript - 使用多个复选框的数据表数据过滤(服务器端)
我使用带有服务器端处理的数据表来显示数万行。我需要通过复选框过滤这些数据。我能够制作一个工作正常的复选框，但我不知道如何添加多个复选框以协同工作。我找到了 similar solution在这里，但我
java - 服务器端 EOFException
我正在尝试编写一个消息传递应用程序，并且我能够发送消息(显示为服务器客户端正确显示消息)但随后将我的客户端踢出服务器。服务器打印以下错误: java.io.EOFException at java.i
javascript - 防止侧边栏加载到移动设备中。 (服务器端)
如果设备是移动设备，如何防止侧边栏加载服务器端资源？我了解如何通过 CSS 隐藏，但我更感兴趣的是防止对服务器的调用。最佳答案 WordPress有一个名为wp_is_mobile()的函数它将检查
javascript - 如何订阅事件流 - 服务器端
我有一个返回 text/event-stream 数据的网址，因此我尝试连接并打印我找到的所有内容: var url = "..." var source = new EventSource(url)
c# - 如何使用字段名称检索错误消息(服务器端)？
我得到这样的错误列表:{ error: [ "Email is required", "First Name is required"] } 我需要如何修改它，以获取包含字段名称的列表？ public
c# - 使用ASIFormDataRequest时如何实现C#服务器端？
我正在尝试使用 ASIFormDataRequest 将数据发送到 ASP.net 服务器端。我创建了一个aspx页面。目前我可以得到这两个纯文本。但是我不知道如何通过 Request.Form 在
express - 从发布请求重定向到新页面(服务器端)
我在 ${host}/api/graphql 有一个可通过 POST 访问的快速 graphql 端点。在那条路线上，我有身份验证中间件，如果用户未登录，我想重定向到登录页面。看起来有点像这样。

首页

博学

6Ren·AI

商城

python - PySpark 上 Spark-cassandra 的服务器端过滤