- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我的代码是这样的
df = spark.readStream.option("header","true") \
.schema(df_schema)\
.csv(df_file)
df2 = df.filter(df.col == 1)
df3 = df2.withColumn("new_col", udf_f(df2.some_col))
dfc = df3.where(df3.new_col == 2).count()
query = dfc.writeStream.outputMode("append").format("console").start()
query.awaitTermination()
我收到错误消息使用流源的查询必须在
,但我不确定我在做什么错误的。 Spark结构化流不支持这样的链式查询吗?据我所知,我没有做任何分支。dfc
行使用 writeStream.start() 执行
编辑:
通过从 dfc
行中删除 count()
,我收到了一个新错误 StreamingQueryException: Exception returned in awaitResult
,该错误是由 >query.awaitTermination()
调用。知道为什么 count()
不起作用以及为什么出现新错误吗?
编辑2:
如果我直接登录到控制台而不运行 df 之后的所有中间查询,它就可以工作。但是,每次我尝试运行其他查询时,都会引发 StreamingQueryException
。
最佳答案
由于 structured streaming 的性质不可能以与静态数据帧相同的方式获得计数。创建流时,Spark 使用 trigger 轮询源以获得新数据。如果有任何 Spark,会将其拆分为小型 DataFrame(微批处理)并沿流传递(转换、聚合、输出)。
如果您需要获取记录数,您可以添加 listener to get progress updates并在 onQueryProgress(QueryProgressEvent event)
中获取输入数量。
很难说为什么会出现 StreamingQueryException
,因为 filter()
和 withColumn()
在结构化流中正常工作。您是否在控制台中看到了可能导致 awaitResult 中引发异常
的其他错误?
顺便说一句,如果单个 session 中有多个流,则应使用 spark.streams.awaitAnyTermination()
进行阻塞,直到其中任何一个流终止。
以下查询应该可以正常工作:
query = spark.readStream
.option("header","true") \
.schema(df_schema)\
.csv(df_file)\
.filter(df.col == 1)\
.withColumn("new_col", udf_f(df2.some_col))\
.writeStream\
.format("console")\
.outputMode("append")\
.start()
query.awaitTermination()
# or spark.streams().awaitAnyTermination()
关于python - 使用结构化流(PySpark)运行链式查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49064338/
我目前正在尝试基于哈希表构建字典。逻辑是:有一个名为 HashTable 的结构,其中包含以下内容: HashFunc HashFunc; PrintFunc PrintEntry; CompareF
如果我有一个指向结构/对象的指针,并且该结构/对象包含另外两个指向其他对象的指针,并且我想删除“包含这两个指针的对象而不破坏它所持有的指针”——我该怎么做这样做吗? 指向对象 A 的指针(包含指向对象
像这样的代码 package main import "fmt" type Hello struct { ID int Raw string } type World []*Hell
我有一个采用以下格式的 CSV: Module, Topic, Sub-topic 它需要能够导入到具有以下格式的 MySQL 数据库中: CREATE TABLE `modules` ( `id
通常我使用类似的东西 copy((uint8_t*)&POD, (uint8_t*)(&POD + 1 ), back_inserter(rawData)); copy((uint8_t*)&PODV
错误 : 联合只能在具有兼容列类型的表上执行。 结构(层:字符串,skyward_number:字符串,skyward_points:字符串)<> 结构(skyward_number:字符串,层:字符
我有一个指向结构的指针数组,我正在尝试使用它们进行 while 循环。我对如何准确初始化它并不完全有信心,但我一直这样做: Entry *newEntry = malloc(sizeof(Entry)
我正在学习 C,我的问题可能很愚蠢,但我很困惑。在这样的函数中: int afunction(somevariables) { if (someconditions)
我现在正在做一项编程作业,我并没有真正完全掌握链接,因为我们还没有涉及它。但是我觉得我需要它来做我想做的事情,因为数组还不够 我创建了一个结构,如下 struct node { float coef;
给定以下代码片段: #include #include #define MAX_SIZE 15 typedef struct{ int touchdowns; int intercepti
struct contact list[3]; int checknullarray() { for(int x=0;x<10;x++) { if(strlen(con
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Empty “for” loop in Facebook ajax what does AJAX call
我刚刚在反射器中浏览了一个文件,并在结构构造函数中看到了这个: this = new Binder.SyntaxNodeOrToken(); 我以前从未见过该术语。有人能解释一下这个赋值在 C# 中的
我经常使用字符串常量,例如: DICT_KEY1 = 'DICT_KEY1' DICT_KEY2 = 'DICT_KEY2' ... 很多时候我不介意实际的文字是什么,只要它们是独一无二的并且对人类读
我是 C 的新手,我不明白为什么下面的代码不起作用: typedef struct{ uint8_t a; uint8_t* b; } test_struct; test_struct
您能否制作一个行为类似于内置类之一的结构,您可以在其中直接分配值而无需调用属性? 前任: RoundedDouble count; count = 5; 而不是使用 RoundedDouble cou
这是我的代码: #include typedef struct { const char *description; float value; int age; } swag
在创建嵌套列表时,我认为 R 具有对列表元素有用的命名结构。我有一个列表列表,并希望应用包含在任何列表中的每个向量的函数。 lapply这样做但随后剥离了列表的命名结构。我该怎么办 lapply嵌套列
我正在做一个用于学习目的的个人组织者,我从来没有使用过 XML,所以我不确定我的解决方案是否是最好的。这是我附带的 XML 文件的基本结构:
我是新来的 nosql概念,所以当我开始学习时 PouchDB ,我找到了这个转换表。我的困惑是,如何PouchDB如果可以说我有多个表,是否意味着我需要创建多个数据库?因为根据我在 pouchdb
我是一名优秀的程序员,十分优秀!