- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这是我的代码的想法:
我有一个很大的电子邮件数据 RDD,称为 email
。大约 7 亿封电子邮件。它看起来像这样:
[['value1','value2','value3','value4'],['recipient1','recipient2','recipient3'],['sender']]
email
中有超过 40,000 个不同的收件人和发件人电子邮件地址。我有一个包含 600 个我感兴趣的电子邮件地址的列表,如下所示:
relevant_emails = ['rel_email1','rel_email2','rel_email3',...,'rel_email600']
我想迭代我的大型 RDD email
以仅保留发件人和收件人都位于 relevant_emails
列表中的那些电子邮件。因此,我广播了 related_emails,以便每个工作节点都有一个副本:broadcast_emails = sc.broadcast(relevant_emails)
。
这是我想要应用于email
中每一行的函数:
def get_relevant_emails(row):
r_bool = False
s_bool = False
recipients = row[1]
sender = row[2]
if sender[0] in broadcast_emails.value:
s_bool = True
for x in range(0, len(recipients)):
if recipients[x] in broadcast_emails.value:
r_bool = True
break
if (r_bool is True and s_bool is True):
return row
我面临的问题是,当我运行 emails.map(lambda row: get_relevant_emails(row))
(然后用强制其执行的内容进行跟踪,例如 saveAsTextFile()
),它开始运行,然后发送:
警告:阶段 5 包含一个非常大的任务 (xxxx KB)。建议的最大任务大小为 100 KB
然后它停止运行。仅供引用:我在 Spark shell 中运行此程序,有 20 个执行器、每个执行器 10GB 内存、每个执行器 3 个核心。就 HDFS 上的 block 存储消耗而言,电子邮件
的大小为 76.7 GB,我将其分为 600 个分区(76.7 GB/128 MB)。
最佳答案
警告所指的任务大小可能是由于 get_relevant_emails() 函数中分配的变量数量所致。任务大小可能超过最大建议大小的另一种方法是引用函数范围之外的其他变量。
无论如何,我建议使用 DataFrame API,因为它使此操作更简单并且性能更好。它速度更快,因为它可以完成 Java 中的所有繁重工作,并且避免从 Python 和 Java Vms 来回编码数据。我和我的团队将大部分现有的 Python 逻辑转移到 SparkSQL 和 DataFrames 中,并看到了巨大的性能改进。
以下是它如何适用于您的案例:
from pyspark import SparkContext, SQLContext
from pyspark.sql.functions import broadcast, expr
sc = SparkContext()
sql_ctx = SQLContext(sc)
email = [
[['value1','value2','value3','value4'],['recipient1','recipient2','recipient3'],['sender1']],
[['value1','value2','value3','value4'],['recipient1','recipient2','recipient3'],['sender2']],
[['value1','value2','value3','value4'],['recipient1','recipient4','recipient5'],['sender3']]
]
relevant_addresses = [
["sender2"],
["sender3"],
["recipient3"]
]
email_df = sql_ctx.createDataFrame(email, ["values", "recipients", "sender"])
relevant_df = sql_ctx.createDataFrame(relevant_addresses, ["address"])
broadcasted_relevant = broadcast(relevant_df)
result = email_df.join(
broadcasted_relevant,
on=expr("array_contains(recipients, address) OR array_contains(sender, address)"),
how="leftsemi"
)
result.collect()
这里的左半连接就像一个过滤器,只从 email_df 中选择匹配的行。这与在 SQL 中使用“WHERE IN”子句时发生的连接类型相同。
关于python - Spark : Warning that task size is too large despite no large, 非分布式文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35607579/
ValueError Traceback (most recent call last) in 23 out
在 CSS 中,我从来没有真正理解为什么会发生这种情况,但每当我为某物分配 margin-top:50% 时,该元素就会被推到页面底部,几乎完全消失这一页。我假设 50% 时,该元素将位于页面的中间位
我正在尝试在 pyTorch 中训练我的第一个神经网络(我不是程序员,只是一个困惑的化学家)。 网络本身应该采用 1064 个元素向量并用 float 对它们进行评级。 到目前为止,我遇到了各种各样的
我有一个简单的问题。如何在 3 个维度上移动线性阵列?这似乎太有效了,但在 X 和 Y 轴上我遇到了索引问题。我想这样做的原因很简单。我想创建一个带有 block 缓冲区的体积地形,所以我只需要在视口
我正在尝试运行我购买的一本关于 Pytorch 强化学习的书中的代码。 代码应该按照本书工作,但对我来说,模型没有收敛,奖励仍然为负。它还会收到以下用户警告: /home/user/.local/li
我目前正在使用 this repo使用我自己的数据集执行 NLP 并了解有关 CNN 的更多信息,但我一直遇到有关形状不匹配的错误: ValueError: Target size (torch.Si
UIScrollView 以编程方式设置,请不要使用 .xib 文件发布答案。 我的 UIScrollView 位于我的模型类中,所以我希望代码能够轻松导入到另一个项目中,例如。适用于 iPad 或旋
我在我的 Ruby on Rails 应用程序(版本 4.3.1)中使用 Bootstrap gem。我最近发现了响应式字体大小功能 (rfs)。根据 Bootstrap 文档,它刚刚在 4.3 版中
这个问题不太可能帮助任何 future 的访客;它仅与一个小地理区域、一个特定时刻或一个非常狭窄的情况相关,而这些情况通常不适用于互联网的全局受众。如需帮助使这个问题更广泛地适用,visit the
size 之间的语义区别是什么?和 sizeIs ?例如, List(1,2,3).sizeIs > 1 // true List(1,2,3).size > 1 // true Luis 在 c
我想从 div 中删除一些元素属性。我的 div 是自动生成的。我想遍历每个 div 和子 div,并想删除所有 font-size (font-size: Xpx)和 size里面font tag
super ,对 Python 和一般编程 super 新手。我有一个问题应该很简单。我正在使用一本使用 Python 3.1 版的 python 初学者编程书。 我目前正在写书中的一个程序,我正在学
我无法从 NativeBase 更改缩略图的默认大小。我可以显示默认圆圈,即小圆圈和大圆圈,但我想显示比默认大小更大的圆圈。这是我的缩略图代码: Prop 大小不起作用,缩略图仍然很小。 我的 Na
我是pytorch的新手。在玩张量时,我观察到了两种类型的张量- tensor(58) tensor([57.3895]) 我打印了它们的形状,输出分别是 - torch.Size([]) torch
这是我的 docker images 命令的输出: $ docker images REPOSITORY TAG IMAGE ID CREATED
来自 PriorityQueue 的代码: private E removeAt(int i) { assert i >= 0 && i < size; modCount++;
首先,在我的系统上保留以下内容:sizeof(char) == 1 和 sizeof(char*) == 4。很简单,当我们计算下面类的总大小时: class SampleClass { char c
我正在编写一个游戏来查找 2 个图像之间的差异。我创建了 CCSprite 的子类 Spot。首先我尝试创建小图像并根据其位置添加自身,但后来我发现位置很难确定,因为很难避免 1 或 2 个像素的偏移
我有一个 Tumblr Site每个帖子的宽度由标签决定。 如果一篇文章被标记为 #width200,CSS 类 .width200 被分配。 问题是,虽然帖子的宽度不同,但它们都使用主题运算符加载相
这个问题在这里已经有了答案: What is the ideal growth rate for a dynamically allocated array? (12 个答案) 关闭 8 年前。 我
我是一名优秀的程序员,十分优秀!