java - 从显示 OutOfMemoryError : Java heap space 的大型 Pyspark 数据帧创建字典-6ren

java - 从显示 OutOfMemoryError : Java heap space 的大型 Pyspark 数据帧创建字典

转载作者：行者123 更新时间：2023-12-01 14:31:44

25

4

我见过并尝试过很多existing StackOverflow 发布了有关此问题的帖子，但没有任何效果。我猜我的 JAVA 堆空间没有我的大型数据集预期的那么大，我的数据集包含 6.5M 行。我的 Linux 实例包含 64GB 内存和 4 个内核。根据这个suggestion我需要修复我的代码，但我认为从 pyspark 数据框制作字典应该不会很昂贵。如果有任何其他计算方法，请告诉我。

我只想从我的 pyspark 数据框制作一个 python 字典，这是我的 pyspark 数据框的内容，

property_sql_df.show() 显示，

+--------------+------------+--------------------+--------------------+
|            id|country_code|       name|          hash_of_cc_pn_li|
+--------------+------------+--------------------+--------------------+
|  BOND-9129450|          US|Scotron Home w/Ga...|90cb0946cf4139e12...|
|  BOND-1742850|          US|Sited in the Mead...|d5c301f00e9966483...|
|  BOND-3211356|          US|NEW LISTING - Com...|811fa26e240d726ec...|
|  BOND-7630290|          US|EC277- 9 Bedroom ...|d5c301f00e9966483...|
|  BOND-7175508|          US|East Hampton Retr...|90cb0946cf4139e12...|
+--------------+------------+--------------------+--------------------+

我想要的是用 hash_of_cc_pn_li 作为键和 id 作为列表值制作一个字典。

预期输出

{
  "90cb0946cf4139e12": ["BOND-9129450", "BOND-7175508"]
  "d5c301f00e9966483": ["BOND-1742850","BOND-7630290"]
}

到目前为止我尝试了什么，

方式一:导致java.lang.OutOfMemoryError: Java heap space

%%time
duplicate_property_list = {}
for ind in property_sql_df.collect(): 
     hashed_value = ind.hash_of_cc_pn_li
     property_id = ind.id
     if hashed_value in duplicate_property_list:
         duplicate_property_list[hashed_value].append(property_id) 
     else:
         duplicate_property_list[hashed_value] = [property_id]

方式 2:由于在 pyspark 上缺少 native OFFSET 而无法工作

%%time
i = 0
limit = 1000000
for offset in range(0, total_record,limit):
    i = i + 1
    if i != 1:
        offset = offset + 1
        
    duplicate_property_list = {}
    duplicate_properties = {}
    
    # Preparing dataframe
    url = '''select id, hash_of_cc_pn_li from properties_df LIMIT {} OFFSET {}'''.format(limit,offset)  
    properties_sql_df = spark.sql(url)
    
    # Grouping dataset
    rows = properties_sql_df.groupBy("hash_of_cc_pn_li").agg(F.collect_set("id").alias("ids")).collect()
    duplicate_property_list = { row.hash_of_cc_pn_li: row.ids for row in rows }
    
    # Filter a dictionary to keep elements only where duplicate cound
    duplicate_properties = filterTheDict(duplicate_property_list, lambda elem : len(elem[1]) >=2)
    
    # Writing to file
    with open('duplicate_detected/duplicate_property_list_all_'+str(i)+'.json', 'w') as fp:
        json.dump(duplicate_property_list, fp)

我现在在控制台上得到的内容:

java.lang.OutOfMemoryError: Java heap space

并在 Jupyter 笔记本输出 上显示此错误

ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:33097)

这是我在这里提出的后续问题: Creating dictionary from Pyspark dataframe showing OutOfMemoryError: Java heap space

最佳答案

为什么不在 Executors 中保留尽可能多的数据和处理，而不是收集到 Driver？如果我理解正确，您可以使用 pyspark 转换和聚合并直接保存到 JSON，因此利用执行程序，然后将该 JSON 文件(可能已分区)作为字典加载回 Python。不可否认，您引入了 IO 开销，但这应该可以让您解决 OOM 堆空间错误。一步一步:

import pyspark.sql.functions as f


spark = SparkSession.builder.getOrCreate()
data = [
    ("BOND-9129450", "90cb"),
    ("BOND-1742850", "d5c3"),
    ("BOND-3211356", "811f"),
    ("BOND-7630290", "d5c3"),
    ("BOND-7175508", "90cb"),
]
df = spark.createDataFrame(data, ["id", "hash_of_cc_pn_li"])

df.groupBy(
    f.col("hash_of_cc_pn_li"),
).agg(
    f.collect_set("id").alias("id")  # use f.collect_list() here if you're not interested in deduplication of BOND-XXXXX values
).write.json("./test.json")

检查输出路径:

ls -l ./test.json

-rw-r--r-- 1 jovyan users  0 Jul 27 08:29 part-00000-1fb900a1-c624-4379-a652-8e5b9dee8651-c000.json
-rw-r--r-- 1 jovyan users 50 Jul 27 08:29 part-00039-1fb900a1-c624-4379-a652-8e5b9dee8651-c000.json
-rw-r--r-- 1 jovyan users 65 Jul 27 08:29 part-00043-1fb900a1-c624-4379-a652-8e5b9dee8651-c000.json
-rw-r--r-- 1 jovyan users 65 Jul 27 08:29 part-00159-1fb900a1-c624-4379-a652-8e5b9dee8651-c000.json
-rw-r--r-- 1 jovyan users  0 Jul 27 08:29 _SUCCESS
_SUCCESS

作为 dict 加载到 Python:

import json
from glob import glob

data = []
for file_name in glob('./test.json/*.json'):
    with open(file_name) as f:
        try:
            data.append(json.load(f))
        except json.JSONDecodeError:  # there is definitely a better way - this is here because some partitions might be empty
            pass

最后

{item['hash_of_cc_pn_li']:item['id'] for item in data}

{'d5c3': ['BOND-7630290', 'BOND-1742850'],
 '811f': ['BOND-3211356'],
 '90cb': ['BOND-9129450', 'BOND-7175508']}

希望对您有所帮助!谢谢你提出的好问题!

关于java - 从显示 OutOfMemoryError : Java heap space 的大型 Pyspark 数据帧创建字典，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63109775/

25

4

0

文章推荐： java - 如何将照片相机应用程序保存在公共(public)目录中

文章推荐： java - 使用 AbstractTableModel 从 JTable 中删除或添加行

文章推荐： java - quartz spring集成调度，是否可以动态设置cron触发器

docker - 为什么 "Data Space Used"+ "Data Space Available"!= "Data Space Total"在 docker 中？
我系统上的docker info命令输出如下: # docker info Containers: 0 Images: 0 Storage Driver: devicemapper ..... D
c++ - 如何捕获 CTRL + SPACE + SPACE 按键
我如何捕获用户按下 ctrl + space + space？我用这段代码成功测试了ctrl + space: RegisterHotKey(0, 1, MOD_CONTROL, VK_SPACE)
Matlab cdfplot : how to control the spacing of the marker spacing
我有一个 Matlab 图，我想在论文中使用。此图包含多个 cdfplots。现在的问题是我不能使用标记，因为在情节中变得非常密集。如果我想让样本稀疏，我必须从 cdfplot 中删除一些样本，这将导
linux - grep:字符类语法是 [[:space:]]，而不是 [:space:]
我正在尝试获取我将用于备份的服务器上所有数据库的列表。以下是我尝试打印数据库列表但出现错误的代码片段。如何解决？添加双方括号并不能解决问题。我已经研究了一些类似的问题，但我无法弄清楚。 grep:字
java - jmap中显示的 "From Space"和 "To Space"是什么意思？
我了解 new gen/old gen/perm gen 之间的区别，但我不知道“To Space”和“From Space”是什么。我看到我的“From Space”使用率达到 99.8%，而“To
c# - 使用正则表达式迭代字符串并搜索 3 个连续的连字符并将其替换为 [space][hyphen][space]
我当前有一个返回时看起来像这样的字符串: //This is the url string // the-great-debate---toilet-paper-over-or-under-the-r
regex - 正则表达式查找破折号的实例，但不是 dash 的实例
我太亲密了。我正在尝试编写用于Notepad++的正则表达式表达式，以用空格替换破折号，而忽略已经用前置/后置空格代替的破折号。我知道我可以用“foobarfoo”搜索/替换“-”，然后搜索“-”替换
ANTLR : How to replace all characters defined as space with actual space
我的 ANTLR 代码如下: LPARENTHESIS : ('('); RPARENTHESIS : (')'); fragment CHARACTER : ('a'..'z'|'0'..'9'|)
javascript - 3d 数学 : screen space to world space
在过去的 6 个小时里，我一直在尝试在我的 webgl 应用程序中实现点击，但我找不到任何关于这个主题的足够清晰的内容。到目前为止，我想出的是伪代码: screenSpace = mousePosi
regex - 正则表达式 : find spaces (tabs/space), 但不是换行符
如何使用正则表达式来测试空格或制表符，但不测试换行符？我尝试了 \s，但我发现它也测试换行符。我使用C# (.NET) 和 WPF ，但这应该不重要。最佳答案使用字符类:[\t] 关于rege
c - 如何让 Ragel 解析由 (space* ":"space*) 分隔的两个名称？
我想解析以下内容: name:name 名称以字母开头和结尾，并且可以包含字母和空格的任意组合。它们也可以是空白的。我的规则是: identifier = alnum (space* alnum)*;
java - 如何使 Eden Space 大小加倍 Tenured Space
有什么办法可以让 Eden 空间按比例大于 Tenured 空间吗？有 NewRatio 但它以相反的方式工作(Tenured 比 Eden 大几倍)。我知道有 -XX:NewSize= 和 -XX
java - : Allow only letters and spaces but not start with space? 的正则表达式是什么
我正在编写一个程序，让人们输入他们的信息(姓名，年龄......)。对于姓名输入，我不希望他们留空，只允许字母和空格，但不能以空格开头。合适的正则表达式是什么？我尝试使用: ^[a-zA-Z\\s]*
java - 使用 for 循环更新总和(例如 spaces = spaces + 2)
好的，我正在制作一个程序，它也可以制作垂直线、水平线和对角线!我对我的一个没有任何意义的输出感到困惑。所以我的伪代码是这样的: //enter a char //enter a number
linux - 如何操作名为 [space][space]. 的 linux 文件？
当我使用 scp 从服务器复制文件时，我错误地使用了命令 scp xxx@xxxx:xx.zip . 当我完成后，我发现该文件的名称是 .我无法解压这是目录列表。 http://pfil
Windows批处理文件获取C :\drive total space and free space available
我需要一个 bat 文件来获取 Windows 系统中 C:\驱动器的总空间和可用空间(以 GB(千兆字节)为单位)，并创建一个包含详细信息的文本文件。注意:我不想使用任何外部实用程序。最佳答案
python : replacing a space after numbers keeping space after letters
作为预处理我的数据的一部分。我希望能够替换空格后跟数字，同时保留空格后跟一个字符。例如: Input String: '8.1.7 Sep 2000 Dec 2004 Dec 2006 Indefin
xpath - normalize-space(.) 和 normalize-space(text()) 有什么区别？
我正在编写一个 XPath 表达式，但我修复了一个奇怪的错误，但是以下两个 XPath 表达式之间有什么区别？ "//td[starts-with(normalize-space()),'Posted
我可以从 C 中的文本文件中读取 int 吗，如果我知道会有 (space)###(space)
在 C 中，当读取文本文件时，是否有可能接受一个未知大小的整数值(假设它适合 int)，因为它在数字之前和数字之后都有一个空格。例如。 363 865我想分别存储 363 和 865，因为它们有自己的
ios - osx 上的 ‘I Space’ 和 ‘D Space’ 是什么以及它们之间的区别
在 sys/ptrace.h 中，我看到类似这样的内容: @define PT_READ_I 1 /* read world in child's I space*/ @define PT_READ

首页

博学

6Ren·AI

商城

java - 从显示 OutOfMemoryError : Java heap space 的大型 Pyspark 数据帧创建字典