gpt4 book ai didi

apache-spark - 如何更改 Spark 机器学习示例中的持久级别。

转载 作者:行者123 更新时间:2023-12-01 04:39:45 25 4
gpt4 key购买 nike

我正在做一些基准测试来重放一些著名论文的实验。

为此,我使用了与 spark 源捆绑在一起的示例,并使用如下命令执行逻辑回归。

./bin/spark-submit --driver-memory 6g --conf "spark.memory.fraction=0.6" examples/src/main/python/mllib/logistic_regression.py svm.txt 100

但是,我想更改中间数据的存储级别(如持久性 MEMORY_ONLY 或 DISK_ONLY),但找不到办法。我检查了 logistic_regression.py、classification.py 和 common.py,但这些文件不包含任何持久性代码或中间数据缓存。

你能告诉我要修复的文件在哪里吗?提前致谢。

最佳答案

当然可以。如果您查看代码。你可以持久化 rdd:

if __name__ == "__main__":
if len(sys.argv) != 3:
print("Usage: logistic_regression <file> <iterations>", file=sys.stderr)
exit(-1)
sc = SparkContext(appName="PythonLR")
points = sc.textFile(sys.argv[1]).map(parsePoint)
# persist rdd
points.persist(pyspark.StorageLevel.MEMORY_ONLY)

关于apache-spark - 如何更改 Spark 机器学习示例中的持久级别。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45029121/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com