python - 如何找到当前 spark 上下文中加载的所有文本文件？-6ren

python - 如何找到当前 spark 上下文中加载的所有文本文件？

转载作者：可可西里更新时间：2023-11-01 16:35:05

26

4

例如，当我在 Spark Shell 中使用 PySpark 时，我可能会使用以下命令将文件加载到 spark 上下文中:

readme = sc.textFile("/home/data/README.md")

然后我可以像下面这样对这个 RDD(?) 执行操作来计算文件中的行数:

readme.count()

但是我想知道的是，我如何才能获得已加载到 sc 中的所有 sc.textFile(s) 的列表(spark 上下文)?

例如，下面有一些命令可以获取所有配置，但它没有列出我加载的所有文本文件。

sc._conf.getAll()

有什么方法可以找到所有已加载到 spark 上下文中的文本文件吗？列表？

最佳答案

SparkContext.textFile 不在 Spark 上下文中存储任何内容。看看 sources

  /**
   * Read a text file from HDFS, a local file system (available on all nodes), or any
   * Hadoop-supported file system URI, and return it as an RDD of Strings.
   * The text files must be encoded as UTF-8.
   *

您始终可以缓存 RDD，以便将它们保存在内存中。这post解释缓存机制。

如果你想跟踪你的 spark 作业中的文件，spark-submit 提供了 --files 标志来将文件上传到执行目录。如果您有不会更改的小文件。

如果您添加外部文件，spark-submit 会提供--files 标志

spark-submit --files 您的文件将上传到此 HDFS 文件夹:hdfs://your-cluster/user/your-user/.sparkStaging/application_1449220589084_0508

application_1449220589084_0508 是 yarn 应用程序 ID 的示例!

在您的 spark 应用程序中，您可以通过两种方式找到您的文件:

1- 通过下面的代码找到 spark 暂存目录:(但你需要有 hdfs uri 和你的用户名)

System.getenv("SPARK_YARN_STAGING_DIR");

.sparkStaging/application_1449220589084_0508

2- 使用以下命令找到完整的逗号分隔文件路径:

System.getenv("SPARK_YARN_CACHE_FILES");

hdfs://yourcluster/user/hdfs/.sparkStaging/application_1449220589084_0508/spark-assembly-1.4.1.2.3.2.0-2950-hadoop2.7.1.2.3.2.0-2950.jar#spark.jar,hdfs://yourcluster/user/hdfs/.sparkStaging/application_1449220589084_0508/your-spark-job.jar#app.jar,hdfs://yourcluster/user/hdfs/.sparkStaging/application_1449220589084_0508/test_file.txt#test_file.txt

关于python - 如何找到当前 spark 上下文中加载的所有文本文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56202121/

26

4

0

文章推荐： hadoop - 使用控制字符作为分隔符的 Sqoop 导入

文章推荐： java - 为什么我得到 java.net.SocketException : Connection reset

文章推荐： android - 使用 Android 创建高级 http 实体

C# 使用 block 上下文，在另一个使用 block 上下文
出现以下错误 Network access for Distributed Transaction Manager (MSDTC) has been disabled. Please enable D
c# - CLR 无法从 COM 上下文 0x3b2d70 转换到 COM 上下文
在调试应用程序时出现以下错误。 The CLR has been unable to transition from COM context 0x3b2d70 to COM context 0x3b2
google-app-engine - Google App Engine 上下文。上下文与 gorilla 上下文
在 GAE Go 中，为了记录，我们需要使用 appengine.NewContext(r) 创建一个新的上下文，它返回 context.Context。如何使用此上下文在请求范围内设置/获取变量？
javascript - 如何使用 Puppeteer 或 Chrome 控制台以编程方式切换 JS 上下文(到不同域的 iframe 上下文)
我想使用 Puppeteer 从放置在页面上 iframe 内的选择器中获取数据，该页面在与其父框架域不同的域上运行。因此，我不是任何域的所有者 - 无法使用 frame.postMessage。试
java - Appium 不显示 webview 上下文，它只显示 native 应用程序上下文。如何获取 webview 上下文？
我正在尝试获取可用的应用程序上下文并想切换到 webview 上下文，但 appium 仅获取 Navive App。应用程序还启用了 WebView。 Appium 版本:1.10.1 Chrom
flutter - 没有名称为 'nullOk' 的命名参数。上下文 != null ? Localizations.localeOf(上下文，nullOk : true) : null,
这个问题在这里已经有了答案: How to fix this nullOk error when using the flutter_svg package? (7 个回答) 7 个月前关闭。当我尝
ios - Swift 3 核心数据 - 实体(上下文 :) vs Entity(entity: Location. 实体()，insertInto:上下文)
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
javascript函数和this关键字，上下文
这是代码 obj = { a: 'some value'; m: function(){ alert(this.a); } } obj.m(); 结果是'som
Jquery "this"上下文
我正在尝试做类似的事情 $(".className").click(function() { $(this).(".anotherClass").css("z-index","1");
JavaScript 上下文
var User = { Name: "Some Name", Age: 26, Show: function() { alert("Age= "+this.Age)}; }; fun
ReactJS 上下文 > 从状态函数引用最新状态值
我目前正在使用我见过的常见 Context 模式，它允许子组件通过传递修饰函数来更新父组件的状态(即 Provider)通过共享的 Context。我遇到的问题是，修改函数只引用原始状态，不引用最新
FlowType react 上下文
有没有办法让 React Context类型安全与流类型？例如: Button.contextTypes = { color: React.PropTypes.string }; 最佳答案不幸
每个功能的 Behat 上下文
我想知道是否有一种方法可以为不同的功能使用不同的上下文类。我希望有一个功能使用 MinkExtensions 进行浏览器测试，另一个功能使用和 HTTP 客户端(如 Guzzle)进行 API 测试
未设置 Kubernetes 上下文
我有这个配置文件 apiVersion: v1 clusters: - cluster: server: [REDACTED] // IP of my cluster name: stag
c - 我需要了解编译器如何解释＆tcb->上下文
我在实现非抢先式调度时遇到了用于初始化TCB的代码。 typedef struct TCB_t { struct TCB_t *next; struct TCB_t
匿名函数中的 JavaScript 上下文
我想将一个函数设置为数组中每个元素的属性，但使用不同的参数调用它。我想我会使用匿名函数来解决它: for ( var i = 0; i < object_count; i++ ) { obje
javascript - 在方法中丢失对象 "this"上下文
这个问题已经有答案了: How to access the correct `this` inside a callback (15 个回答) 已关闭 7 年前。我正在做一些练习，但我在管道方法中丢
Java -> 上下文，需要表达式吗？
我正在尝试通过 Java 和 Android Studio 学习和制作 Android 应用程序。我对Java的了解程度是两年前几个小时的youtube学习和大学基础类(class)。不过我确实知道如
java - 如何解决(上下文: this)
我在(这个)上遇到了问题。错误ImageView无法应用。我在 fragment 类中执行此代码。 ViewFlipper v_flipper; @Nullable @Override public
控制台中的 openGL 上下文
我想使用 openGL 的某些功能，但与渲染视觉内容无关。有没有办法在没有任何依赖性的情况下创建它(不是对 Windows，也不是某些包[SDL，SFML，GLUT])？只允许使用没有外部库的库，就像

首页

博学

6Ren·AI

商城

python - 如何找到当前 spark 上下文中加载的所有文本文件？