gpt4 book ai didi

azure - 如何读取 XML 文件 Azure Databricks Spark

转载 作者:行者123 更新时间:2023-12-01 13:18:04 25 4
gpt4 key购买 nike

我在 MSDN 论坛上寻找一些信息,但找不到好的论坛/在 Spark 网站上阅读时,我得到暗示,在这里我会有更好的机会。所以最重要的是,我想读取 Blob 存储,其中有 XML 文件的连续源,所有小文件,最后我们将这些文件存储在 Azure DW 中。使用 Azure Databricks,我可以使用 Spark 和 python,但我找不到“读取”xml 类型的方法。一些示例脚本使用了库 xml.etree.ElementTree 但我无法导入它。因此,任何帮助我找到一个好的方向的帮助都是值得赞赏的。

最佳答案

一种方法是使用 databricks Spark-xml 库:

  1. 将spark-xml库导入到您的工作区 https://docs.databricks.com/user-guide/libraries.html#create-a-library (在maven/spark包部分搜索spark-xml并导入)
  2. 将库附加到您的集群 https://docs.databricks.com/user-guide/libraries.html#attach-a-library-to-a-cluster
  3. 在笔记本中使用以下代码来读取 xml 文件,其中“note”是我的 xml 文件的根目录。

xmldata = spark.read.format('xml').option("rootTag","note").load('dbfs:/mnt/mydatafolder/xmls/note.xml')

示例:

Example

关于azure - 如何读取 XML 文件 Azure Databricks Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52728741/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com