python - 如何读取 Databricks 中的 Azure CosmosDb 集合并写入 Spark DataFrame-6ren

python - 如何读取 Databricks 中的 Azure CosmosDb 集合并写入 Spark DataFrame

转载作者：太空宇宙更新时间：2023-11-03 20:57:16

24

4

我正在查询 CosmosDb 集合，并且能够打印结果。当我尝试将结果存储到 Spark DataFrame 时，它失败了。

引用此网站作为示例:

How to read data from Azure's CosmosDB in python

按照上述链接中的具体步骤进行操作。此外，尝试以下操作

 df = spark.createDataFrame(dataset)

这会引发此错误:

ValueError: Some of types cannot be determined after inferring

ValueError Traceback (most recent call last)
in ()
25 print (dataset)
26
---> 27 df = spark.createDataFrame(dataset)
28 df.show()
29

/databricks/spark/python/pyspark/sql/session.py in createDataFrame(self, data, schema, samplingRatio, verifySchema)
808 rdd, schema = self._createFromRDD(data.map(prepare), schema, samplingRatio)
809 else:
--> 810 rdd, schema = self._createFromLocal(map(prepare, data), schema)
811 jrdd = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd())
812 jdf = self._jsparkSession.applySchemaToPythonRDD(jrdd.rdd(), schema.json())

/databricks/spark/python/pyspark/sql/session.py in _createFromLocal(self, data, schema)
440 write temp files.
441 """
--> 442 data, schema = self._wrap_data_schema(data, schema)
443 return self._sc.parallelize(data), schema

但是，希望将其保存为 Spark DataFrame

任何帮助将不胜感激。谢谢!!!>

最佳答案

为了推断字段类型，PySpark 会查看每个字段中的非无记录。如果字段只有 None 记录，PySpark 无法推断类型并会引发该错误。

手动定义架构将解决该问题

>>> from pyspark.sql.types import StructType, StructField, StringType
>>> schema = StructType([StructField("foo", StringType(), True)])
>>> df = spark.createDataFrame([[None]], schema=schema)
>>> df.show()
+----+
|foo |
+----+
|null|
+----+

希望有帮助。

关于python - 如何读取 Databricks 中的 Azure CosmosDb 集合并写入 Spark DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55937765/

24

4

0

文章推荐： CSS如何获得相同的高度？

文章推荐： Css capitalize 不会影响 http-post

文章推荐： opencv - 面部表情检测

azure-cosmosdb - CosmosDB DocumentDB-API 与 CosmosDB MongoDB-API？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
azure-cosmosdb - CosmosDB 中的触发器未触发？
我在我的 CosmosDB 集合中创建了一个简单的 Pre Trigger。 function testTrigger() { var context = getContext();
azure-cosmosdb - CosmosDB，通过嵌套数组帮助扁平化和过滤
我正在尝试扁平化和过滤 CosmosDB 中的 json 数据。数据如下所示，我想展平数组变量中的所有内容，然后按数组内的特定 _id 和时间戳进行过滤: { "_id": 21032, "Firs
azure-cosmosdb - CosmosDb 首次连接可能需要很多秒
我正在测试 CosmosDb。我发现初始连接通常需要很多秒。我编写了一个小型 .net core 2.2 控制台应用程序来演示该问题。 static async System.Threading
azure-cosmosdb - CosmosDb 首次连接可能需要很多秒
我正在测试 CosmosDb。我发现初始连接通常需要很多秒。我编写了一个小型 .net core 2.2 控制台应用程序来演示该问题。 static async System.Threading
azure-cosmosdb - CosmosDB 中的许多小文档
我有很多(大约 100 条)数据要与 CosmosDB 中的文档相关联。每条数据都很小(大约 100 个字节)。我的第一个解决方案是将数据作为数组存储在文档中。这可以正常工作，但是为了将新项目附加到
azure-cosmosdb - CosmosDB/DocumentDB 在同一集合中使用多种类型进行分区
据我所知，团队的官方建议是将所有数据类型放入单个集合中，例如 type=someType文档上的字段以区分类型。现在，如果我们假设具有分区的大型数据库，其中不同的对象类型可以是: 完全不同的字段(因
azure-cosmosdb - 是否可以在 CosmosDB 中存储和查询数组空间数据？
这是我们要存储的示例文档: { "name": "Joe Bloggs", "locations": [ { "type": "Point", "coordinates": [1,1] }, { "t
azure-cosmosdb - 获取 CosmosDB 集合中每个分区的大小
是否可以获得的大小？每 Cosmos DB 集合中的分区？我知道门户会在 Metrics Blade 中显示集合中的前几个分区，但我对查看每个分区的大小很感兴趣。最佳答案我相信您应该能够通过 Co
azure-cosmosdb - 连接到多个 CosmosDB 文档
我试图在 Cosmos 中拥有多个文档，一旦提交，其中一个将保存提交表单中的一些数据。我正在尝试使用其他一些文档来保存下拉选择列表的数据。我如何能够连接到多个 config.containerId 以
azure-cosmosdb - TinkerPop/CosmosDB 中的命令式匹配
我想做一个这样的查询 g.V().match( as('foo').hasLabel('bar'), as('foo').out('baz').hasId('123'), as('foo'
azure-cosmosdb - 如何在 CosmosDB 中使用 HAVING
我正在尝试使用以下查询来查看数据库中是否有重复项 SELECT c.VariantNo, count(1) AS jongel FROM c where c.brand = 'XXXX' AND c.
azure-cosmosdb - 返回 CosmosDB 中的部分文档
我有一个包含许多字段的大型文档，我只想从对象返回 1-2 个字段以保持吞吐量。这在 cosmosDB 中可能吗？还是我每次都需要返回整个对象？最佳答案使用 ReadItemAsync() 进行点读
azure-cosmosdb - 从 CosmosDB 中的数组获取对象字段值
我有一个 CosmosDB 查询: SELECT food.tags FROM food 返回这个: { "tags": [ { "name": "babyfood"
azure-cosmosdb - 从 CosmosDB 中文档嵌套数组中的对象中选择值
想象一下我们有一个这样的集合(示例取自 https://www.documentdb.com/sql/demo ) { "_id" : "19015", "description" :
azure-cosmosdb - 缓慢的 CosmosDB Mongodb 查询
我正在使用 MongoDB api 访问 Azure 上的 CosmosDb。我收集了数千份文件。它们的形状是这样的: { "_id" : ObjectId("5b4f574ac2100c8
azure-cosmosdb - Azure CosmosDB 嵌套 WHERE 查询
我正在尝试在 CosmosDB 中实现以下查询: SELECT * FROM c WHERE c.timestamp = (SELECT VALUE MAX(c.timestamp) FROM c )
azure-cosmosdb - cosmosdb 的 XML 架构
我们可以在 cosmos Db 中添加 XML Schema 吗？如果是，我们如何查询它们？我可以将 XML 数据保存为字符串，但如何查询它们？下面是我收藏的文档: { "id":
azure-cosmosdb - cosmosdb - 将超过 n 年的数据存档到冷存储中
我研究了几个地方，但找不到有关将旧数据从 cosmosdb 存档到冷存储的选项的任何方向。我看到 AWS 中的 DynamoDb 提到您可以将 dynamodb 数据移动到 S3 中。但不确定 cos
azure-cosmosdb - CosmosDB C# Gremlin - 发送查询时出现异常
取自:https://learn.microsoft.com/en-us/azure/cosmos-db/create-graph-dotnet 我在 .wait() 部分遇到异常: NullR

首页

博学

6Ren·AI

商城

python - 如何读取 Databricks 中的 Azure CosmosDb 集合并写入 Spark DataFrame

ValueError: Some of types cannot be determined after inferring