- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 Azure 和 Databricks 的初学者,我在使用 Spark 连接器将大量数据(例如 5 GB)从 Azure Databricks 保存到 Cosmos DB 时遇到困难。
前言:我面临一个问题,因为我想用大量行(例如 5 亿+)填充 Cosmos DB 容器以进行进一步测试。目前,我有一个容器(例如容器#1),我在其中使用流分析传输遥测数据。我想要实现的是从容器 #1 中获取数据,将数据相乘多次,然后将其保存到新的容器 #2 中。我想使用 Spark 连接器和 Databricks 来解决这个问题,但是保存速度非常慢,例如。每 40 分钟 100 万行,当我想向其中保存 GB 的行时,这是 Not Acceptable 。另一方面,从容器中读取数据的速度非常快,例如。 130 万行需要 10 秒。我禁用了容器 #2 上的索引,因为我读到这应该会带来一些好处,但实际上并没有产生非常明显的差异。容器 #2 设置为 2000 RU,容器 #1 设置为 1000 RU,两个吞吐量都设置为自动缩放。
不幸的是,我不知道我做错了什么,因此我们将不胜感激任何帮助,甚至是解决此问题的其他可能方法的建议(例如 Synapse Analytics 等)。
附注我在某处读到,我应该首先尝试保存到 ADLS 2 存储,然后从中读取数据帧,然后读取到 Cosmos DB。它确实提供了改进,但仍然没有接近可接受的速度。
我提前为我的英语蹩脚道歉,而不是我的母语。
配置
connectionConfigRead = {
"spark.cosmos.accountEndpoint" : Endpoint,
"spark.cosmos.accountKey" : Masterkey,
"spark.cosmos.database" : Database,
"spark.cosmos.container": Container,
"spark.cosmos.read.inferSchema.enabled" : "false",
"spark.cosmos.changeFeed.startFrom" : "Now"
}
connectionConfigWrite = {
"spark.cosmos.accountEndpoint" : Endpoint,
"spark.cosmos.accountKey" : Masterkey,
"spark.cosmos.database" : Database,
"spark.cosmos.container": Container2,
"spark.cosmos.changeFeed.startFrom" : "Now"
}
从容器中读取
customSchema = StructType([
StructField("iothub-connection-module-id", StringType()),
StructField("value_type", StringType()),
StructField("timestamp", DoubleType()),
StructField("data", StringType()),
StructField("IoTHub", StringType()),
StructField("id", StringType()),
StructField("EventEnqueuedUtcTime", StringType()),
StructField("sensorId", StringType()),
StructField("EventProcessedUtcTime", StringType()),
StructField("PartitionId", IntegerType()),
StructField("value", DoubleType())
])
readDF = (spark.read.schema(customSchema).format("cosmos.oltp").options(**connectionConfigRead).load())
写入容器
readDF.write.mode("append").format("cosmos.oltp").options(**connectionConfigWrite).save()
最佳答案
2 号容器没有足够的吞吐量。假设每次插入的速度为 10 RU/s,则 2000 RU/s 每秒最多可以执行 200 次插入。即 12k/分钟或 720k/小时。由于您只处理 5 GB 数据和数百万行,因此我会将自动缩放最大吞吐量扩展到 10000 RU/s,即 1000/秒或 3.6M/小时。获取有关 Spark 连接器的更多信息,Spark OLTP connector resources 。另外,请确保 Databricks 和 Cosmos DB 在同一区域中运行。这可能是导致延迟增加的原因。
如果您要查询容器#2,您需要对其建立索引。找出您用于过滤谓词、排序依据等的属性,并在需要时创建必要的范围和复合索引。
关于azure - 从 Azure Databricks 将数据保存到 Cosmos DB 的速度非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73853146/
我们是 COSMOS 新手,正在将多个应用程序迁移到云端。如果我们每个 COSMOS 实例只有一个数据库,或者所有应用程序数据库都在单个 COSMOS 实例中,那么这会具有哪些优点和缺点,这是否具有成
我有一个带有几个数据库的 Azure Cosmos 数据库,并且想要创建一个 Cosmos 服务帐户的副本(具有相同的 API/数据库),但没有数据,如何实现此目的? 克隆 Cosmos 服务帐户。”
我正在尝试使用 Azure Cosmos DB Data Migration Tool ,但无法连接到我的数据库。 在文档中指出 - The format of the Azure Cosmos DB
目标 使用 C#、.NET Core 2.2 将超过 100 万个文档导入 Azure Cosmos DB。 我尝试过的 我正在使用 Azure Cosmos Bulk Executor 库。我在这里
Microsoft 在 C#/.NET 中提供了两种使用 cosmos dbs 的方法。 可以使用 Entity Framework(EF) Core,它在后台使用 Cosmos SDK,并允许您将
宇宙Java SDK com.azure azure-cosmos 4.1.0 我们希望在将 POJO 序列化为 JSON 时使用自定义日期格式,目前它仅转换为 long。
CosmosDb 提供商正在发送此消息: “响应状态代码不表示成功:503 子状态:0 原因:(请求失败,因为客户端无法与跨 1 个区域的 3 个端点建立连接。请检查客户端资源匮乏问题并验证连接客户端
我正在尝试通过启用服务器端分页来从 Cosmos DB 获取数据。我有两个选择: 使用 EF Core Azure Cosmos DB 提供程序 var query = DbContext.Order
我已经下载了 Azure Cosmos DB Data Migration Tool从这里。我正在将 Sql 数据迁移到 Cosmos DB。使用迁移工具时。 Source Information 我
我有一个 Azure 函数,使用用 Python 编写的 Cosmos DB 触发器,该触发器具有与 Cosmos DB 的 IN 和 OUT 绑定(bind),因此当容器中更新文档时,我会在另一个容
我可以在 azure cosmos-db explore 中运行查询,如下图所示,并将响应视为 json 数组 我想使用 Java 和 azure-cosmos SDK 来执行相同的操作 下面是我的函
我需要运行聚合查询来计算记录数,例如从 Product_Ratings r 分组中选择 r.product_id、r.Rating、COUNT(1) 个 R.product_id、r.Rating。该
我找到了2个官方包 Microsoft.Azure.DocumentDB.Core This client library enables client applications targeting
我找到了2个官方包 Microsoft.Azure.DocumentDB.Core This client library enables client applications targeting
我正在尝试将包含 JSON 列表的 JSON 文件从 .Net 4.6.1 控制台应用程序批量导入到 Azure Cosmos DB。 我能够成功地创建数据库和容器。但是,我在第 40 行收到以下错误
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我想监视来 self 的应用程序的一些事件。 一种选择是将数据发送到 Azure 事件中心并使用流分析进行一些后处理并将数据输入到 cosmos db 中。 另一个选项是从应用程序存储到 cosmos
我想监视来 self 的应用程序的一些事件。 一种选择是将数据发送到 Azure 事件中心并使用流分析进行一些后处理并将数据输入到 cosmos db 中。 另一个选项是从应用程序存储到 cosmos
从 Udemy 类(class)获得了 .Net 代码并在我的本地运行。编写了一个连接到 Azure Cosmos DB 并创建项目的 Azure 函数。但无法连接到 Azure Cosmos DB。
我在尝试将它们与 .NET Core 3.1 一起使用的所有这些包之间迷失了方向。 我正在使用 Azure.Cosmos 和 Azure.Storage.Blob,但我不确定是否需要使用 Micros
我是一名优秀的程序员,十分优秀!