gpt4 book ai didi

google-cloud-platform - GCP Dataproc 已推出 Druid alpha 版。如何加载段?

转载 作者:行者123 更新时间:2023-12-02 17:45:47 25 4
gpt4 key购买 nike

描述druid支持的dataproc页面没有关于如何将数据加载到集群中的部分。我一直在尝试使用 GC Storage 来做到这一点,但不知道如何为其设置一个有效的规范。我希望“firehose”部分有一些针对存储桶的谷歌特定引用,但没有示例如何执行此操作。

将数据加载到 Druid 中的方法是什么,直接在 GCP dataproc 上运行?

最佳答案

我没有使用 Dataproc 版本的 Druid,但有一个在 Google Compute VM 中运行的小型集群。我从 GCS 获取数据的方式是使用 Google Cloud Storage Druid 扩展 - https://druid.apache.org/docs/latest/development/extensions-core/google.html

要启用扩展,您需要将其添加到 Druid common.properties 文件中的扩展列表中:

druid.extensions.loadList=["druid-google-extensions", "postgresql-metadata-storage"]

为了从 GCS 获取数据,我将 HTTP POST 请求发送到 http://druid-overlord-host:8081/druid/indexer/v1/task

POST 请求正文包含带有摄取规范的 JSON 文件(请参阅 ["ioConfig"]["firehose"] 部分):

{
"type": "index_parallel",
"spec": {
"dataSchema": {
"dataSource": "daily_xport_test",
"granularitySpec": {
"type": "uniform",
"segmentGranularity": "MONTH",
"queryGranularity": "NONE",
"rollup": false
},
"parser": {
"type": "string",
"parseSpec": {
"format": "json",
"timestampSpec": {
"column": "dateday",
"format": "auto"
},
"dimensionsSpec": {
"dimensions": [{
"type": "string",
"name": "id",
"createBitmapIndex": true
},
{
"type": "long",
"name": "clicks_count_total"
},
{
"type": "long",
"name": "ctr"
},
"deleted",
"device_type",
"target_url"
]
}
}
}
},
"ioConfig": {
"type": "index_parallel",
"firehose": {
"type": "static-google-blobstore",
"blobs": [{
"bucket": "data-test",
"path": "/sample_data/daily_export_18092019/000000000000.json.gz"
}],
"filter": "*.json.gz$"
},
"appendToExisting": false
},
"tuningConfig": {
"type": "index_parallel",
"maxNumSubTasks": 1,
"maxRowsInMemory": 1000000,
"pushTimeout": 0,
"maxRetry": 3,
"taskStatusCheckPeriodMs": 1000,
"chatHandlerTimeout": "PT10S",
"chatHandlerNumRetries": 5
}
}
}

在 Druid 中启动摄取任务的 cURL 命令示例(spec.json 包含上一节中的 JSON):

curl -X 'POST' -H 'Content-Type:application/json' -d @spec.json http://druid-overlord-host:8081/druid/indexer/v1/task

关于google-cloud-platform - GCP Dataproc 已推出 Druid alpha 版。如何加载段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58028641/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com