amazon-web-services - 将 Power BI 连接到 S3 存储桶-6ren

amazon-web-services - 将 Power BI 连接到 S3 存储桶

转载作者：行者123 更新时间：2023-12-05 01:17:00

27

4

需要一些指导，因为我是 Power BI 和 Redshift 的新手..

我的原始 JSON 数据以 .gz 文件的形式存储在 Amazon S3 存储桶中(每个 .gz 文件有多行 JSON 数据)我想将 Power BI 连接到 Amazon s3 Bucket。到目前为止，根据我的研究，我得到了三种方法:

Amazon S3 是一项 Web 服务，支持 REST API。我们可以尝试使用Web数据源来获取数据

问题:是否可以解压 .gz 文件(在 S3 存储桶或 Power BI 内部)、从 S3 提取 JSON 数据并连接到 Power BI

将数据从 Amazon S3 导入 Amazon Redshift。使用 SQL 工作台在 Redshift 内进行所有数据操作。使用 Amazon Redshift 连接器获取 Power BI 中的数据

问题 1:Redshift 是否允许从 S3 存储桶加载 .gzzipped JSON 数据？如果是，是直接可能的还是我必须为其编写任何代码？

问题 2:我有 S3 帐户，是否需要单独购买 Redshift 帐户/空间？费用是多少？

通过 Azure 数据工厂将数据从 AWS S3 存储桶移至 Azure Data Lake Store，使用 Azure Data Lake Analytics (U-SQL) 转换数据，然后将数据输出到 PowerBI

U-SQL 可识别文件扩展名为 .gz 的 GZip 压缩文件，并在提取过程中自动解压缩它们。如果我的 gzip 压缩文件包含 JSON 数据行，此过程是否有效？

如果还有其他方法请告诉我，也请您对这篇文章提出宝贵的建议。

提前致谢。

最佳答案

关于你的第一个问题:我最近刚刚遇到了类似的问题(但提取了 csv)，我想注册我的解决方案。

Power BI 仍然没有用于下载 S3 存储桶的直接插件，但您可以使用 python 脚本来完成此操作。 Get data --> Python Script

PS:确保 boto3 和 pandas 库安装在您在 Power BI 选项中告知的 Python 主目录的同一文件夹(或子文件夹)中，或者在 Anaconda 库文件夹 (c:\users\USERNAME\anaconda3\lib\site-packages) 中。

Power BI window for Python scripts options

import boto3
import pandas as pd

bucket_name= 'your_bucket'
folder_name= 'the folder inside your bucket/'
file_name = r'file_name.csv'  # or .json in your case
key=folder_name+file_name

s3 = boto3.resource(
    service_name='s3',
    region_name='your_bucket_region',  ## ex: 'us-east-2'
    aws_access_key_id=AWS_ACCESS_KEY_ID,
    aws_secret_access_key=AWS_SECRET_ACCESS_KEY
)

obj = s3.Bucket(bucket_name).Object(key).get()
df = pd.read_csv(obj['Body'])   # or pd.read_json(obj['Body']) in your case

数据帧将作为新查询导入(在本例中名为“df”)

显然 pandas 库也可以获取压缩文件(例如 .gz)。请参阅以下主题:How can I read tar.gz file using pandas read_csv with gzip compression option?

关于amazon-web-services - 将 Power BI 连接到 S3 存储桶，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51801521/

27

4

0

文章推荐： python - Flask文件上传无法获取表单数据

文章推荐： wix - 将条目添加到 MSI UpgradeTable 以删除相关产品

文章推荐： r - 选择变量中出现次数最多的 n 个值

c# - Azure 存储(经典)与 Azure 存储 (V2) 代码不适用于 V2 存储
我正在运行一个辅助角色，并检查 Azure 上托管的存储中是否存在数据。当我将连接字符串用于经典类型的存储时，我的代码可以正常工作，但是当我连接到 V2 Azure 存储时，它会抛出此异常。 “远程服
javascript - HTML5 Web 存储 - 存储 JSON 数据然后检索它
在我的应用程序的主页上，我正在进行 AJAX 调用以获取应用程序各个部分所需的大量数据。该调用如下所示: var url = "/Taxonomy/GetTaxonomyList/" $.getJSO
vue.js - "export ' 存储 ' was not found in ' ../存储'
大家好，我正在尝试将我的商店导入我的 Vuex Route-Gard。路由器/auth-guard.js import {store} from '../store' export default
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
python - 设置 Mlflow 后端 (SQLite) 和工件(Azure Blob 存储)存储
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
python - 设置 Mlflow 后端 (SQLite) 和工件(Azure Blob 存储)存储
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
python - 使用适用于 Python 的 Azure 存储 SDK 将多个文件从文件夹上传到 Azure Blob 存储
我的 Windows 计算机上的本地文件夹中有一些图像。我想将所有图像上传到同一容器中的同一 blob。我知道如何使用 Azure Storage SDKs 上传单个文件BlockBlobServi
javascript - 向 Azure Blob 存储 [REST API][Azure Blob 存储] 发出 GET 请求时授权失败
我尝试发出 GET 请求来获取我的 Azure Blob 存储帐户的帐户详细信息，但每次都显示身份验证失败。谁能判断形成的 header 或签名字符串是否正确或是否存在其他问题？代码如下: cons
javascript - NeutralinoJS 存储
这是用于编写 JSON 的 NeutralinoJS 存储 API。是否可以更新 JSON 文件(推送数据)，而不仅仅是用新的 JS 对象覆盖数据。怎么做到的？？？ // Javascript
jenkins - 在调用并行阶段之前运行脚本(存储)
我有一个并行阶段设置，想知道是否可以在嵌套阶段之前运行脚本，所以像这样: stage('E2E-PR-CYPRESS') { when { allOf {
virtualbox - VBoxManage列出虚拟机详细信息(存储)
我想从命令行而不是从GUI列出VirtualBox VM的详细信息。我对存储细节特别感兴趣。当我在GUI中单击VM时，可以看到包括存储部分在内的详细信息: 但是到目前为止，我还没有找到通过命令行执行
rdbms - 存储/访问有向图的最佳方式
我有大约 3500 个防洪设施，我想将它们表示为一个网络来确定流动路径(本质上是一个有向图)。我目前正在使用 SqlServer 和 CTE 来递归检查所有节点及其上游组件，只要上游路径没有 fork
Jquery data() 存储
谁能告诉我 jquery data() 在哪里存储数据以及何时删除以及如何删除？如果我用它来存储ajax调用结果，会有性能问题吗？例如: $("body").data("test", { myDa
Firebase 存储 - 如何设置备份
有人可以建议如何为 Firebase 存储中的文件设置备份。我能够备份数据库，但不确定如何为 firebase 存储中的文件(我有图像)设置定期备份。最佳答案如何进行 Firebase 存储的本地
Firebase 存储 - 图像预览正在永久加载
我最近开始使用 firebase 存储和 firebase 功能。现在我一直在开发从功能到存储的文件上传。我已经让它工作了(上传完成并且文件出现在存储部分)，但是，图像永远保持这样(永远在右侧加载)
Firebase 存储 – 不能删除大小要求
我想只允许用户将文件上传到他们自己的存储桶中，最大文件大小为 1MB，仍然允许他们删除文件。我添加了以下内容: match /myusers/{userId}/{allPaths=**} { al
Azure 存储 - 数据湖生命周期管理问题
使用生命周期管理策略将容器的内容从冷访问层移动到存档。我正在尝试以下策略，希望它能在一天后将该容器中的所有文件移动到存档层，但事实并非如此在职的。我设置了选择标准“一天未使用后”。这是 json 代
Azure 存储，在安全性和速度之间进行选择
对于连接到 Azure 存储端点，有 http 和 https 两个选项。第一。 https 会带来开销，可能是 5%-10%，但我不支付同一个数据中心的费用。第二。 http 更快，但 Auth
Azure 存储 vhd
有人可以帮我理解这一点吗？我创建了Virtual Machine in Azure running Windows Server 2012 。我注意到 Azure 自动创建了一个存储帐户。当我进入该存

首页

博学

6Ren·AI

商城

amazon-web-services - 将 Power BI 连接到 S3 存储桶