amazon-web-services - Redshift Spectrum 如何扫描数据？-6ren

amazon-web-services - Redshift Spectrum 如何扫描数据？

转载作者：行者123 更新时间：2023-12-04 12:23:19

25

4

给定 S3 上由时间戳字段分区的 1.4 TB Parquet 数据的数据源(因此分区为 year - month - day )，我正在查询特定日期的数据(2.6 GB 数据)并检索 Parquet 中的所有可用字段使用此查询通过 Redshift Spectrum 获取文件:

SELECT *
FROM my_external_schema.my_external_table
WHERE year = '2020' and month = '01' and day = '01'

该表通过指向 S3 中顶级“文件夹”的 Glue Crawler 提供；这将创建一个数据库，然后通过此命令将数据库链接到新的 external schema :

create external schema my_external_schema from data catalog
database 'my_external_schema'
iam_role 'arn:aws:iam::123456789:role/my_role'
region 'my-region-9';

分析我的 IDE 中的表，我可以看到该表是由以下语句生成的:

create external table my_external_schema.my_external_table
    (
    id string,
    my_value string,
    my_nice_value string
    )
partitioned by (year string, month string, day string)
row format serde 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
with serdeproperties ('serialization.format'='1')
stored as
inputformat 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
outputformat 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
location 's3://my-bucket/my/location/'
table properties ('CrawlerSchemaDeserializerVersion'='1.0', 'CrawlerSchemaSerializerVersion'='1.0', 'UPDATED_BY_CRAWLER'='my_crawler');

当我分析来自 Redshift 的查询时，我看到它被扫描了大约 86 GB 的数据。
这怎么可能？这是一个问题，因为 Redshift 根据扫描的数据量计费，并且看起来服务正在扫描的数据量大约是该分区中实际数据量的 40 倍。
我还尝试在 Athena 中执行相同的查询，在那里我只扫描了 2.55 GB 的数据(绝对更合理)。
我不能提供关于集群大小的太多细节，但假设那些 86GB 的扫描数据适合集群的内存。

最佳答案

问题似乎出在 AWS Redshift 控制台中。
如果我们从 Redshift 控制台中的“查询详细信息”中分析查询，我可以看到“扫描的总数据”报告了 86GB。正如 Vzarr 提到的，我在 Athena 上运行相同的查询来比较性能。执行时间基本相同，但扫描的数据量完全不同:2.55GB。
我在使用和不使用分区列的情况下对 S3 外部模式上的其他查询进行了相同的比较:我看到每次测试中扫描的 GB 总数不同，有时差异很大(Redshift Spectrum 中为 320MB，Athena 中为 20GB)。
我决定查看 Redshift 中的系统表，以了解外部架构上的查询是如何工作的。我使用 SVL_S3QUERY 做了一个非常简单的测试:

SELECT (cast(s3_scanned_bytes as double precision) / 1024 / 1024 / 1024) as gb_scanned,
       s3_scanned_rows,
       query
FROM SVL_S3QUERY
WHERE query = '<my-query-id>'

结果与 AWS Redshift 控制台对同一查询所说的完全不同。不仅 gb_scanned错了，但是 s3_scanned_rows也是。查询一共返回了 2.55GB 的数据 Scanned，和 Athena 说的完全一样。
为了确认 SVL_S3QUERY 中的数字，我使用了 AWS Cost Explorer仔细检查一天内扫描的 GB 总数以及我们为 Redshift Spectrum 支付的费用:数字基本相同。
此时，我不知道 AWS Redshift 控制台从何处或哪个表获取查询详细信息，但它们似乎完全错误。

关于amazon-web-services - Redshift Spectrum 如何扫描数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64912152/

25

4

0

文章推荐： reactjs - 按日期订购 Contentful 中具有不同内容类型的帖子

文章推荐： angular - Angular 类名中的自定义后缀

文章推荐： javascript - EmberJS : Injecting owner to native class from component

service - start 和 service start 有什么区别
我正在使用 choronos，它建议使用 start/stop 命令开始停止，如下所示开始计时停止计时但是，我正在编写 puppet manifest，它只适用于下面的服务命令。服务计时开始
Services.exe是什么进程？Services.exe病毒吗？Services.exe占CPU情况
来历及作用 services.exe进程程序文件是由微软公司为其发布的Windows操作系统定义的一个系统进程，常见于Windows 2000/XP/Vista/2007等系统中，被描述为服务和控
windows-services - Installutil不会卸载: “The specified service does not exist as an installed service”
我一直在尝试使用installutil:installutil /u GSIS.FileMoverService.exe安装Windows服务。我得到的输出是: Uninstalling assem
service-worker - 在一个域中推荐一个顶级 Service Worker 或多个 Service Worker？
如果一个域有多个团队和多个 Web 应用程序，那么注册 Service Worker 来管理整个站点的最佳建议是什么？具有范围的顶级服务 worker /或子域中的多个服务 worker ？由于一个域
java - org.jboss.msc.service.ServiceNotFoundException : Service service jboss. 找不到 ejb.default-resource-adapter-name-service
我已经在 eclipse 中创建了企业项目。动态web项目和ejb项目对企业项目有借鉴意义。当我运行管理员(企业项目)运行时选择 wildfly 服务器 18。我收到以下错误。谁能告诉我我错过了什么。
service - 类 javax.xml.ws.Service 中的构造函数 Service 无法应用于给定类型
我已经使用 apache-cxf-2.7.4 创建了一个 Web 服务。我进入了我的项目中制作的类(class)。我的项目中的库是: math3-commons-3.2.jar XStream-1.4
windows-services - AppFabric缓存错误:The AppFabric Caching Service service terminated unexpectedly
我在域中的 Virtual Box 中运行集群计算机，默认情况下服务在 Network 服务下运行，服务一直停止，事件日志中出现以下错误。请从下面的错误日志中查找错误详细信息。任何帮助都会很棒。 L
c# - 用于用户表示的 Service Fabric Service 与 Service Fabric Actors
在我的应用程序中，用户可以在 map 上发布事件。应用程序的入口点是一个无状态的 web api 服务。为了在内部代表用户，我想要一个用户服务。我应该何时使用 Reliable Stateful Ac
service - "Service failed to start - Verify that you have sufficient privileges to start system services"
当我尝试运行在WIX中创建的安装程序时，出现以下错误消息: “服务'Report Generator Service'(报告生成器服务)无法启动。请验证您是否具有启动系统服务的足够特权”。我已经在这
amazon-web-services - AWS ECS : Invalid service in ARN (Service: AmazonECS; . ..)
尝试使用 cloudformation 创建 ECS 服务(在 Fargate 上)但出现错误: Invalid service in ARN (Service: AmazonECS; Status
windows-services - 如何以编程方式停止Windows Service？
我正在编写一个简单的Windows服务，该服务每个月向所有员工发送一封电子邮件。我的问题是，完成后如何停止自我？我是该领域的新手，请帮帮我。非常感谢。它将部署在服务器上以每月运行。我没有开始做这件事
service-worker - 从 Service Worker 中获取 Service Worker id 或 date
有谁知道是否有办法在 service worker 中获取此号码或日期: 将我的服务 worker 缓存命名为 cache-1182 会很方便或 cache-20171127171448 我想在安装事
powershell - 启动服务: Failed to start service 'Microsoft Service Fabric Host Service (FabricHostSvc)'
我想开始使用 Azure Service Fabric 技术。我按照this document工作并安装最新的SDK。安装后，我打开 PowerShell(“以管理员身份运行”)命令行窗口并写入这些
ruby-on-rails - PG::UndefinedTable: 错误:关系 "services"不存在 LINE 1: SELECT "services".* FROM "services"
我在使用 whenever gem 时遇到了一些问题。我创建了一个 rake 任务，当我自己启动它时它工作得很好但是当我在日志中收到以下消息时尝试自动执行它: ActiveRecord::Statem
azure-service-fabric - "HTTP Error 503. The service is unavailable"与 Service Fabric 上的 WebListener 共享端口
我想在 service fabric 集群中为两个不同的 web 应用程序(webpi/website)共享 http/80 端口，应用程序必须有 2 个不同的主机名: mywebapi.com 和
java - org.hibernate.service.UnknownServiceException : Unknown service requested [org. hibernate.ogm.service.impl.OgmConfigurationService]
我创建了一个使用 MongoDB 实现 hibernate OGM 的应用程序。它在 Eclipse 中运行得很好，但是，当我构建一个 fat jar 并尝试运行它时，出现以下错误: Exceptio
Python Selenium 异常 AttributeError : "' Service' object has no attribute 'process' "in selenium. webdriver.ie.service.Service
我有一个 Selenium Python 测试套件。它开始运行，但几分钟后抛出以下错误: Exception AttributeError: "'Service' object has no attr
service - Centos 7 - 来自/etc/systemd/system/san.service 的服务未使用 systemctl start san.service 运行
我按照此链接的说明进行操作:https://www.thegeekdiary.com/centos-rhel-7-how-to-make-custom-script-to-run-automatica
web-services - JAVA JAX-WS NullPointerException 在 javax.xml.ws.Service.getPort(Service.java :188)
我在 ubuntu 下的 jboss 上部署了简单的“HelloWorld”Web 服务。我创建了简单的客户端，但我无法让它工作。每次运行客户端时，我都会收到 NullPointerExceptio
service-worker - Service Worker 中未触发定期同步
我正在尝试为我的网站使用后台定期同步。我正在使用 localhost 并在 1*1000 毫秒时注册 periodicsync 事件，但这根本不会触发。我看过这个demo ，但即使我将该网站安装为应

首页

博学

6Ren·AI

商城

amazon-web-services - Redshift Spectrum 如何扫描数据？