gpt4 book ai didi

hadoop - 如何让 Pig 将多个文件馈送到一个映射器中

转载 作者:可可西里 更新时间:2023-11-01 15:17:26 25 4
gpt4 key购买 nike

是否可以让 Pig 使用一个映射器处理多个小文件(假设这样做会提高工作速度)。我们有一个问题,即 hdfs 中有数千个小文件,而 pig 创建了数百个映射器。 Pig 是否提供了解决此问题的简单(完整或部分)解决方案?

最佳答案

您可以利用这些属性将这些多个文件组合成一个文件,以便它们由单个 map 处理:

  • pig.maxCombinedSplitSize – 指定要由单个映射处理的数据的大小(以字节为单位)。合并较小的文件,直到达到此大小。
  • pig.splitCombination – 打开或关闭合并拆分文件(默认设置为“true”)。

此功能适用于 PigStorage,无需编写任何自定义加载程序。可以找到更多关于这方面的信息 here .

HTH

关于hadoop - 如何让 Pig 将多个文件馈送到一个映射器中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17555348/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com