gpt4 book ai didi

azure-data-lake - ROWCOUNT 提示是否适用于 U-SQL 中的 EXTRACT

转载 作者:行者123 更新时间:2023-12-01 13:37:16 24 4
gpt4 key购买 nike

我想为提取作业分配更多的顶点,尝试使用 ROWCOUNT 提示,它似乎不起作用,无论我为 ROWCOUNT 使用什么值,U-SQL 总是分配相同数量的顶点。

摘录 xxxx来自@“路径” 使用新的 RndsInDataLakeCode.PyramidExtractorMerged() 选项(ROWCOUNT=50000000);有没有其他方法可以影响顶点分配

谢谢。

最佳答案

基本上,EXTRACT 使用的顶点数由以下因素决定:

  1. 如果您使用文件集或请求 AtomicFileProcessing=true(例如,JSON、当前的 Avro Extractor),则文件数量(目前每个顶点最多一个文件)。
  2. 如果文件被认为是可分割的(AtomicFileProcessing=false,例如,Csv/Tsv 提取器),文件的大小(目前每个顶点 1GB)。

ROWCOUNT 提示只会提示会影响后续分区的结果行数。

然后 Omid 提到的分析单元分配将为您提供用于在确定的顶点数量内并行化的实际并行度(因此过度指定分析单元将不会使您的代码并行化更多).

为什么要增加提取的横向扩展?

关于azure-data-lake - ROWCOUNT 提示是否适用于 U-SQL 中的 EXTRACT,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42658709/

24 4 0