gpt4 book ai didi

csv - 使用 Pig Latin 计算唯一值的出现次数

转载 作者:行者123 更新时间:2023-12-04 19:09:34 27 4
gpt4 key购买 nike

我正在尝试使用 Apache Pig Latin 找出 2019 年 12 月 1 日(来自 http://cran-logs.rstudio.com/)下载次数最多的 RStudio 包中的前 5 个。我需要的列是“r_os”和“package”。这是我的代码:

A = load '2019-12-01.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER');
B = FOREACH A GENERATE r_os,package;
C = DISTINCT B;
D = GROUP C BY package;
result = FOREACH C GENERATE flatten($0), COUNT($1) as package_distr;
我得到以下结果,这是错误的:
(magrittr,10)
(htmltools,10)
(httr,10)
(lubridate,10)
(ellipsis,10)
出现的次数应该更多,而不是 10。我想要的输出应该大致如下:
(magrittr,10000)
(htmltools,9876)
(httr,8700)
(lubridate,5320)
(ellipsis,3000)
知道我做错了什么吗?

最佳答案

result = FOREACH D GENERATE group, COUNT(C) as package_distr;

?

group 是包名,C 是当你对 C 进行分组时生成的包的名称,然后我们计算它。

关于csv - 使用 Pig Latin 计算唯一值的出现次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60226721/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com