gpt4 book ai didi

hadoop - 如何计算字符

转载 作者:行者123 更新时间:2023-12-02 21:00:39 25 4
gpt4 key购买 nike

我的文本文件很少,我希望计算这些文件中的字符,但不是所有字符。我只需要计算字母a,b和c在这些文件中出现了多少次。我对Pig很陌生。任何帮助,将不胜感激。谢谢!

最佳答案

将所有使用通配符*的文件加载到chararray类型的字段中,将行拆分为单词,然后拆分为字母并计数。

A = LOAD '/path/text*.txt' AS (lines:chararray);
B = FOREACH A GENERATE FLATTEN(TOKENIZE((chararray)lines)) AS words;
C = FOREACH B GENERATE FLATTEN(TOKENIZE(REPLACE(words,'','|'), '|')) AS letters;
D = FILTER C BY (letters matches '.*(a|b|c).*');
E = GROUP D BY letters;
F = FOREACH E GENERATE group,COUNT(D);
DUMP F;

关于hadoop - 如何计算字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43313699/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com