python - 如何在python中的hadoop流中实现计数器-6ren

python - 如何在python中的hadoop流中实现计数器

转载作者：可可西里更新时间：2023-11-01 14:44:21

我是 hadoop 流媒体的新手。我的 reduce 代码中几乎没有过滤条件，我想知道有多少记录通过了这个条件。我开始知道我们可以通过编写自定义计数器来做到这一点。有人可以告诉我如何编写自定义计数器吗？

我在映射器代码中发出三列，比如 a,b,ckey 是 a，value 是 list，就像 [b,c]，从 mapper 代码中得到一个例子，就像 ['I'^['C',' P']]

这是我的归约代码。

labels = ["a","b"]
for line in sys.stdin:
    l = line.strip().split("^")
    key = l[0]
    value = l[1]
    record = [key] + value
    records.append(record)
df = pd.DataFrame.from_records(records,columns=labels)
df = df((df['a'] == 'I') & (df['b'] == 'C'))

我想知道 df 在 reducer 级别包含多少条记录。

谢谢。

最佳答案

您可以简单地打印到 stderr:

print >> sys.stderr, "reporter:counter: CUSTOM, NbRecords,1"

这将使计数器组“CUSTOM”中的计数器“NbRecords”增加 1

关于python - 如何在python中的hadoop流中实现计数器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42525693/

文章推荐： javascript - ui-router 不呈现模板 MVC5

文章推荐： C++ 包装器 DLL 到静态 LIB

文章推荐： windows - Windows 上的 Ack.vim "No such file or directory"错误

文章推荐： html - Emmet 的 Sublime Text 3 问题

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在python中的hadoop流中实现计数器