作者热门文章
- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我是 hadoop 流媒体的新手。我的 reduce 代码中几乎没有过滤条件,我想知道有多少记录通过了这个条件。我开始知道我们可以通过编写自定义计数器来做到这一点。有人可以告诉我如何编写自定义计数器吗?
我在映射器代码中发出三列,比如 a,b,c
key 是 a,value 是 list,就像 [b,c]
,从 mapper 代码中得到一个例子,就像 ['I'^['C',' P']]
这是我的归约代码。
labels = ["a","b"]
for line in sys.stdin:
l = line.strip().split("^")
key = l[0]
value = l[1]
record = [key] + value
records.append(record)
df = pd.DataFrame.from_records(records,columns=labels)
df = df((df['a'] == 'I') & (df['b'] == 'C'))
我想知道 df 在 reducer 级别包含多少条记录。
谢谢。
最佳答案
您可以简单地打印到 stderr:
print >> sys.stderr, "reporter:counter: CUSTOM, NbRecords,1"
这将使计数器组“CUSTOM”中的计数器“NbRecords”增加 1
关于python - 如何在python中的hadoop流中实现计数器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42525693/
我是一名优秀的程序员,十分优秀!