python - "Counters from Step 1: No Counters found"使用 Hadoop 和 mrjob-6ren

python - "Counters from Step 1: No Counters found"使用 Hadoop 和 mrjob

转载作者：可可西里更新时间：2023-11-01 14:58:00

27

4

我有一个 python 文件，用于在 Hadoop(版本 2.6.0)上使用 mrjob 来计算二元语法，但我没有得到我希望的输出，而且我在破译终端中的输出时遇到了问题我哪里出错了。

我的代码:

regex_for_words = re.compile(r"\b[\w']+\b")

class BiCo(MRJob):
  OUTPUT_PROTOCOL = mrjob.protocol.RawProtocol

  def mapper(self, _, line):
    words = regex_for_words.findall(line)
    wordsinline = list()
    for word in words:
        wordsinline.append(word.lower()) 
    wordscounter = 0
    totalwords = len(wordsinline)
    for word in wordsinline:
        if wordscounter < (totalwords - 1):
            nextword_pos = wordscounter+1
            nextword = wordsinline[nextword_pos]
            bigram = word, nextword
            wordscounter +=1
            yield (bigram, 1)

  def combiner(self, bigram, counts):
    yield (bigram, sum(counts))

  def reducer(self, bigram, counts):
    yield (bigram, str(sum(counts)))

if __name__ == '__main__':
  BiCo.run()

我在我的本地机器上的映射器函数中编写了代码(基本上，通过“yield”行的所有内容)以确保我的代码按预期抓取二元语法，所以我认为它应该工作正常......但是，当然，有些地方出了问题。

当我在 Hadoop 服务器上运行代码时，我得到以下输出(如果这超出了必要，我深表歉意 - 屏幕输出了大量信息，我还不确定哪些信息有助于磨练问题区域):

HADOOP: 2015-10-25 17:00:46,992 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1355)) - Running job: job_1438612881113_6410
HADOOP: 2015-10-25 17:00:52,110 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1376)) - Job job_1438612881113_6410 running in uber mode : false
HADOOP: 2015-10-25 17:00:52,111 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1383)) -  map 0% reduce 0%
HADOOP: 2015-10-25 17:00:58,171 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1383)) -  map 33% reduce 0%
HADOOP: 2015-10-25 17:01:00,184 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1383)) -  map 100% reduce 0%
HADOOP: 2015-10-25 17:01:07,222 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1383)) -  map 100% reduce 100%
HADOOP: 2015-10-25 17:01:08,239 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1394)) - Job job_1438612881113_6410 completed successfully
HADOOP: 2015-10-25 17:01:08,321 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1401)) - Counters: 51
HADOOP:         File System Counters
HADOOP:                 FILE: Number of bytes read=2007840
HADOOP:                 FILE: Number of bytes written=4485245
HADOOP:                 FILE: Number of read operations=0
HADOOP:                 FILE: Number of large read operations=0
HADOOP:                 FILE: Number of write operations=0
HADOOP:                 HDFS: Number of bytes read=1013129
HADOOP:                 HDFS: Number of bytes written=0
HADOOP:                 HDFS: Number of read operations=12
HADOOP:                 HDFS: Number of large read operations=0
HADOOP:                 HDFS: Number of write operations=2
HADOOP:         Job Counters
HADOOP:                 Killed map tasks=1
HADOOP:                 Launched map tasks=4
HADOOP:                 Launched reduce tasks=1
HADOOP:                 Rack-local map tasks=4
HADOOP:                 Total time spent by all maps in occupied slots (ms)=33282
HADOOP:                 Total time spent by all reduces in occupied slots (ms)=12358
HADOOP:                 Total time spent by all map tasks (ms)=16641
HADOOP:                 Total time spent by all reduce tasks (ms)=6179
HADOOP:                 Total vcore-seconds taken by all map tasks=16641
HADOOP:                 Total vcore-seconds taken by all reduce tasks=6179
HADOOP:                 Total megabyte-seconds taken by all map tasks=51121152
HADOOP:                 Total megabyte-seconds taken by all reduce tasks=18981888
HADOOP:         Map-Reduce Framework
HADOOP:                 Map input records=28214
HADOOP:                 Map output records=133627
HADOOP:                 Map output bytes=2613219
HADOOP:                 Map output materialized bytes=2007852
HADOOP:                 Input split bytes=304
HADOOP:                 Combine input records=133627
HADOOP:                 Combine output records=90382
HADOOP:                 Reduce input groups=79518
HADOOP:                 Reduce shuffle bytes=2007852
HADOOP:                 Reduce input records=90382
HADOOP:                 Reduce output records=0
HADOOP:                 Spilled Records=180764
HADOOP:                 Shuffled Maps =3
HADOOP:                 Failed Shuffles=0
HADOOP:                 Merged Map outputs=3
HADOOP:                 GC time elapsed (ms)=93
HADOOP:                 CPU time spent (ms)=7940
HADOOP:                 Physical memory (bytes) snapshot=1343377408
HADOOP:                 Virtual memory (bytes) snapshot=14458105856
HADOOP:                 Total committed heap usage (bytes)=4045406208
HADOOP:         Shuffle Errors
HADOOP:                 BAD_ID=0
HADOOP:                 CONNECTION=0
HADOOP:                 IO_ERROR=0
HADOOP:                 WRONG_LENGTH=0
HADOOP:                 WRONG_MAP=0
HADOOP:                 WRONG_REDUCE=0
HADOOP:         Unencodable output
HADOOP:                 TypeError=79518
HADOOP:         File Input Format Counters
HADOOP:                 Bytes Read=1012825
HADOOP:         File Output Format Counters
HADOOP:                 Bytes Written=0
HADOOP: 2015-10-25 17:01:08,321 INFO  [main] streaming.StreamJob (StreamJob.java:submitAndMonitorJob(1022)) - Output directory: hdfs:///user/andersaa/si601f15lab5_output
Counters from step 1:
  (no counters found)

我很困惑为什么在第 1 步中找不到计数器(我假设是我代码的映射器部分，这可能是错误的假设)。如果我正确读取任何 Hadoop 输出，看起来它至少进入了 reduce 阶段(因为有 Reduce Input 组)并且没有发现任何 Shuffling 错误。我认为对于“Unencodable output: TypeError=79518”中出现的问题可能有一些答案，但我所做的任何谷歌搜索都没有帮助磨练这是什么错误。

非常感谢任何帮助或见解。

最佳答案

一个问题是映射器的二元组编码。上面的编码方式，bigram 是 python 类型“元组”:

>>> word = 'the'
>>> word2 = 'boy'
>>> bigram = word, word2
>>> type(bigram)
<type 'tuple'>

通常，纯字符串用作键。因此，相反，将二元语法创建为字符串。您可以这样做的一种方法是:

bigram = '-'.join((word, nextword))

当我在您的程序中进行更改时，我会看到如下输出:

automatic-translation   1
automatic-vs    1
automatically-focus 1
automatically-learn 1
automatically-learning  1
automatically-translate 1
available-including 1
available-without   1

另一个提示:在您的命令行中尝试 -q 以消除所有 hadoop 中间噪音。有时它只是妨碍。

HTH.

关于python - "Counters from Step 1: No Counters found"使用 Hadoop 和 mrjob，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33335706/

27

4

0

文章推荐： jQuery 数据表大小调整问题

文章推荐： html - 如何处理表格中的 `rowspan` 和背景颜色？

文章推荐： rest - 通过 rest api 运行 MapReduce 作业

step - STEP 文件中无意义的数据重复
在我用 OpenCascade 生成的 STEP 文件中，我可以看到: #58 = VERTEX_POINT('',#59); #59 = CARTESIAN_POINT('',(-0.5,-0.5,
javascript - Firebug 中的 step into, step out 和 step over 是什么意思？
这个问题在这里已经有了答案: How to use Firebug's debugger functions? (1 个回答) 关闭 8 年前。我是 FireBug 调试器的新手，谁能告诉我什么是
WordPress 表单创建插件允许 : Step 1 > Step 2 > Step 3 > Submit
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
java - 使用 eclipse IDE 的 selenium webdriver 中的 "Debug from step"、 "step over"、 "step into"
我想知道 Eclipse IDE 中是否存在任何功能，可以在执行 selenium 脚本时“从步骤进行调试” “单步执行”、“单步执行”。 “QTP” 和大多数专有功能自动化工具中都提供此功能。我假
step - .step 和 .stp 文件的文档或规范
我正在寻找 .stp/.step 文件的某种规范、文档、解释等。更多的是关于每行包含哪些信息而不是一般信息。我似乎无法自己弄清楚每个值的含义。有谁知道一些关于 STEP 文件的好读物？我已经搜
javascript - Bulma Steps 扩展没有 "step"
我写了下面的代码: Mockup TOPdesk
java - 无法进入java源代码。 "step into"不知何故表现得像 "step over"
我正在尝试研究 java String 类中的方法如何工作，因此我创建了一些调用该 String 类方法的自定义代码。如您所见，我在自己的代码中设置了一个断点，并且在 java String 类源代
javascript - 调用函数 "step by step"的正确方法
我有某些功能，需要我进行一个 api 调用来检索第二个 api 调用中使用的某个 id，逻辑上它看起来像这样: componentWillMount () { this.props.functio
python - 应用引擎 : Step-by-Step Debugging
在本地使用 AppEngine(即使用 dev_appserver.py)时，是否可以进行逐步调试？使用 logging.info() 或类似的函数来显示代码中所有变量的值并确定错误的位置是一种过时的
jquery-steps - JQuery 步骤 : how to disable a step?
我正在使用 JQuery Steps，它非常好。但事实证明有些事情很棘手。假设我在第 2 步。根据我在表单中选择的内容，我可能想在单击“下一步”时直接跳到第 4 步，并且进一步禁用第 3 步 anc
jquery-steps - 在 jquery-steps 中更改按钮的名称
我已经包含了 jquery-steps 插件。如何更改按钮文本？现在它说“完成”我想把它改成“去” 谢谢最佳答案查看以下内容 link .您可以在初始化时更改所有标签。 var setting
AngularJS Protractor : Step-by-step progress logs
在(现已弃用的) Angular 场景测试运行器中，有一个选项可以创建一个 runner.html 页面，该页面将在 iFrame 中运行测试，同时在主页中逐步报告进度。有没有办法获得类似的 Pro
jsf - p :steps but enable click on all steps
我有使用标签的 primefaces 步骤像下面这样: 结果是这样的: 我可以点击步骤 1，但不能点击步骤 3 和 4。如何为所有步骤启用点击？最佳答案哇，
java - Spring批量分区: Slave step with multiple steps
给定一个使用分区的 Spring Batch 作业，是否可以有多个分区步骤？例如: 在上面的示例中，是否可以将另一个分区
php - 检查数据库中是否存在记录 : in single step or two steps?
假设您要从数据库中获取一条记录，该记录返回大量数据并且需要多次连接。所以我的问题是，使用单个查询来检查数据是否存在并在存在时获取结果是否更好？或者做一个更简单的查询，检查数据是否存在然后id记录是否
aws-step-functions - 在 Step Functions 中创建任务时使用整数而不是字符串
我如何创建一个具有整数输入类型而不是字符串的任务，例如我想启动一个状态机: "SomeStage": { "Comment": "Getting busy
jquery-steps - 如何将 "reset"按钮添加到 JQuery-steps
我还没有看到有人问过这个问题——尽管我确实阅读了大约 100 个关于类似主题的 jQuery 步骤——似乎没有一个能解决我的问题。我正在使用 jQuery-steps 并希望在第一步完成后添加一个“
php - 拉维尔 5.3 : Migrate step by step
我想知道是否可以在 Laravel 5.3 中逐个迁移。我无法使 --step 选项正常工作，文档仅提及此选项与 rollback 或 refresh 一起使用命令。 // this works p
aws-step-functions - 如何使用文件中定义的状态机在本地执行 AWS Step Functions？
我已按照 AWS 文档中的步骤在本地设置和运行 AWS Step Functions:https://docs.aws.amazon.com/step-functions/latest/dg/sfn-
aws-step-functions - 如何使用文件中定义的状态机在本地执行 AWS Step Functions？
我已按照 AWS 文档中的步骤在本地设置和运行 AWS Step Functions:https://docs.aws.amazon.com/step-functions/latest/dg/sfn-

首页

博学

6Ren·AI

商城

python - "Counters from Step 1: No Counters found"使用 Hadoop 和 mrjob