gpt4 book ai didi

hadoop - 使用 Cloud9 和 hadoop 提取维基百科文章文本

转载 作者:可可西里 更新时间:2023-11-01 16:30:27 25 4
gpt4 key购买 nike

首先:我正在使用运行 El Capitan 10.11.3 的新 Mac Book,我刚刚下载了最新的 Hadoop (2.6.0)。

我正在尝试使用 Cloud9 从维基百科转储中的一堆页面中提取主要文章文本。基本上,他们会告诉您如何做,作为他们在本文档页面上的第二个“快速而肮脏”的示例: http://lintool.github.io/Cloud9/docs/content/wikipedia.html

我下载了所有内容并在我的终端中输入了相同的命令:

hadoop jar target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /wiki-sample.xml -wiki_language en -output wiki-sample-output.txt

旁注:我创建了一个示例 .xml,其中包含大量 wiki 转储的前 1500 行左右,然后是 wiki 转储末尾的最后几页。在尝试真正运行它之前,我只是想让它正常工作。

无论如何,所以我运行了那个命令,它似乎在做一些事情,然后只是在命令行上打印出一堆准文档:

usage: edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText
-input <path> XML dump file
-output <path> output path
-wiki_language <en|sv|de|cs|es|zh|ar|tr> two-letter language code
Generic options supported are
-conf <configuration file> specify an application configuration file
-D <property=value> use value for given property
-fs <local|namenode:port> specify a namenode
-jt <local|resourcemanager:port> specify a ResourceManager
-files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars> specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives> specify comma separated archives to be unarchived on the compute machines.

The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]

这些似乎都没有特别的帮助,最重要的是,它不会创建带有文章文本的输出文件。我也尝试过创建一个具有正确名称的(空白)输出文件,看看它是否会填充它,但这也不起作用。

任何关于我可能做错的想法都将不胜感激。我是使用 hadoop 的新手,所以我希望它是我所缺少的简单东西。 Cloud9 页面指出“截至 2015 年 12 月,该库不再积极开发或维护”,所以我真的希望这里有人能帮助我。非常感谢。赛斯

简要附录:我还尝试返回到根目录并在开始时使用完整路径和 bin/hadoop 运行所有内容,但这样做是一样的。这是我从根目录发出的(不成功的)命令:

bin/hadoop jar /Users/Seth/Documents/Cloud9/target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /Users/Seth/Documents/Cloud9/wiki-sample.xml -wiki_language en -output /Users/Seth/Documents/Cloud9/wiki-sample-output.txt

最佳答案

不是您特定问题的答案。

但是如果你想做的是从维基百科转储中获得一个简单、可用的语料库,我建议你使用:https://github.com/idio/json-wikipedia

并行模式使用你机器上的所有资源,在 16G 内存和 8 核的 macbook pro 上英文维基百科不会超过 30/45 分钟

关于hadoop - 使用 Cloud9 和 hadoop 提取维基百科文章文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35760657/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com