hadoop - Nutch 2.3.1 只抓取种子网址-6ren

hadoop - Nutch 2.3.1 只抓取种子网址

转载作者：可可西里更新时间：2023-11-01 14:48:22

25

4

我必须抓取几个 URL 的所有内链(最多)。为此，我将 Apache Nutch 2.3.1 与 hadoop 和 hbase 一起使用。以下是用于此目的的 nutch-site.xml 文件。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
   <name>http.agent.name</name>
   <value>crawler</value>
</property>
<property>
   <name>storage.data.store.class</name>
   <value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
<property>
  <name>plugin.includes</name>
 <value>protocol-httpclient|protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more|urdu)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>
</property>
<property>
<name>parser.character.encoding.default</name>
<value>utf-8</value>
</property>
<property>
  <name>http.robots.403.allow</name>
  <value>true</value>
<property>
  <name>db.max.outlinks.per.page</name>
  <value>-1</value>
</property>
<property>
  <name>http.robots.agents</name>
  <value>crawler,*</value>
</property>

<!-- language-identifier plugin properties -->

<property>
  <name>lang.ngram.min.length</name>
  <value>1</value>
</property>

<property>
  <name>lang.ngram.max.length</name>
  <value>4</value>
</property>

<property>
  <name>lang.analyze.max.length</name>
  <value>2048</value>
</property>

<property>
  <name>lang.extraction.policy</name>
  <value>detect,identify</value>
</property>

<property>
  <name>lang.identification.only.certain</name>
  <value>true</value>
</property>

<!-- Language properties ends here -->
<property> 
         <name>http.timeout</name> 
         <value>20000</value> 
</property> 
<!-- These tags are included as our crawled documents has started to decrease -->
<property>
 <name>fetcher.max.crawl.delay</name>
 <value>10</value>
</property>
<property>
  <name>generate.max.count</name>
  <value>10000</value>
</property>

<property>
 <name>db.ignore.external.links</name>
 <value>true</value>
</property>
</configuration>

当我抓取几个 URL 时，只有种子 url 被抓取，然后抓取以该消息结束

GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: false
GeneratorJob: normalizing: false
GeneratorJob: topN: 20
GeneratorJob: finished at 2017-04-21 16:28:35, time elapsed: 00:00:02
GeneratorJob: generated batch id: 1492774111-8887 containing 0 URLs
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now

陈述了类似的问题here但它适用于 1.1 版，我已经实现了不适用于我的情况的解决方案。

最佳答案

你能检查你的 conf/regex-urlfilter.txt 是否 url 过滤正则表达式阻止了预期的外链。

# accept anything else
+.

当您将 db.ignore.external.links 设置为 true 时，Nutch 将不会从不同的主机生成外链。您还需要检查 conf/nutch-default.xml 中的 db.ignore.internal.links 属性是否为 false。否则，将不会生成外链。

<property>
    <name>db.ignore.internal.links</name>
    <value>false</value>
</property>
<property>
    <name>db.ignore.external.links</name>
    <value>true</value>
</property>
<property>

HTH.

关于hadoop - Nutch 2.3.1 只抓取种子网址，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43541730/

25

4

0

文章推荐： java - 如何在eclipse中关闭hadoop源代码中的推测执行

文章推荐： hadoop - read data as "streaming fashion"是什么意思？

migration - 在其他列中的字段之后制作 Sequelize 种子
Sequelize 中有没有办法添加另一列，然后用另一列的内容填充它？最佳答案您可以使用迁移来做到这一点。就像是 queryInterface.addColumn( 'MyAwesomeTa
hash - 种子 info_hash 参数
如何计算info_hash参数？又名对应于信息字典的哈希？？来自官方规范: info_hash The 20 byte sha1 hash of the bencoded form of the i
java - Nutch 种子 URL
是否可以直接从数据库或服务等将 URL 获取到 Nutch。我对从数据库或服务获取数据并将其写入 Seed.txt 的方式不感兴趣. 最佳答案没有。这不能直接使用默认的 nutch 代码库来完成。需
java - 如何设置 MessageDigest 种子？
MessageDigest 类实现了 SHA-1 算法(以及许多其他算法)。 SHA-1 算法允许使用不同的“种子”或初始摘要。参见 SHA-1 Psuedocode 算法初始化变量，或种子: Ini
javascript - 种子 PRNG 的安全性
我想创建一个应用程序，其中登录密码可以作为伪随机数生成器的种子以重新创建加密 key 。然后，该加密 key 将用于加密发送到应用程序数据库和从应用程序数据库发送的所有数据，使用户数据甚至主机都无法访
c++ - 不涉及时间的 rand() 种子？
这个问题在这里已经有了答案: Recommended way to initialize srand? (15 个答案) 关闭 8 年前。使用 srand(time(NULL))似乎过于确定性。例
c# - 未调用 DropCreateDatabaseAlways 种子
我在获取要在我的自定义数据库初始值设定项上调用的 Seed 方法时遇到问题。我正在使用 EF 5.0 并具有以下代码: public static class MyDatabase { pub
php - 种子 Silverstripe 数据库
是否可以像在 Rails 中那样“播种”数据库？我想将种子与图像对象管理器结合使用，以便我可以按标题获取记录。最佳答案根据您对 Ingo 的回答留下的评论，您想将 requireDefaultRe
c# - 没有更新数据库的 EF6 种子
我现在设置了一个应用程序来使用 EF6 代码优先迁移。我使用 Add-Migration 的标准工作流程，然后在控制台中使用 Update-Database。我在本地以及我们的开发环境中使用 Migr
regex - 种子 | awk 在匹配下一行后删除行
如果 Name 返回然后删除 first name Name john Age 30 Name Alice Name Travis Age 12 Name Monty Name Hannah 期望的输
php - 迁移后的 Laravel 种子
在迁移完成后，是否可以在我的迁移中放入一些东西来自动为表播种测试数据？或者您必须单独播种？最佳答案您可以使用 --seed 选项调用 migrate:refresh 以在迁移完成后自动播种: p
python - scipy.stats 种子？
我正在尝试使用不同的种子生成 scipy.stats.pareto.rvs(b, loc=0, scale=1, size=1)。在 numpy 中，我们可以使用 numpy.random.seed
带有 uuid 的 Laravel 种子
我的种子有问题。这是我的表结构: 1.Complaints: Schema::create('complaints', function (Blueprint $table) {
c# - 未调用 Entity Framework 种子
我在使用数据库初始化程序时遇到问题 - 从未调用过种子方法。类似的代码在另一个项目中工作，所以我很困惑为什么他们这次不工作。这是我的代码: RecipeContext.cs public c
MySql:使用 RAND(种子)为变量分配随机数
我正在尝试做一些我认为非常简单的事情，只需使用 RAND 创建 0-1 之间的随机数，并将其分配给十进制变量。但每次我在 MySQL 中运行代码时，它都会返回零! 参见下面的代码: DELIMITER
java - 二维数组到 int(种子)并返回
我有一个问题...... 这里我们得到了一个二维字节数组: byte[][] duengonMap = new byte[500][500]; 因为我想将它从客户端发送到服务器或者相反，我需要将其放入
angularjs - Angular 种子 Protractor 抛出错误
我尝试在我的计算机上运行 Angular-seed(Windows 10，上次更新)https://github.com/angular/angular-seed 。网络工作正常，但我的 Protra
python - 多处理中的 numpy.random 种子
我有一个随机过程的分布式过程。因此，我使用 numpy.random.RandomState 来播种数字。问题是我必须在包装器中使用另一个 numpy.random 函数。现在我失去了种子的再现性，因
python 3 : random. 种子 () : where to call it?
我需要确保我程序中的所有随机性都是完全可复制的。我应该在哪里调用 random.seed()？我认为它应该在我的 main.py 模块中，但它导入了碰巧使用随机函数的其他模块。我可以仔细浏览我的导
c# - EntityFramework 种子 AddOrUpdate 与外键
首先尝试使用 Entity Framework 和代码在 ASP.NET 网络应用程序中植入数据。我将这段代码放在 Configuration.cs 文件的 Seed() 方法中。现在，我正在处理解决

首页

博学

6Ren·AI

商城

hadoop - Nutch 2.3.1 只抓取种子网址