elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段？-6ren

elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段？

转载作者：行者123 更新时间：2023-12-03 02:33:28

25

4

我正在使用 Stormcrawler 1.15、ElasticSearch 7.5，并按照本教程启动并运行 SC:https://www.youtube.com/watch?v=KTerugU12TY

在我的 crawler-conf.yaml 中，我有:

  # indexer.md.filter: "someKey=aValue"
  indexer.url.fieldname: "url"
  indexer.text.fieldname: "content"
  indexer.canonical.name: "canonical"
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain

这表明我已经有了描述和关键字，但是到目前为止，我在“内容”索引的文档中获得了以下字段:url、内容、域、标题。例如:

{
  "_index": "content",
  "_type": "_doc",
  "_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
  "_score": 1,
  "_source": {
    "content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
    "url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
    "domain": "gesetze-im-internet.de",
    "title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
  }
}

但我想获得更多信息，例如关键字、描述、创建日期、抓取日期。甚至可能是一个总结。

我怎样才能得到这些？

我可以使用此爬虫获得哪些其他值/字段？

我怎样才能在 ES 中获得它们？

我听说有一种方法可以让 SC 与 tika 一起更好地解析 html 和 pdf，这样也许我可以从爬取的页面中获取更多的数据和元数据。但我仍然不知道该怎么做。这方面的指南/教程会很好。

最佳答案

确保解析过滤器正确配置为 here .可以配置或扩展爬虫以提取几乎所有内容，请参阅 WIKI获取现有解析过滤器的列表。

与 JSOUP 相比，Tika 模块在 HTML 文档方面不会做得更好，但可以处理其他 mime 类型。请参阅该模块的 README 以了解如何使用它。

关于elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59445089/

25

4

0

文章推荐： javascript - 如何防止在页面加载时执行JavaScript函数？

文章推荐： javascript - 在 C# block 内使用 javascript 变量

文章推荐： javascript - 如何取消选中兄弟复选框

文章推荐： php - 如何在PHP上创建目录路径

java - StormCrawler 在爬行完一个域后执行操作
当爬网程序爬行完一个域时，我想执行一项操作(在我的例子中，将一个元组发送到一个 bolt )。我发现 StormCrawler 甚至能够在给定的时间间隔后重新访问网站。在同时爬取多个域的场景下，在哪
elasticsearch - 如何使用 StormCrawler 将网站内容存储在状态索引中？
我们正在尝试将网页的内容存储在中状态索引，以及 url、状态和元数据信息。我们尝试编辑 ES_IndexInit.sh 并在“状态”映射部分添加下一个属性: "content": {
elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段？
我正在使用 Stormcrawler 1.15、ElasticSearch 7.5，并按照本教程启动并运行 SC:https://www.youtube.com/watch?v=KTerugU12TY
elasticsearch - Stormcrawler-es.status.filterQuery如何工作？
我正在使用stormcrawler将数据放入一些Elasticsearch索引中，并且在状态索引中有一堆URL，它们具有各种状态-DISCOVERED，FETCHED，ERROR等。我想知道是否可以
elasticsearch - Stormcrawler -> Elasticsearch 的最佳设置，如果爬行的礼貌不是问题？
我们的大学网络系统有大约 1200 个站点，包括几百万个页面。我们在一台本地运行 apache 的机器上安装和配置了 Stormcrawler，并将驱动器映射到 Web 环境的文件系统。这意味着我们可
elasticsearch - stormcrawler:indexer.md.mapping-如果元数据标记不存在会发生什么？
Stormcrawler 1.13出现了一个奇怪的问题。在我们的某些(但不是全部)网站上，我们有一个标记，而SC的indexer.md.mapping设置为- parse.college=colleg
java - 在 StormCrawler 上获取拓扑以正确写入 warc 文件
stormcrawler maven 原型(prototype)似乎与我的项目中的 warc 模块配合得不太好。目前它仅创建空的 0 字节文件，其名称类似于“crawl-20180802121925-
elasticsearch - Stormcrawler v1.14是否与Elasticsearch 6.7.x兼容？
在Stormcrawler 1.14的已完成任务列表中，我同时看到“升级到Elasticsearch 7.0.x”和“ES 6.70依赖Elasticsearch”。这是否意味着1.14与两者兼容？
java - 使用 StormCrawler 抓取某些 url 时出现 X509 证书异常
我一直在使用StormCrawler来抓取网站。作为https协议(protocol)，我在StormCrawler中设置了默认的https协议(protocol)。但是，当我抓取一些网站时，我收到以
elasticsearch - 当之前的 "FETCHED"url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么？
我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理一个具有先前“获取”的 url 的站点，当下次 SC 到达它时，它已被删除并生成重定向或 404。来自的内容会发生什么旧
web-crawler - Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode
Closed. This question does not meet Stack Overflow guidelines 。它目前不接受答案。想改善这个问题吗？更新问题，使其成为 Stack Ov

首页

博学

6Ren·AI

商城

elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段？