- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Stormcrawler 1.15、ElasticSearch 7.5,并按照本教程启动并运行 SC:https://www.youtube.com/watch?v=KTerugU12TY
在我的 crawler-conf.yaml 中,我有:
# indexer.md.filter: "someKey=aValue"
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
{
"_index": "content",
"_type": "_doc",
"_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
"_score": 1,
"_source": {
"content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
"url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
"domain": "gesetze-im-internet.de",
"title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
}
}
最佳答案
确保解析过滤器正确配置为 here .可以配置或扩展爬虫以提取几乎所有内容,请参阅 WIKI获取现有解析过滤器的列表。
与 JSOUP 相比,Tika 模块在 HTML 文档方面不会做得更好,但可以处理其他 mime 类型。请参阅该模块的 README 以了解如何使用它。
关于elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59445089/
当爬网程序爬行完一个域时,我想执行一项操作(在我的例子中,将一个元组发送到一个 bolt )。 我发现 StormCrawler 甚至能够在给定的时间间隔后重新访问网站。在同时爬取多个域的场景下,在哪
我们正在尝试将网页的内容存储在 中状态索引 ,以及 url、状态和元数据信息。 我们尝试编辑 ES_IndexInit.sh 并在“状态”映射部分添加下一个属性: "content": {
我正在使用 Stormcrawler 1.15、ElasticSearch 7.5,并按照本教程启动并运行 SC:https://www.youtube.com/watch?v=KTerugU12TY
我正在使用stormcrawler将数据放入一些Elasticsearch索引中,并且在状态索引中有一堆URL,它们具有各种状态-DISCOVERED,FETCHED,ERROR等。 我想知道是否可以
我们的大学网络系统有大约 1200 个站点,包括几百万个页面。我们在一台本地运行 apache 的机器上安装和配置了 Stormcrawler,并将驱动器映射到 Web 环境的文件系统。这意味着我们可
Stormcrawler 1.13出现了一个奇怪的问题。在我们的某些(但不是全部)网站上,我们有一个标记,而SC的indexer.md.mapping设置为- parse.college=colleg
stormcrawler maven 原型(prototype)似乎与我的项目中的 warc 模块配合得不太好。目前它仅创建空的 0 字节文件,其名称类似于“crawl-20180802121925-
在Stormcrawler 1.14的已完成任务列表中,我同时看到“升级到Elasticsearch 7.0.x”和“ES 6.70依赖Elasticsearch”。这是否意味着1.14与两者兼容?
我一直在使用StormCrawler来抓取网站。作为https协议(protocol),我在StormCrawler中设置了默认的https协议(protocol)。但是,当我抓取一些网站时,我收到以
我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理一个具有先前“获取”的 url 的站点,当下次 SC 到达它时,它已被删除并生成重定向或 404。来自的内容会发生什么旧
Closed. This question does not meet Stack Overflow guidelines 。它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 Stack Ov
我是一名优秀的程序员,十分优秀!