gpt4 book ai didi

Heritrix:仅忽略一个站点的 robots.txt

转载 作者:行者123 更新时间:2023-12-03 18:32:44 25 4
gpt4 key购买 nike

我正在使用 Heritrix 3.2.0。

我想从一个站点抓取所有内容,包括通常受 robots.txt 保护的页面。

但是,我不想忽略其他 站点的 robots.txt。 (不想让 Facebook 或 Google 生我们的气,你知道的)

我试过设置一个工作表覆盖,非常类似于 3.0/3.1 手册中的那个(在帖子的末尾)

job构建没有注释,但是overlay好像没有触发,本地的robots.txt还是服从。

那么,我做错了什么?

斯蒂格海默

<beans>
... all the normal default crawler-beans.cxml stuff ...

<bean id="sheetOverLayManager" autowire="byType"
class="org.archive.crawler.spring.SheetOverlaysManager">
</bean>

<bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
<property name='surtPrefixes'>
<list>
<value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
</value>
</list>
</property>
<property name='targetSheetNames'>
<list>
<value>noRobots</value>
</list>
</property>
</bean>

<bean id='noRobots' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
<entry key='metadata.robotsPolicyName' value='ignore'/>
</map>
</property>
</bean>
</beans>

最佳答案

原始海报在这里。一如既往,键盘和椅子之间存在问题。

事实证明我不明白 SURT 是如何工作的。

新的和改进的配置:

<property name='surtPrefixes'>
<list>
<value>http://(no,kommune,trondheim,</value>
<value>https://(no,kommune,trondheim,</value>
</list>
</property>

重要的变化是让每个 SURT 的结尾保持打开状态,因为我实际上想在规则中包含子站点。

我还将两个 SURT 拆分为两个 <value>秒。不确定这是否有必要,但至少它更具可读性。

我仍然有问题,但至少我有问题!

关于Heritrix:仅忽略一个站点的 robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30727208/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com