gpt4 book ai didi

indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容?

转载 作者:行者123 更新时间:2023-12-03 06:39:31 25 4
gpt4 key购买 nike

开启:Heritrix Usecases有一个“仅存储成功的 HTML 页面”的用例

我的问题:我不知道如何在我的 cxml 文件中实现它。尤其:将 ContentTypeRegExpFilter 添加到 ARCWriterProcessor => 将其正则表达式设置设置为 text/html.*。 ...示例 cxml 文件中没有 ContentTypeRegExpFilter。

最佳答案

Kris 的回答只说了一半(至少对于我正在使用的 Heritrix 3.1.x 而言)。 DecideRule 返回 ACCEPT、REJECT 或 NONE。如果规则返回 NONE,则意味着该规则对此“没有意见”(如 Spring Security 中的 ACCESS_ABSTAIN)。现在ContentTypeMatchesRegexDecideRule (与所有其他 MatchesRegexDecideRule 一样)可以配置为在正则表达式匹配时返回决策(由两个属性“decision”和“regex”配置)。该设置意味着,如果正则表达式匹配,则此规则返回 ACCEPT 决策,但如果不匹配,则返回 NONE。正如我们所看到的 - NONE 不是意见,因此 shouldProcessRule 将评估为 ACCEPT,因为尚未做出任何决定。

因此,要仅存档具有 text/html* Content-Type 的响应,请配置 DecideRuleSequence,其中默认情况下所有内容都会被拒绝,并且只有选定的条目才会被接受。

看起来像这样:

 <bean id="warcWriter" class="org.archive.modules.writer.WARCWriterProcessor">
<property name="shouldProcessRule">
<bean class="org.archive.modules.deciderules.DecideRuleSequence">
<property name="rules">
<list>
<!-- Begin by REJECTing all... -->
<bean class="org.archive.modules.deciderules.RejectDecideRule" />
<bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
<property name="decision" value="ACCEPT" />
<property name="regex" value="^text/html.*" />
</bean>
</list>
</property>
</bean>
</property>
<!-- other properties... -->
</bean>

为了避免下载图像、电影等,请使用 MatchesListRegexDecideRule 配置“scope”bean,该规则会拒绝具有众所周知的文件扩展名的 URL,例如:

<!-- ...and REJECT those from a configurable (initially empty) set of URI regexes... -->
<bean class="org.archive.modules.deciderules.MatchesListRegexDecideRule">
<property name="decision" value="REJECT"/>
<property name="listLogicalOr" value="true" />
<property name="regexList">
<list>
<value>.*(?i)(\.(avi|wmv|mpe?g|mp3))$</value>
<value>.*(?i)(\.(rar|zip|tar|gz))$</value>
<value>.*(?i)(\.(pdf|doc|xls|odt))$</value>
<value>.*(?i)(\.(xml))$</value>
<value>.*(?i)(\.(txt|conf|pdf))$</value>
<value>.*(?i)(\.(swf))$</value>
<value>.*(?i)(\.(js|css))$</value>
<value>.*(?i)(\.(bmp|gif|jpe?g|png|svg|tiff?))$</value>
</list>
</property>
</bean>

关于indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3493786/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com