indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容？-6ren

indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容？

转载作者：行者123 更新时间：2023-12-03 06:39:31

25

4

开启:Heritrix Usecases有一个“仅存储成功的 HTML 页面”的用例

我的问题:我不知道如何在我的 cxml 文件中实现它。尤其:将 ContentTypeRegExpFilter 添加到 ARCWriterProcessor => 将其正则表达式设置设置为 text/html.*。 ...示例 cxml 文件中没有 ContentTypeRegExpFilter。

最佳答案

Kris 的回答只说了一半(至少对于我正在使用的 Heritrix 3.1.x 而言)。 DecideRule 返回 ACCEPT、REJECT 或 NONE。如果规则返回 NONE，则意味着该规则对此“没有意见”(如 Spring Security 中的 ACCESS_ABSTAIN)。现在ContentTypeMatchesRegexDecideRule (与所有其他 MatchesRegexDecideRule 一样)可以配置为在正则表达式匹配时返回决策(由两个属性“decision”和“regex”配置)。该设置意味着，如果正则表达式匹配，则此规则返回 ACCEPT 决策，但如果不匹配，则返回 NONE。正如我们所看到的 - NONE 不是意见，因此 shouldProcessRule 将评估为 ACCEPT，因为尚未做出任何决定。

因此，要仅存档具有 text/html* Content-Type 的响应，请配置 DecideRuleSequence，其中默认情况下所有内容都会被拒绝，并且只有选定的条目才会被接受。

看起来像这样:

 <bean id="warcWriter" class="org.archive.modules.writer.WARCWriterProcessor">
   <property name="shouldProcessRule">
     <bean class="org.archive.modules.deciderules.DecideRuleSequence">
       <property name="rules">
         <list>
           <!-- Begin by REJECTing all... -->
           <bean class="org.archive.modules.deciderules.RejectDecideRule" />
           <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
             <property name="decision" value="ACCEPT" />
             <property name="regex" value="^text/html.*" />
           </bean>
         </list>
       </property>
     </bean>
   </property>
   <!-- other properties... -->
 </bean>

为了避免下载图像、电影等，请使用 MatchesListRegexDecideRule 配置“scope”bean，该规则会拒绝具有众所周知的文件扩展名的 URL，例如:

<!-- ...and REJECT those from a configurable (initially empty) set of URI regexes... -->
<bean class="org.archive.modules.deciderules.MatchesListRegexDecideRule">
      <property name="decision" value="REJECT"/>
      <property name="listLogicalOr" value="true" />
      <property name="regexList">
       <list>
         <value>.*(?i)(\.(avi|wmv|mpe?g|mp3))$</value>
         <value>.*(?i)(\.(rar|zip|tar|gz))$</value>
         <value>.*(?i)(\.(pdf|doc|xls|odt))$</value>
         <value>.*(?i)(\.(xml))$</value>
         <value>.*(?i)(\.(txt|conf|pdf))$</value>
         <value>.*(?i)(\.(swf))$</value>
         <value>.*(?i)(\.(js|css))$</value>
         <value>.*(?i)(\.(bmp|gif|jpe?g|png|svg|tiff?))$</value>
       </list>
      </property>
</bean>

关于indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3493786/

25

4

0

文章推荐： jmespath - 根据多个键/值对的存在来过滤输出

文章推荐： typescript - vue : Typescript not working only in App. vue

文章推荐： vue.js - 何时使用 Vue Composition API 的 setup() 钩子(Hook)

文章推荐： svn - 如何重命名 SVN 分支并更新现有沙箱中的引用？

MySQL:排除
我有一个名为“members”的数据库表。分配给成员的是一个职位。职位来自部门。我有 Departments，然后是那些中的 Sub-Departments 和 Sub-Departments 中
Solr 多重过滤器标记/排除
我正在尝试为 Solr 搜索应用过滤器标记 Tagging_and_excluding_Filters . 挑战在于同时应用多个标记(对于单个页面上的多个选择选项)。例如 q=mainquery&fq
jquery:排除 child
我知道这个问题已经被问过很多次了，我已经尝试了所有建议，并阅读了有关不同选择器等的所有内容，但没有任何对我有用给出以下 HTML 片段: link
sql - LINQ 排除
是否有直接的 LINQ 语法来查找集合 B 中不存在的集合 A 的成员？在 SQL 我会写这个 SELECT A.* FROM A LEFT JOIN B ON A.ID = B.ID WHERE B
xpath - 排除，包括xPath
我试图排除并在现有xpath中包括以下xpath，但不太确定如何做到这一点 //exclude -> //*[@id="ires"]/ol/li[6]/div/a[1]/img //include
php - 排除 if 子句中的多个值
我有 30 个站点，我需要在其中 24 个站点上回显某些内容。我怎样才能排除其他人？该代码不起作用，因为我认为它的逻辑是假的:) $currentsite = get_bloginfo('wpurl'
powershell - PowerShell测试路径-排除
我需要对目标文件夹进行检查，并检查文件是否来自今天，并且超过5kb 下面的命令根据使用今天的日期存在的文件来提供bool值，但是我还要添加-gt5kb之类的排除项我尝试使用-Exlcude，但不确定
elasticsearch - Elasticsearch匹配除指定字段之外的所有查询，排除
我编入索引的Elasticsearch文档包含许多字段。我一直在使用match_all查询来获取结果。我想从match_all中排除一些字段，这可能吗？最佳答案在Elasticsearch中，您可
java - @Before 和 @After 排除
我正在为我的 DAO 编写一些测试，因为很多测试使用保存到我的数据库中的测试对象，所以我使用注释 @Before 和 @Before 创建了 setup() 和teardown() 方法@After
java - 使用java在环形平面上包含/排除
我编写了一个程序来解决以下问题: Implement a diffusion limited aggregation simulation on a toroid plane where seeds
MSBuild 排除/包含顺序
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
sql - 排除 WHERE 子句中的空白值和空值
很多时候我必须运行这个查询: select * from users where name is not null and name != '' 有没有更好的方法来做到这一点。我需要更多的性能，任何建
javascript - 排除 MacOS
如果检测到某个操作系统，是否有一种简单的方法可以排除某些代码？我设计了一个运行良好的网站(它是一个 sidescroller)，当使用滚轮(向上/向下)时，它会左右滚动。但是，如果您使用的是 Mac
php - 排除 "IN"子句中的值
我应该如何排除“IN”子句中的值？ $Graduates = "45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,6
sql - 如何禁用mysql的匹配查询的50%排除
很明显，如果一个 Mysql 表的全文索引包含一个出现在 50% 的数据行中的关键字，该关键字将被匹配查询忽略因此，如果我有一个包含 50 个条目的全文索引“content”的表其中 27 个条目在
Javascript .match - 排除？
我有下面的循环。我需要提取所有不包含字母 p 的名称 (lskey)，但我的尝试不起作用。 for(var i = 0; i "); } } 如果有人能回答，我将不胜感激。最佳答案如此接
python - 排除 for 循环中的项目
我正在尝试查找 FTP 服务器上根目录的总大小。但是，我无权访问根目录中的其中一个目录。我想用这个函数对根目录的大小求和: size = 0 for filename in ftp.nlst("."
python - 排除\S正则表达式匹配中的字符
我有以下正则表达式来匹配 html 链接: 有点效果。除了不是真的。因为它在编辑: 这将使它只抓取引号而不是之后的所有内容最佳答案我认为您的正则表达式没有按照您的意愿行事。这会非贪婪地捕
python - 循环尝试/排除
我在提出异常方面遇到困难，例如: import csv o = open('/home/foo/dummy.csv', 'r') # Empty file! reader = csv.reader(o
Python 尝试/排除
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi

首页

博学

6Ren·AI

商城

indexing - 如何从 heritrix 爬网中排除除 text/html 之外的所有内容？