common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度-6ren

common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度

转载作者：行者123 更新时间：2023-12-01 19:38:50

26

4

我想从 Amazon S3 下载 WAT 存档段的子集。

背景:

搜索 http://index.commoncrawl.org 处的 Common Crawl 索引会生成包含有关 AWS S3 上 WARC 文件位置信息的结果。例如，搜索 url=www.celebuzz.com/2017-01-04/*&output=json 会产生 JSON 格式的结果，其中之一是

{ “urlkey”:“com，celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute”， ... “文件名”:“爬网数据/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz”， ... “偏移量”:“504411150”， “长度”:“14169”， ... }

filename 条目指示哪个归档段包含该特定页面的 WARC 文件。这个存档文件很大；但幸运的是，该条目还包含 offset 和 length 字段，它们可用于请求包含存档段相关子集的字节范围(例如，参见 lines 22-30 in this gist ) .

我的问题:

给定 WARC 文件段的位置，我知道如何构造相应的 WAT 归档段的名称(例如，参见 this tutorial )。我只需要 WAT 文件的一个子集，因此我想请求一定范围的字节。但是如何找到WAT归档段对应的偏移量和长度呢？

我已经检查了 Common Crawl 索引服务器的 API documentation，但我不清楚这是否可能。但如果是的话，我会发布这个问题。

最佳答案

通用爬网索引不包含 WAT 和 WET 文件的偏移量。因此，唯一的方法是在整个 WAT/WET 文件中搜索所需的记录/URL。最终，可以估计偏移量，因为 WARC 和 WAT/WET 文件中的记录顺序是相同的。

关于common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45920527/

26

4

0

文章推荐： Angular2 ngif 仅显示事件状态数据

文章推荐： java - 分割该字符串以获得相应字符的最大计数

文章推荐： ios - 我想从SwiftUI的列表项中删除披露图标

common-lisp - 为什么没有用 Common Lisp 编写的 Common Lisp 实现？
最近，我开始学习 cuis-smalltalk，我没有意识到与 CLOS 相比，Smalltalk 的 OOP 有多么深刻和深入(我使用的是 Ruby)。我了解到 Smalltalk 是一个自己实现的
maven - Maven依赖项org.apache.commons:commons-io和commons-io:commons-io有什么区别？
Maven存储库包含以下两个依赖项：org.apache.commons:commons-io:1.3.2和commons-io:commons-io:1.3.2。有什么区别，我应该在pom.xml中
java - 在 Maven 中，它的 "org.apache.commons.collections:commons-collections"与 "commons-collections:commons-collections"相同吗？
我刚刚在我的 pom 文件中看到 Apache commons-collections 有两个不同的组 ID: commons-collections commons-collect
common-lisp - common lisp中的串口通信
Windows 上的 Common Lisp 中是否有用于串行端口通信的库？最佳答案下面是一些使用 SBCL 外部函数 POSIX 调用实现串行通信的函数。它不如完整的库好，但我解决了根据此协议(
common-lisp - common-lisp中有关可选参数的错误
SBCL 64位，1.1.7 如果我想创建一个包并使用package:CL中的一些符号，我将创建一个像这样的包: (defpackage :foo (:import-from :cl
common-lisp - Common Lisp的静态代码分析工具？
我正在忙着学习Common Lisp，并且正在寻找一种静态代码分析工具，该工具将帮助我开发更好的样式并避免陷入常见的陷阱。我找到了Lisp Critic，看起来不错，但我希望有人可以推荐其他一些工具
common-lisp - Common Lisp共享结构困惑
我正在阅读《Practical Common Lisp》一书，在第 22 章第 284 页的脚注 5 中，我看到一段让我感到困惑的代码片段。我知道变量list和tail有一个共同的列表结构，但我很困
common-lisp - Common Lisp 的复制树 : Which objects will be referenced in common by the original and the copy?
我正在阅读 Practical Common Lisp ，并且对 Lisp 的 COPY-TREE 函数有疑问。书中给出了调用的例子 (copy-tree '( '(1 2) '(3 4) '(5
groovy - geb 使用葡萄 - 下载失败 : commons-codec#commons-codec;1. 6!commons-codec.jar
我正在尝试使用 user guide 中的抓取示例运行 geb用于引入依赖项: $ cat my.groovy @Grapes([ @Grab("org.gebish:geb-core:0.9
common-lisp - Common Lisp 中的重复案例陈述
这里一定有更好的方法，对吧？ (format t "Enter your age: ~%") (defun age-case (age) (case age (1 (format t "Y
common-lisp - Common Lisp中do循环中的多值绑定(bind)
如何在 do 循环中绑定(bind)从函数返回的多个值？以下显然是非常错误的，但是这样的事情可能吗？ (do (((x y z) (3-val-fn) (3-val-fn))) ((equa
common-lisp - Common Lisp 中分数的相等性检查
所以我正在学习 Lisp 做分数，这很棒。但是为什么这个相等性检查返回 NIL: * (= 0.2 1/5) NIL ...如果转换为 float 则返回 True第一的: * (=
common-lisp - Common Lisp - 如何判断一个路径名是指向一个普通文件还是一个目录？
是否可以“统计”一个文件并找到它的文件类型 - 常规或目录？最佳答案阅读关于 portable pathname library 的章节来自 Peter Seibel 的 Practical Co
common-lisp - Common Lisp 源代码组织
我是 CL 的新手，正在使用 AllegroCL。我试图弄清楚如何组织我的源代码以满足以下要求: 我想阻止 src 代码包含我的测试套件。我想以可移植的方式声明项目依赖项(src 和 test de
common-lisp - Common Lisp 的最新标准
谁能告诉我最新的标准化 Common Lisp 的文档是什么(应该遵循各种实现的文档)？我问是因为我可以在网上找到很多关于 CL 的书都来自 90 年代，所以我想知道它们是否是最新的。我也来自于在 R
common-lisp - Common Lisp 中函数的作用域
假设我必须定义一个名为foo 的函数。假设，为了定义它，我使用了一些辅助函数 foo1, foo2, foo3, ... 当我加载包含这些函数的文件时，我可以从顶层使用所有这些函数。相反，我只想从顶层
common-lisp - Common Lisp 循环工具中的语法错误
这拒绝编译。注释掉 (setf roll行让它编译。然而，(setf roll...本身在 REPL 中正确评估。程序: ;; loop n times ; sum up number of hit
common-lisp - Common Lisp 嵌套结构变化
我目前正在学习 Common Lisp，并尝试将一些 JSON 发送到网络服务。我要发送的 JSON 以类似于以下的结构表示: ((:ITEMS ((:KEY . "value1") (:IGNO
common-lisp - 使用波浪号将文件名扩展到其完整路径(Common Lisp)
我有一个带波浪号的目录名(作为字符串):~/projects . 我想得到它的完整路径:/home/user/projects .我怎么做？目标是将它传递给 uiop:run-program ，这
common-lisp - Common Lisp 中格式指令的安全解析
我想从输入文件中读取一个字符串(用户可能修改也可能没有修改)。我想将此字符串视为使用固定数量的参数调用的格式指令。但是，我知道某些格式指令(特别是我想到的 ~/)可能会用于注入(inject)函数调用

首页

博学

6Ren·AI

商城

common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度