- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
>for record-6ren">
我想读取一个warc文件,我根据this page编写了以下代码但没有打印任何内容!!
>>import warc
>>f = warc.open("01.warc.gz")
>>for record in f:
print record['WARC-Target-URI'], record['Content-Length']
但是,当我编写以下命令时,我得到了结果
>>print f
<warc.warc.WARCFile instance at 0x0000000002C7DE88>
请注意,我的 warc 文件是 Clueweb09 数据集中的文件之一。我提到它是因为this page .
最佳答案
我也遇到了和你一样的问题
经过对模块的一些研究,我找到了解决方案。
尝试使用record.payload.read()
,这是完整的示例:
import warc
f = warc.open("01.warc.gz")
for record in f:
print record.payload.read()
另外,我可以说你不仅可以读取 warc
文件,还可以读取 wet
文件。小作弊是将其重命名为 name,其中包含 .warc
亲切的问候
关于python - 使用python读取warc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40099000/
我从 this page 下载 ClueWeb09_English_Sample.warc 文件然后我使用 the following web page 的给定代码将 warc 文件的数据写入文本文件
本文整理了Java中org.archive.io.warc.WARCReader类的一些代码示例,展示了WARCReader类的具体用法。这些代码示例主要来源于Github/Stackoverflow
本文整理了Java中org.archive.io.warc.WARCWriter类的一些代码示例,展示了WARCWriter类的具体用法。这些代码示例主要来源于Github/Stackoverflow
我运行 wget 来创建一个 warc 存档,如下所示: $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/
对于我的工作,我抓取网站并将它们写入 gzipped 网络存档(扩展名为“warc.gz”)。我使用 Python 2.7.11 和 warc 0.2.1 库。 我注意到对于大多数文件,我无法使用 w
我有兴趣下载一堆网页以供日后分析。我想做两件事: 将页面和相关资源(图像、与文章相关的多个页面等)下载到 WARC 文件。 更改所有链接以指向现在的本地文件。 我想用 Python 来做。 有什么好的
stormcrawler maven 原型(prototype)似乎与我的项目中的 warc 模块配合得不太好。目前它仅创建空的 0 字节文件,其名称类似于“crawl-20180802121925-
我在网站上搜索了很多次,但找不到我真正需要的东西。我有包含数据的 web.warc.gz 文件,我需要提取 WARC header 。我已经安装了 Tomcat 和 Wayback (1.6),试图使
我必须根据 Target-URI 从 *.warc.gz 文件中检索记录。文档说这需要创建外部 CDXJ 索引文件。 我试过以 gzip.open() 打开文件并执行 seek(offset),但查找
我一直在使用用 Python 编写的映射器和缩减器在 AWS/EMR 中运行流式处理步骤,以映射 Common Crawl 中的一些文件以进行情绪分析。 我正在从较旧的通用爬网 textData 格式
本文整理了Java中org.archive.io.warc.WARCReader.setDigest()方法的一些代码示例,展示了WARCReader.setDigest()的具体用法。这些代码示例主
本文整理了Java中org.archive.io.warc.WARCReader.iterator()方法的一些代码示例,展示了WARCReader.iterator()的具体用法。这些代码示例主要来
本文整理了Java中org.archive.io.warc.WARCReader.isDigest()方法的一些代码示例,展示了WARCReader.isDigest()的具体用法。这些代码示例主要来
本文整理了Java中org.archive.io.warc.WARCReader.get()方法的一些代码示例,展示了WARCReader.get()的具体用法。这些代码示例主要来源于Github/S
本文整理了Java中org.archive.io.warc.WARCReader.getIn()方法的一些代码示例,展示了WARCReader.getIn()的具体用法。这些代码示例主要来源于Gith
本文整理了Java中org.archive.io.warc.WARCReader.close()方法的一些代码示例,展示了WARCReader.close()的具体用法。这些代码示例主要来源于Gith
本文整理了Java中org.archive.io.warc.WARCReader.getOptions()方法的一些代码示例,展示了WARCReader.getOptions()的具体用法。这些代码示
本文整理了Java中org.archive.io.warc.WARCReader.isStrict()方法的一些代码示例,展示了WARCReader.isStrict()的具体用法。这些代码示例主要来
本文整理了Java中org.archive.io.warc.WARCReader.getReaderIdentifier()方法的一些代码示例,展示了WARCReader.getReaderIdent
本文整理了Java中org.archive.io.warc.WARCReader.setStrict()方法的一些代码示例,展示了WARCReader.setStrict()的具体用法。这些代码示例主
我是一名优秀的程序员,十分优秀!