gpt4 book ai didi

Java 和 Heritrix 3.1.x : Web Content parsing?

转载 作者:行者123 更新时间:2023-12-01 14:19:26 25 4
gpt4 key购买 nike

由于 Heritrix 3.x 的开发人员文档基本上已经过时(其中大部分与 Heritrix 1.x 相关,因为大多数类已更改或代码已被显着重写/重构),任何人都可以指出我到系统中处理实际网页内容提取的相关类(或多个类)?

我想要做的是获取Heritrix即将抓取的网页内容,然后对网页内容应用分类器? (分析结构特征等)我认为此功能可能分布在 ContentExtractor 类及其许多子类中,但我想要做的是找到我拥有完整网页内容或以网页内容形式存在的点。可读/可解析流。 Heritrix 应用正则表达式的内容(html)在哪里(以便查找链接、某些文件类型等)?

最佳答案

我建议研究一个自定义的 WriterProcessor 我编写了一个自定义的 MirrorWriter,它会查看传入的数据,并将文件写入不同的位置,以便稍后进行后期处理。 MirrorWriter 类的代码相当简单并且注释良好。文档在这里:http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您对预处理一心一意,您可以扩展 org.archive.modules.extractor.ExtractorHTML 并执行即时版本。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

关于Java 和 Heritrix 3.1.x : Web Content parsing?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17750440/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com