gpt4 book ai didi

java - 使用crawler4j时如何解析html

转载 作者:行者123 更新时间:2023-12-03 00:25:17 25 4
gpt4 key购买 nike

最近,我不得不使用开源项目crawler4j来抓取一些网站。但是,crawler4j没有提供任何使用的api。现在,我遇到了一个问题,如何使用crawler4j提供的函数和类解析html crawler4j 并像我们使用 jquery 一样查找元素

最佳答案

相对简单。以下方法对我有用。

MyCrawler.java中:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String html = htmlParseData.getHtml();
Document doc = Jsoup.parseBodyFragment(html);
...

关于java - 使用crawler4j时如何解析html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18638829/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com