gpt4 book ai didi

java - 用 Java 解析 HTML 网页

转载 作者:搜寻专家 更新时间:2023-11-01 01:56:59 26 4
gpt4 key购买 nike

我需要为特定内容(几行几乎相同的文本)解析/阅读大量 HTML 网页(100+)。

我使用带有 reg 的扫描仪对象。表达式和 jsoup 及其 html 解析器。

这两种方法都很慢,使用 jsoup 时出现以下错误:java.net.SocketTimeoutException: 读取超时(多台计算机不同连接)

还有更好的吗?

编辑:

既然我已经开始使用 jsoup,我想一个更好的问题是如何加快它的速度?

最佳答案

您是否尝试延长 JSoup 的超时时间?我相信默认情况下只有 3 秒。参见例如this .

关于java - 用 Java 解析 HTML 网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6687948/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com