gpt4 book ai didi

java - 如何使用 Jsoup 抓取 gzip 压缩的 html 文件?

转载 作者:太空宇宙 更新时间:2023-11-04 13:45:25 24 4
gpt4 key购买 nike

我试图从 html 文件中获取内容,该文件位于 html.gz 文件中。当我尝试使用 Jsoup 访问 URL 时,我得到:

Exception in thread "main" java.io.EOFException: Unexpected end of ZLIB input stream at java.util.zip.InflaterInputStream.fill(InflaterInputStream.java:240) at java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158) at java.util.zip.GZIPInputStream.read(GZIPInputStream.java:116) at java.io.BufferedInputStream.read1(BufferedInputStream.java:273) at java.io.BufferedInputStream.read(BufferedInputStream.java:334) at java.io.FilterInputStream.read(FilterInputStream.java:107) at org.jsoup.helper.DataUtil.readToByteBuffer(DataUtil.java:154) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:560) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:493) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:205) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:194) at org.jsoup.Jsoup.parse(Jsoup.java:183)

我的代码如下:

Document doc= Jsoup.connect("http://XXXXXXX_BIZ_Jun17_10:02:17.html.gz").get();

最佳答案

第 1 步

尝试手动下载压缩文件。然后尝试使用7zip之类的工具打开它。这样您就可以检查 html.gz 文件是否有效。

  • 如果文件无效,那么 Jsoup 不是罪魁祸首,停止

  • 如果文件有效,则跳转到第 2 步

第 2 步

启动您最喜欢的浏览器并在“网络”选项卡上打开其开发人员控制台。下载 html.gz 文件并观察浏览器交换的 header 。将您可能错过的 header 添加到代码中。

关于java - 如何使用 Jsoup 抓取 gzip 压缩的 html 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30898097/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com