gpt4 book ai didi

java - 如何获取目录 URL 的文件/目录列表?

转载 作者:行者123 更新时间:2023-12-01 16:54:00 25 4
gpt4 key购买 nike

假设我有一个 URL:http://java.sun.com/j2se/1.5/pdf 我想获取 pdf< 下所有文件/目录的列表 目录。

我使用的是 Java 5。

我可以用这个程序获取目录列表 http://www.httrack.com/ ,但是用Java我不知道这是否可能。

有人知道如何用 Java 获取它吗?或者如果 Java 做不到,这个程序如何完成这项工作?

最佳答案

有一些条件:

  1. 服务器必须启用目录列表,您才能看到其中的内容。
  2. 据我所知,没有办法(没有 API 或 HTTP 动词)来检索列表,因此列表通常显示为普通 HTML 页面
  3. 您必须解析此 HTML 页面才能找到条目。

使用像 JSoup 这样的库可以轻松完成解析。 .

例如,使用 JSoup 您可以在 url http://howto.unixdev.net/ 处获取文档,如下所示:

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class Sample {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("http://howto.unixdev.net").get();
for (Element file : doc.select("td.right td a")) {
System.out.println(file.attr("href"));
}
}
}

将输出:

beignets.html
beignets.pdf
bsd-pam-ldap.html
ddns-updates.html
Debian_on_HP_dv6z.html
dextop-slackware.html
dirlist.html
downloads/
ldif/
Linux-SharePoint.html
rhfc3-apt.html
rhfc3-apt.tar.bz2
SUNWdsee-Debian.html
SUNWdtdte-b69.html
SUNWdtdte-b69.tar.bz2
tcshrc.html
Test_LVM_Trim_Ext4.html
Tru64-CS20-HOWTO.html

至于您的示例网址http://java.sun.com/j2se/1.5/pdf这是一个未找到的页面,所以我认为您运气不好。

关于java - 如何获取目录 URL 的文件/目录列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61627657/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com