gpt4 book ai didi

java - 使用jsoup逐行读取robot.txt

转载 作者:行者123 更新时间:2023-12-01 22:43:27 24 4
gpt4 key购买 nike

我正在尝试使用 jsoup 读取 robots.txt 文件。我想逐行读取此文件并确定某行是否不允许/允许/useragent/sitemap。

使用 Jsoup 我执行以下操作:

robotfile = Jsoup.connect(u).get();

robotfile.text();

但是,后者给了我:

80legs User-agent: 008 Disallow: / User-Agent: bender Disallow: /my_sh.. etc

即使我执行 .html(),我也看不到任何换行符(例如标签),因此我无法用简单的换行符替换所有这些值。

有没有办法逐行读取这个文件?

谢谢!

最佳答案

JSoup 确实是为读取和解析 HTML 文件而构建的。 robots.txt 文件不是 HTML 文件,最好通过简单的输入流读取。下面是一个读取 Google robots.txt 文件的简单连接。

public static void main(String[] args) {
try(BufferedReader in = new BufferedReader(
new InputStreamReader(new URL("http://google.com/robots.txt").openStream()))) {
String line = null;
while((line = in.readLine()) != null) {
System.out.println(line);
}
} catch (IOException e) {
e.printStackTrace();
}
}

输出(因长度而被截断):

User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
Disallow: /catalogs
...

关于java - 使用jsoup逐行读取robot.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25731346/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com