gpt4 book ai didi

java - 扫描并显示网站源代码 Java 中的每个单词

转载 作者:行者123 更新时间:2023-12-01 13:23:58 25 4
gpt4 key购买 nike

我的任务是扫描网站源代码的内容,并使用分隔符从网站中提取所有超链接并显示它们。经过一番网上搜索后,这是我目前所拥有的:

    import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;

public class HyperlinkMain {
public static void main(String[] args) {
try {
Scanner in = new Scanner (System.in);
String URL = in.next();

URL website = new URL(URL);
BufferedReader input = new BufferedReader(new InputStreamReader(website.openStream()));
String inputLine;

while ((inputLine = input.readLine()) != null) {
// Process each line.
System.out.println(inputLine);
}
in.close();

} catch (MalformedURLException me) {
System.out.println(me);

} catch (IOException ioe) {
System.out.println(ioe);
}
}

}

所以我的程序可以从网站的源代码中提取每一行并显示它,但实际上我希望它从源代码中提取每个单词而不是每一行。我真的不知道它是如何完成的,因为当我使用 input.read();

时我不断收到错误

最佳答案

有很多用于检索网页的源代码。看Pattern类以了解如何对超链接进行正则表达式文本。通过将超链接提取与网页下载分开进行,您可以将作业视为两个单独的问题。

关于java - 扫描并显示网站源代码 Java 中的每个单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21886936/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com