gpt4 book ai didi

java - 如何使用 Jsoup 和/或正则表达式 Java 从 URL 中删除 html 标签

转载 作者:行者123 更新时间:2023-12-01 11:18:57 26 4
gpt4 key购买 nike

我需要使用 Jsoup 和/或 Java 中的正则表达式从 URL 中删除 HTML 标签。到目前为止,我已经尝试了一些东西,使用 javax.swing.text.html.HTMLEditorKit 甚至 Jsoup 但我无法交换 import java.io.FileReader;导入 java.io.InputStreamReader;导入java.net.URL;并使其成功运行。

我还能做什么?

这是我尝试过的代码**

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.URL;
import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import org.jsoup.Jsoup;

public class WebTest {
private WebTest() {}

public static String extractText(Reader reader) throws IOException {
StringBuilder sb = new StringBuilder();
BufferedReader br = new BufferedReader(reader);
String line;
while ((line = br.readLine()) != null) {
sb.append(line);
}
String textOnly = Jsoup.parse(sb.toString()).text();
return textOnly;
}




public static void main(String[] args) throws Exception {



String filename = "/Users//Desktop/file4.csv";
String urltodownload = "http://www.amazon.com";



URL url = new URL(urltodownload);

BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));

BufferedWriter bw = new BufferedWriter(new FileWriter(new File(filename)));

String document = "";

while (br.ready()) {

String line = br.readLine();
document += line + "\n";
System.out.println( line );
} bw.close();

String file = "/Users/Desktop/file4.csv";
FileReader reader = new FileReader(file);
System.out.println(WebTest.extractText(reader));
}


}

最佳答案

使用Jsoup

public static String htmlremoved(String html) {
return Jsoup.parse(html).text();
}

使用正则表达式 String nohtml = YourUrlString.toString().replaceAll("\\<.*?>","");

关于java - 如何使用 Jsoup 和/或正则表达式 Java 从 URL 中删除 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31482038/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com