作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
因此,我从网站中提取了原始 html 代码,但它全部放在一个字符串中,我想将其分成几行,就像 google chrome 上的“查看页面源代码”一样。
这是我的代码。
字符串 url = "https://stratechery.com/2016/how-google-cloud-platform-is-challenging-aws/ "; //crawl(url,"更多完整鞋类.txt",9000);
System.out.println(br2nl(url));
Document doc = Jsoup.connect(url)
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
String rawhtml =doc.toString();
String lines[] = rawhtml.split("\""+" ");
我尝试根据引号和空格拆分“rawhtml”字符串,但它们遍布每一行,因此它会在各处进行拆分。
最佳答案
我认为您可能没有捕获 Jsoup 的要点。
您不必自己逐行进行解析,Jsoup 有方法可以做到这一点。 HTML 已在您创建的 JSOUP 文档中进行解析。您现在可以逐个或以分组方式访问其元素。可能性是无限的,请查看官方文档:https://jsoup.org/cookbook/
为了回答你的问题,要按换行符分割整个 HTML 字符串,你可以这样做:
public class JsoupTest {
public static void main(String[] args) throws IOException {
String url = "https://stratechery.com/2016/how-google-cloud-platform-is-challenging-aws/";
Document doc = Jsoup.connect(url)
.userAgent("Mozilla")
.get();
for (String s : doc.toString().split("\\n")) {
System.out.println(s);
}
}
}
关于java - 在 Jsoup 中再次将原始 html 字符串拆分为行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40909450/
我是一名优秀的程序员,十分优秀!