gpt4 book ai didi

java获取文件编码,jsoup获取html纯文本操作

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 28 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章java获取文件编码,jsoup获取html纯文本操作由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

maven引入获取编码的jar 。

?
1
2
3
4
5
< dependency >
  < groupId >com.ibm.icu</ groupId >
  < artifactId >icu4j</ artifactId >
  < version >67.1</ version >
</ dependency >

获取html">文件编码 。

java" id="highlighter_772111">
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
package com.lovnx.note.util;
import com.ibm.icu.text.CharsetDetector;
import com.ibm.icu.text.CharsetMatch;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
 
import java.io.IOException;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
 
/**
  * @author @256g的胃
  * @ClassName HtmlParse
  * @Description
  * @Date 15:32 2020/7/9
  **/
public class HtmlParse {
 
  public static String getEncode(String filePath) throws IOException {
 
  Path path = Paths.get(filePath);
  byte [] data = Files.readAllBytes(path);
 
  CharsetDetector detector = new CharsetDetector();
  detector.setText(data);
  CharsetMatch match = detector.detect();
  String encoding = match.getName();
  System.out.println( "The Content in " + match.getName());
  return encoding;
  }
  public static void main(String[] args) throws Exception {
  System.out.println(HtmlParse.getEncode( "/Users/cxt/Downloads/test.html" ));
  }
}

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本 。

Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的"),

String text = doc.text(),

jsoup也支持 直接指定文件的形式去获取纯文本 。

参考 https://jsoup.org/ 。

补充知识:java 解析html/读取html内容 。

jsoup 。

String 转化 。

1、Document doc = Jsoup.parse(html),

例如:

?
1
2
3
4
String html = "<html><head><title>First parse</title></head>"
   + "<body><p>Parsed HTML into a doc.</p></body></html>" ;
  Document doc = Jsoup.parse(html);
  System.out.println(doc.text()); ;

常用api 。

2、获取节点文本:Document.text(),

以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我.

原文链接:https://blog.csdn.net/C1041067258/article/details/107537060 。

最后此篇关于java获取文件编码,jsoup获取html纯文本操作的文章就讲到这里了,如果你想了解更多关于java获取文件编码,jsoup获取html纯文本操作的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com