- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章java获取文件编码,jsoup获取html纯文本操作由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
maven引入获取编码的jar 。
1
2
3
4
5
|
<
dependency
>
<
groupId
>com.ibm.icu</
groupId
>
<
artifactId
>icu4j</
artifactId
>
<
version
>67.1</
version
>
</
dependency
>
|
获取html">文件编码 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
|
package
com.lovnx.note.util;
import
com.ibm.icu.text.CharsetDetector;
import
com.ibm.icu.text.CharsetMatch;
import
org.jsoup.Jsoup;
import
org.jsoup.nodes.Document;
import
org.jsoup.select.Elements;
import
java.io.IOException;
import
java.net.URL;
import
java.nio.file.Files;
import
java.nio.file.Path;
import
java.nio.file.Paths;
/**
* @author @256g的胃
* @ClassName HtmlParse
* @Description
* @Date 15:32 2020/7/9
**/
public
class
HtmlParse {
public
static
String getEncode(String filePath)
throws
IOException {
Path path = Paths.get(filePath);
byte
[] data = Files.readAllBytes(path);
CharsetDetector detector =
new
CharsetDetector();
detector.setText(data);
CharsetMatch match = detector.detect();
String encoding = match.getName();
System.out.println(
"The Content in "
+ match.getName());
return
encoding;
}
public
static
void
main(String[] args)
throws
Exception {
System.out.println(HtmlParse.getEncode(
"/Users/cxt/Downloads/test.html"
));
}
}
|
上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本 。
Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的"),
String text = doc.text(),
jsoup也支持 直接指定文件的形式去获取纯文本 。
参考 https://jsoup.org/ 。
补充知识:java 解析html/读取html内容 。
jsoup 。
String 转化 。
1、Document doc = Jsoup.parse(html),
例如:
1
2
3
4
|
String html =
"<html><head><title>First parse</title></head>"
+
"<body><p>Parsed HTML into a doc.</p></body></html>"
;
Document doc = Jsoup.parse(html);
System.out.println(doc.text()); ;
|
常用api 。
2、获取节点文本:Document.text(),
以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我.
原文链接:https://blog.csdn.net/C1041067258/article/details/107537060 。
最后此篇关于java获取文件编码,jsoup获取html纯文本操作的文章就讲到这里了,如果你想了解更多关于java获取文件编码,jsoup获取html纯文本操作的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
可以抛出异常的函数可以有[pure]属性吗? 最佳答案 根据 https://msdn.microsoft.com/en-us/library/system.diagnostics.contracts
我使用的是纯 css 推送导航。它工作得很好,但是我不知道如何在单击导航链接时隐藏菜单。您必须手动单击菜单图标才能使菜单返回隐藏状态。但是,当单击链接并且站点跳转到某个部分时,我希望菜单自动滑入隐藏状
我正在尝试让纯 CSS 下拉菜单正常工作。它在很大程度上确实有效,除了其他内容似乎显示出来但我不知道为什么。 http://jsfiddle.net/uQveP/4/ 有人可以告诉我我做错了什么吗?
这个问题在这里已经有了答案: What is a "callback" in C and how are they implemented? (9 个回答) 关闭 8 年前。 我正在以这种方式实现回
我想在不使用 Javascript 或任何其他语言的情况下,使用 HTML 和 CSS 创建一个 Page Back Button。我想用纯 HTML 和 CSS 来完成。 我进行了搜索,但每次代码中
我对序言很陌生。据我所知,Pure Prolog 仅限于 Horn 子句。 这是一个非常简单的序言程序 - % student( Snr , FirstName , LastName ,
我想在加载数据时对容器使用以下加载指示器。 问题是, slider 具有固定的宽度和高度(300 像素和 300 像素),但我希望它能够动态适应容器。当我尝试添加宽度时:140px;和高度:140px
当内容超过可用宽度时,我需要启用滚动阴影。这是我试图用纯 css(没有 JS)来实现的。我遇到了很多文章,可以使用 css 多背景和背景附件来实现。如果内容是文本类型,则可以使用下面的 jsfilld
我正在编写一个上古卷轴在线插件,它由一个名为 Havok Script 的轻微修改的 Lua 5.1 引擎支持。 .这个Lua环境不允许访问os , io , package , debug模块或任何
我自己尝试过将 Arduino 库编译成他们自己的独立库并链接到 Eclipse 中的一个项目,但在此过程中遇到了一些问题。 是否有关于如何启动和运行的体面指南?我一直很难在网上找到一个真正有效的..
我在这里遇到了一些麻烦。我正在尝试使用本地存储创建一个待办事项列表,但我唯一要做的就是将列表项添加到本地存储并删除 所有项目 从本地存储中删除,但我无法从列表中删除单个 SELECTED 项目。有人可
我的问题很简单。考虑以下 CodePen .是否有可能仅使用 css 就可以获得相同的结果?换句话说,如果不使用 javascrip 如何做到这一点?非常感谢! Nachos are
我正在使用没有 jquery 的 angularjs,并尝试创建滚动事件监听器。 尝试过这种方法: $rootScope.$watch(function() { return $windo
我正在尝试使用纯 webgl 创建虚线。我知道这已经有一个问题,也许我很笨,但我不知道如何让它发挥作用。我理解这个概念,但我不知道如何在着色器中获取沿路径的距离。以前的答案有以下行: varying
我正在尝试用纯 JavaScript 制作工具提示,显示在 hover .就像 Stack Overflow 中将鼠标悬停在配置文件名称上的一个 div显示。 我尝试使用 onmouseover ,
我想要通过 AJAX 将监听器添加到新元素的想法: 例如,现在我有 hello world 我为每个 添加了一个监听器,但是当我通过 AJAX 加载新元素时,它没有监听器;我不完全确定问题是什么。
如果我错误地提出了这个问题,或者之前已经有人问过并回答过这个问题,我提前表示歉意。我的搜索发现了类似的基于 JQuery 和/或静态日期的问答,我正在寻找具有动态日期的纯 JavaScript 解决方
在 Real World Haskell, Chapter 28, Software transactional memory ,开发了一个并发的网络链接检查器。它获取网页中的所有链接,并使用 HEA
我正在尝试取消 jQuery-fy 一个聪明的 piece of code ,但有点太聪明了。 目标是simple 。将图像从桌面拖动到浏览器。 在这次 unjQueryfication 过程中,我发
如何重新创建 jQuery end() $('#id') .find('.class') .css('font',f) .end() .find('.seven') .css(b,'red') 我有什
我是一名优秀的程序员,十分优秀!