java获取文件编码,jsoup获取html纯文本操作-6ren

java获取文件编码,jsoup获取html纯文本操作

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

28

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章java获取文件编码,jsoup获取html纯文本操作由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

maven引入获取编码的jar 。

 
    ? 
   
         < 
         dependency 
         > 
        
         < 
         groupId 
         >com.ibm.icu</ 
         groupId 
         > 
        
         < 
         artifactId 
         >icu4j</ 
         artifactId 
         > 
        
         < 
         version 
         >67.1</ 
         version 
         > 
        
         </ 
         dependency 
         >

获取html">文件编码。

    java" id="highlighter_772111"> 
    
    ? 
   
         package 
         com.lovnx.note.util; 
        
         import 
         com.ibm.icu.text.CharsetDetector; 
        
         import 
         com.ibm.icu.text.CharsetMatch; 
        
         import 
         org.jsoup.Jsoup; 
        
         import 
         org.jsoup.nodes.Document; 
        
         import 
         org.jsoup.select.Elements; 
        
         import 
         java.io.IOException; 
        
         import 
         java.net.URL; 
        
         import 
         java.nio.file.Files; 
        
         import 
         java.nio.file.Path; 
        
         import 
         java.nio.file.Paths; 
        
         /** 
        
         * @author @256g的胃 
        
         * @ClassName HtmlParse 
        
         * @Description 
        
         * @Date 15:32 2020/7/9 
        
         **/ 
        
         public 
         class 
         HtmlParse { 
        
         public 
         static 
         String getEncode(String filePath)  
         throws 
         IOException { 
        
         Path path = Paths.get(filePath); 
        
         byte 
         [] data = Files.readAllBytes(path); 
        
         CharsetDetector detector =  
         new 
         CharsetDetector(); 
        
         detector.setText(data); 
        
         CharsetMatch match = detector.detect(); 
        
         String encoding = match.getName(); 
        
         System.out.println( 
         "The Content in " 
         + match.getName()); 
        
         return 
         encoding; 
        
         } 
        
         public 
         static 
         void 
         main(String[] args)  
         throws 
         Exception { 
        
         System.out.println(HtmlParse.getEncode( 
         "/Users/cxt/Downloads/test.html" 
         )); 
        
         } 
        
         }

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式，然后再根据下载下来的文件识别纯文本。

Document doc = Jsoup.parse("读取的文本字符串，此处应该是带html标签的"),

String text = doc.text(),

jsoup也支持直接指定文件的形式去获取纯文本。

参考 https://jsoup.org/ 。

补充知识：java 解析html/读取html内容。

jsoup 。

String 转化。

1、Document doc = Jsoup.parse(html),

例如:

 
    ? 
   
         String html =  
         "<html><head><title>First parse</title></head>" 
        
         +  
         "<body><p>Parsed HTML into a doc.</p></body></html>" 
         ; 
        
         Document doc = Jsoup.parse(html); 
        
         System.out.println(doc.text()); ;

常用api 。

2、获取节点文本：Document.text(),

以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我.

原文链接：https://blog.csdn.net/C1041067258/article/details/107537060 。

最后此篇关于java获取文件编码,jsoup获取html纯文本操作的文章就讲到这里了,如果你想了解更多关于java获取文件编码,jsoup获取html纯文本操作的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

28

4

0

文章推荐： weblogic的集群与配置图文方法

文章推荐：快速分辨清楚 IaaS、PaaS、BaaS和SaaS

文章推荐： Java实现导入导出Excel文件的方法（poi，jxl）

文章推荐： java 实现Comparable接口排序,升序、降序、倒叙

c# - [纯] 函数可以抛出异常吗？
可以抛出异常的函数可以有[pure]属性吗？最佳答案根据 https://msdn.microsoft.com/en-us/library/system.diagnostics.contracts
纯 CSS 推送导航不会隐藏
我使用的是纯 css 推送导航。它工作得很好，但是我不知道如何在单击导航链接时隐藏菜单。您必须手动单击菜单图标才能使菜单返回隐藏状态。但是，当单击链接并且站点跳转到某个部分时，我希望菜单自动滑入隐藏状
纯 CSS 下拉菜单项显示
我正在尝试让纯 CSS 下拉菜单正常工作。它在很大程度上确实有效，除了其他内容似乎显示出来但我不知道为什么。 http://jsfiddle.net/uQveP/4/ 有人可以告诉我我做错了什么吗？
纯 C 中的回调函数
这个问题在这里已经有了答案: What is a "callback" in C and how are they implemented? (9 个回答) 关闭 8 年前。我正在以这种方式实现回
html - 纯 HTML 后退按钮
我想在不使用 Javascript 或任何其他语言的情况下，使用 HTML 和 CSS 创建一个 Page Back Button。我想用纯 HTML 和 CSS 来完成。我进行了搜索，但每次代码中
prolog - 纯 Prolog 中的目标顺序
我对序言很陌生。据我所知，Pure Prolog 仅限于 Horn 子句。这是一个非常简单的序言程序 - % student( Snr , FirstName , LastName ,
html - 纯 CSS 加载指示器适合容器大小
我想在加载数据时对容器使用以下加载指示器。问题是， slider 具有固定的宽度和高度(300 像素和 300 像素)，但我希望它能够动态适应容器。当我尝试添加宽度时:140px；和高度:140px
html - 纯 css 滚动阴影
当内容超过可用宽度时，我需要启用滚动阴影。这是我试图用纯 css(没有 JS)来实现的。我遇到了很多文章，可以使用 css 多背景和背景附件来实现。如果内容是文本类型，则可以使用下面的 jsfilld
regex - 纯 Lua 中功能齐全的正则表达式库
我正在编写一个上古卷轴在线插件，它由一个名为 Havok Script 的轻微修改的 Lua 5.1 引擎支持。 .这个Lua环境不允许访问os , io , package , debug模块或任何
纯 C 语言的 Arduino
我自己尝试过将 Arduino 库编译成他们自己的独立库并链接到 Eclipse 中的一个项目，但在此过程中遇到了一些问题。是否有关于如何启动和运行的体面指南？我一直很难在网上找到一个真正有效的..
javascript - 从本地存储中仅删除选定的列表项 - 纯 JS
我在这里遇到了一些麻烦。我正在尝试使用本地存储创建一个待办事项列表，但我唯一要做的就是将列表项添加到本地存储并删除所有项目从本地存储中删除，但我无法从列表中删除单个 SELECTED 项目。有人可
html - 纯 CSS 响应式文字效果
我的问题很简单。考虑以下 CodePen .是否有可能仅使用 css 就可以获得相同的结果？换句话说，如果不使用 javascrip 如何做到这一点？非常感谢! Nachos are
angularjs - 纯 angularjs 滚动事件监听器
我正在使用没有 jquery 的 angularjs，并尝试创建滚动事件监听器。尝试过这种方法: $rootScope.$watch(function() { return $windo
javascript - 纯 WebGL 虚线
我正在尝试使用纯 webgl 创建虚线。我知道这已经有一个问题，也许我很笨，但我不知道如何让它发挥作用。我理解这个概念，但我不知道如何在着色器中获取沿路径的距离。以前的答案有以下行: varying
javascript - 纯 JavaScript 工具提示
我正在尝试用纯 JavaScript 制作工具提示，显示在 hover .就像 Stack Overflow 中将鼠标悬停在配置文件名称上的一个 div显示。我尝试使用 onmouseover ,
javascript - 纯 JavaScript 添加监听器到加载的新元素
我想要通过 AJAX 将监听器添加到新元素的想法: 例如，现在我有 hello world 我为每个添加了一个监听器，但是当我通过 AJAX 加载新元素时，它没有监听器；我不完全确定问题是什么。
javascript - 各种日期的动态倒计时时钟 - 纯 Javascript
如果我错误地提出了这个问题，或者之前已经有人问过并回答过这个问题，我提前表示歉意。我的搜索发现了类似的基于 JQuery 和/或静态日期的问答，我正在寻找具有动态日期的纯 JavaScript 解决方
multithreading - 纯 Haskell 代码是否需要线程池？
在 Real World Haskell, Chapter 28, Software transactional memory ，开发了一个并发的网络链接检查器。它获取网页中的所有链接，并使用 HEA
javascript - 纯 JavaScript 将图像拖到浏览器
我正在尝试取消 jQuery-fy 一个聪明的 piece of code ，但有点太聪明了。目标是simple 。将图像从桌面拖动到浏览器。在这次 unjQueryfication 过程中，我发
javascript - 纯 Javascript end()
如何重新创建 jQuery end() $('#id') .find('.class') .css('font',f) .end() .find('.seven') .css(b,'red') 我有什

首页

博学

6Ren·AI

商城

java获取文件编码,jsoup获取html纯文本操作