java - 使用 jsoup java 从  注释中提取 HTML 到结束标记-6ren

java - 使用 jsoup java 从  注释中提取 HTML 到结束标记

转载作者：行者123 更新时间：2023-11-30 07:12:55

25

4

我有一些 HTML 看起来像

<!-- start content -->
<p>Blah...</p>
<dl><dd>blah</dd></dl>

我需要将评论中的 HTML 提取到结束的 dl 标记中。结束 dl 是评论之后的第一个(不确定之后是否还有更多，但之前从来没有)。两者之间的 HTML 在长度和内容上是可变的，并且没有任何好的标识符。

我看到评论本身可以使用#comment 节点来选择，但是我如何获得从评论开始并以 HTML 关闭标记结束的 HTML，正如我所描述的那样？

这是我想出的方法，它有效，但显然不是最有效的。

    String myDirectoryPath = "D:\\Path";
    File dir = new File(myDirectoryPath);
    Document myDoc;
    Pattern p = Pattern.compile("<!--\\s*start\\s*content\\s*-->([\\S\\s]*?)</\\s*dl\\s*>");
    for (File child : dir.listFiles()) {
        System.out.println(child.getAbsolutePath()); 
        File file = new File(child.getAbsolutePath());
        String charSet = "UTF-8";
        String innerHtml = Jsoup.parse(file,charSet).select("body").html();
        Matcher m = p.matcher(innerHtml);
        if (m.find()) {
            Document doc = Jsoup.parse(m.group(1)); 
            String myText = doc.text();
            try {
                PrintWriter out = new PrintWriter(new BufferedWriter(new FileWriter("D:\\Path\\combined.txt", true)));
                out.println(myText);
                out.close();
            } catch (IOException e) {
                //error                }
        }
    }

最佳答案

要使用正则表达式，可能很简单

 #  "<!--\\s*start\\s*content\\s*-->([\\S\\s]*?)</\\s*dl\\s*>"

 <!-- \s* start \s* content \s* -->
 ([\S\s]*?) 
 </ \s* dl \s* >

关于java - 使用 jsoup java 从  注释中提取 HTML 到结束标记，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19917579/

25

4

0

文章推荐： java - 在Java中的另一个类中创建一个类的两个对象

文章推荐： java - GridPane 水平/垂直填充整个舞台

javascript - <script></script> 有用了吗
我正在审查一家海外开发公司为我们制作的一些 html。他们在外部脚本加载标签内使用注释——据我所知，这只对非常老的 javascript 不敏感的浏览器有用，他们曾经将脚本呈现为文本——是否有任何现代
html - <script></script> 是否具有现代用途？
这个问题在这里已经有了答案: Are HTML comments inside script tags a best practice? [closed] (10 个答案) 关闭 8 年前。我正在
javascript - 哪个更好 : <script type ="text/javascript">. ..</script> 或 <script>...</script>
哪个更好用或者更方便: ... 或 ... 最佳答案你真的需要类型属性吗？如果您使用的是 HTML5，则不会。否则，是的。 HTML 4.01 和 XHTML 1.0 指定了 type属性是必需的，
javascript - 哪个更好 : <script type ="text/javascript">. ..</script> 或 <script>...</script>
哪个更好用或者更方便: ... 或 ... 最佳答案你真的需要类型属性吗？如果您使用的是 HTML5，则不会。否则，是的。 HTML 4.01 和 XHTML 1.0 指定了 type属性是必需的，
javascript - <script></script> 还是 <script/>？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Why don't self-closing script tags work? 我刚刚发现 HTML 中的
xml - <![CDATA[<![CDATA[some text]]]]><![CDATA[>]]> 在 XML 中是什么意思？
这个问题在这里已经有了答案: What does in XML mean? (13 个答案) 关闭 8 年前。我不熟悉 XML 及其相关技术。这个 CDATA 标签总是在开头，然后是一些东西
javascript - HTML中导入多个js文件<script/>和<script></script>的区别
我最近遇到这个问题，我试图在我的 HTML 页面中导入多个 js 文件，如下 - 但我面临的问题是，它只加载第一个 js 文件，而其余的 js 文件没有加载。我还检查了浏览器中的网络部分，剩下的
Javascript 语法 <script/> VS <script></script> - 最奇怪的事情
Duplicate Why don’t self-closing script tags work? 我正在编写一个 ASP.net 页面，它在 JS 文件中有一些用于客户端身份验证的 Javascr
javascript - 什么是 <script type ="text/javascript"></script>?
在这个博客中， http://www.bswebdev.com/2008/12/javascript-change-input-box-type-to-password/我发现以下代码段用于在 IE6
javascript - 为什么在 HTML5 中使用 <script></script> 而不是 <script/>？
为什么以下行在许多浏览器(mozilla、IE)中不起作用？为什么一定要这样设置？最近我将我的项目从 XHTML 转换为 HTML5，我遇到了一些小但令人不安的不兼容性。最佳答案虽然脚本元
html - 
是什么意思？这个和其他类似的 IE 代码行在 HTML5 文档中意味着什么？如果我必须使某些 css 功能与 IE8 或更低版本兼容，上面提到的代码行或其中提到的 html 类是否有帮助？如果
html - <meta name ="title"> 标签和 <title></title> 标签的区别
请说明之间有什么区别标记和标签。 Page title 如果两者都使用，哪个最优先？我观察到一些网站同时具有和 tags 和两者相同，这是预期的，请确认？如果我们不使用标签标题，我
javascript - <script/> 与 <script></script> 使用 webpack 和 Angular
这个问题已经有答案了: Why don't self-closing script elements work? (12 个回答) 已关闭 7 年前。经过两天的 Angular 与 Webpack
css -  不工作
我有这个代码: .roll-link { display: inline-block; overflow: hidden; vertical-align: top;
html - 这个 HTML 代码 (`<!ENTITY % html.content …>` , `<!ELEMENT …>` , `<!ATTLIST …>` ) 写在 w3.org 是什么意思？
我在 the HTML 4.01 specification at w3.org 中阅读了有关 HTML 文档结构的内容.然后我偶然发现了这段代码；它看起来像某种定义。你们中的任何人都可以详细说明它的
javascript - 很难找到恶意 JS 行 : </title><script src=http://hgbyju. com/r.php ></script>
我正在网站上工作 http://palacechemicals.co.uk/它以某种方式感染了恶意(但良性)的 JavaScript 行: 在第 251 行。脚本尝试加载的 URL 返回 404，但
python - Python 中的正则表达式 : what's wrong with (? <!\\)\".+(?<!\\)\"？
尝试解析引号内的 JSON 键名称，包括转义引号。我的想法是:在引号之间取任何内容而不是，并以\ 为前缀 (?
javascript - <!--[if lt IE 9]> 不工作
我有个小问题。我正在尝试使用在 IE 中打开时有条件地设置一个唯一的 css 文件，但它不起作用。我试着穿上 , 关于 , 关于 footer .我尝试更改我的 IE 版本，但没有任何效果。
javascript -/*<![CDATA[*/和//<![CDATA[ 之间的区别
我是 Blogger 博客用户。我曾经看到一个在 CDATA 标记内定位脚本的模板，如下所示: /**/ 虽然，我之前看到过类似的代码，如下所示: // 唯一不同的是/*
html - 为什么 "<! --"注释掉一条样式规则，而 "<!--"却没有？
让我放心。我刚学 HTML。根据http://www.w3.org/TR/html-markup/syntax.html#comments以及我见过的许多其他网站，例如 http://www.w3s

首页

博学

6Ren·AI

商城

java - 使用 jsoup java 从  注释中提取 HTML 到结束标记