gpt4 book ai didi

java - 如何删除 之间的文本

转载 作者:行者123 更新时间:2023-11-30 05:06:54 27 4
gpt4 key购买 nike

我在文档的 html 标签内有一些文本。文字看起来像这样

I need this text <ref> Some unwanted text </ref> I need this text too

I need this text <ref Some random text /> I need this text too

如何删除不需要的文本以及封闭的标签?

<小时/>

我尝试使用这个正则表达式。但它不起作用。

&lt;ref(.*?)&gt;(.*?)&lt;/ref&gt;

&lt;ref(.*?)&gt;

在 Java 中尝试这种方式没有帮助:

regex = "&lt;ref(.*?)&gt;(.*?)&lt;/ref&gt;";
p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE | Pattern.DOTALL | Pattern.MULTILINE);
m = p.matcher(s);
while(m.find()){
m.replaceAll(" ");
}

知道如何获得解决方案吗?

最佳答案

首先,使用 HTML 解析器。如果 HTML 变得复杂,正则表达式将无法可靠地处理此任务。

其次,你的正则表达式看起来格式良好并且 work as expected简单的例子(一旦我将 &lt; 更改为 < ,但我怀疑您在发布问题时进行了更改,认为 StackOverflow 会误解它)。问题可能出在您的 Java 代码中,而不是正则表达式本身。我不熟悉 Java 的正则表达式 API,所以我会让其他人参与进来:)

关于java - 如何删除 <ref> 和 </ref> 之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4807833/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com