gpt4 book ai didi

java - 如何从 Java 中格式错误的字符串中获取属性和值

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:01:40 25 4
gpt4 key购买 nike

我需要从多个字符串中获取属性和值,例如:

<img src = "the source" class=class01 />
<img class=class02 src=folder/img.jpg />
<img class= "class01" / >

值中接受空格和斜线,一些值用引号引起来,但并非所有值都如此。一些等号是有间隔的。

我是新手,所以代码很乱,可能不是万无一失的。

我的尝试:

//remove unnecessary spacing and "<img" and "/>"
str = str.replaceAll("/ >", "/>");
str = str.substring(4, str.length()-1);
str = str.replaceAll(" =", "=");
str = str.replaceAll("= ", "=");

//remove quotes
str = str.replaceAll("\"", "");

//creating a matcher and compiling the regex pattern is omitted, because I know how to do that using matcher.group();
regexSrc = "src=(.*?)($| class=)";
String srcString = matcherSrc.group(1);

regexClass = "class=(.*?)($| src=)";
String classString = matcherClass.group(1);

System.out.println("the source is: " + srcString);
System.out.println("the class is: " + classString);

如有任何更好的建议,我们将不胜感激。

最佳答案

如果是格式不佳的 HTML 代码,则使用 JTidy清理它,然后使用一些更简单的正则表达式或 HTML 解析器。

关于java - 如何从 Java 中格式错误的字符串中获取属性和值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5895613/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com