- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
在 Java 中我需要匹配 <a>
字符串中没有 href 属性的标签。例如在以下字符串中:
text <a class="aClass" href="#">link1</a> text <a class="aClass" target="_blank">link2</a> text
它不应该匹配 <a class="aClass" href="#">link1</a>
(因为它包含 href)但它应该匹配 <a class="aClass" target="_blank">link2</a>
(因为它不包含 href)。
我设法构建了 RegEx 来匹配我的标签:
<a[^>]*>(.*?)</a>
但我不知道如何用 href 消除标签
(我知道我可以使用 HTML 解析器等,但我需要使用 RegEx 来做到这一点。
最佳答案
小心像 <a[^>]*
这样的正则表达式因为这些也会匹配其他以 a
开头的有效 html 标签例如<abbr>
或 <address>
.也只是简单地寻找字符串 href
的存在不够好,因为该字符串可能位于另一个属性的值内,例如 <a class="thishrefstuff"...
,或另一个属性的一部分,如 <a hreflang="en"...
这个表达式将:
<a
... </a>
不包含 href
属性。a
而不是仅以字母 a
开头的标签喜欢<address>
href
的属性嵌入在属性名称中,例如有效的 hreflang='en'
或弥补Attributehref="some value"
.bogus='href=""'
<a(?=\s|>)(?!(?:[^>=]|=(['"])(?:(?!\1).)*\1)*?\shref=['"])[^>]*>.*?<\/a>
<a(?=\s|>)
匹配打开标签并确保标签名称后的下一个是空格或右括号,这会强制名称为 a
而不是别的(?!
如果我们在这个标签中找到一个 href 那么这种类型的标签不是我们正在寻找的标签
(?:
启动非捕获组以遍历标记内的所有字符[^>=]
匹配所有防止正则表达式引擎离开标记的非标记结束字符,以及防止引擎继续盲目匹配所有字符的非等号|
或 =(['"])
匹配等号后跟左双引号或单引号。报价被捕获到第 2 组中,以便稍后可以正确配对(?:(?!\1).)*
匹配不是匹配开引号的闭引号的所有字符\1
匹配正确的引号)*?
关闭非捕获组并根据需要经常重复,直到\shref=['"]
匹配所需的 href 属性。 \s
和 =["']
确保属性名称只是 href)
关闭负面前瞻[^>]*>.*?<\/a>
从开始到结束匹配整个字符串输入文字
<abbr>RADIO</abbr> text <a class="aClass" href="#">link1</a> text <a bogus='href=""' class="aClass" target="_blank">link2</a> text
代码
如果您希望在替换函数中使用它来删除非 href-anchor 标签,那么只需将所有匹配项替换为空即可。
import java.util.regex.Pattern;
import java.util.regex.Matcher;
class Module1{
public static void main(String[] asd){
String sourcestring = "source string to match with pattern";
Pattern re = Pattern.compile("<a(?=\\s|>)(?!(?:[^>=]|=(['\"])(?:(?!\\1).)*\\1)*?\\shref=['\"])[^>]*>.*?<\\/a>
",Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);
Matcher m = re.matcher(sourcestring);
int mIdx = 0;
while (m.find()){
for( int groupIdx = 0; groupIdx < m.groupCount()+1; groupIdx++ ){
System.out.println( "[" + mIdx + "][" + groupIdx + "] = " + m.group(groupIdx));
}
mIdx++;
}
}
}
匹配
$matches Array:
(
[0] => Array
(
[0] => <a bogus='href=""' class="aClass" target="_blank">link2</a>
)
[1] => Array
(
[0] =>
)
)
关于java - RegEx匹配没有特定属性的<a> html标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17200485/
你能比较一下属性吗 我想禁用文本框“txtName”。有两种方式 使用javascript,txtName.disabled = true 使用 ASP.NET, 哪种方法更好,为什么? 最佳答案 我
Count 属性 返回一个集合或 Dictionary 对象包含的项目数。只读。 object.Count object 可以是“应用于”列表中列出的任何集合或对
CompareMode 属性 设置并返回在 Dictionary 对象中比较字符串关键字的比较模式。 object.CompareMode[ = compare] 参数
Column 属性 只读属性,返回 TextStream 文件中当前字符位置的列号。 object.Column object 通常是 TextStream 对象的名称。
AvailableSpace 属性 返回指定的驱动器或网络共享对于用户的可用空间大小。 object.AvailableSpace object 应为 Drive 
Attributes 属性 设置或返回文件或文件夹的属性。可读写或只读(与属性有关)。 object.Attributes [= newattributes] 参数 object
AtEndOfStream 属性 如果文件指针位于 TextStream 文件末,则返回 True;否则如果不为只读则返回 False。 object.A
AtEndOfLine 属性 TextStream 文件中,如果文件指针指向行末标记,就返回 True;否则如果不是只读则返回 False。 object.AtEn
RootFolder 属性 返回一个 Folder 对象,表示指定驱动器的根文件夹。只读。 object.RootFolder object 应为 Dr
Path 属性 返回指定文件、文件夹或驱动器的路径。 object.Path object 应为 File、Folder 或 Drive 对象的名称。 说明 对于驱动器,路径不包含根目录。
ParentFolder 属性 返回指定文件或文件夹的父文件夹。只读。 object.ParentFolder object 应为 File 或 Folder 对象的名称。 说明 以下代码
Name 属性 设置或返回指定的文件或文件夹的名称。可读写。 object.Name [= newname] 参数 object 必选项。应为 File 或&
Line 属性 只读属性,返回 TextStream 文件中的当前行号。 object.Line object 通常是 TextStream 对象的名称。 说明 文件刚
Key 属性 在 Dictionary 对象中设置 key。 object.Key(key) = newkey 参数 object 必选项。通常是 Dictionary 
Item 属性 设置或返回 Dictionary 对象中指定的 key 对应的 item,或返回集合中基于指定的 key 的&
IsRootFolder 属性 如果指定的文件夹是根文件夹,返回 True;否则返回 False。 object.IsRootFolder object 应为&n
IsReady 属性 如果指定的驱动器就绪,返回 True;否则返回 False。 object.IsReady object 应为 Drive&nbs
FreeSpace 属性 返回指定的驱动器或网络共享对于用户的可用空间大小。只读。 object.FreeSpace object 应为 Drive 对象的名称。
FileSystem 属性 返回指定的驱动器使用的文件系统的类型。 object.FileSystem object 应为 Drive 对象的名称。 说明 可
Files 属性 返回由指定文件夹中所有 File 对象(包括隐藏文件和系统文件)组成的 Files 集合。 object.Files object&n
我是一名优秀的程序员,十分优秀!