- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试检测对网页上可见的 URL 的使用,同时忽略标记内的 URL。这将针对 SQL 查询中的特定数据库字段运行,因此据我所知,前瞻对我不可用。要搜索的字段包含 HTML 页面片段。
我遇到的问题是标签内的 URL 在不应该匹配的情况下匹配。
详情如下:
我正在运行以下正则表达式:
[^=\"\/]([Hh][tT][tT][pP][sS]?:\/\/)?([\w]+\.)*[\w]+\.([A-za-z]+)
针对以下字符串。我希望以 + 开头的 5 个字符串不匹配(被认为是好的),以 - 开头的 7 个字符串匹配(被认为是坏的/可报告的):
(更新:+ 和 - 只是为了显示我希望哪些字符串被认为是好的或坏的。它们不一定会出现在要检查的数据中,并且与问题无关。)
(第二次更新:整个表达式从一开始就是错误的。SQL 显然需要 POSIX,所以我将表达式替换为:
[^.=..".](https?[.:.][./.][...])?(:alnum:)*[:alnum:]+[.period.][:alpha:][:alpha:]+
但是还是不行。我不知道什么匹配什么不匹配的详细信息,但它仍然匹配 HTML 标记内的代码。)
+<a href="http://www.sfmta.com">text is okay</a>
+<a href="http://WWW.SFMTA.COM" title="Commercial">com</a>
+text is okay
+text is...okay
+000.000.0000
-text is okay com
-text is bad HTTP://WWW.SFMUNI.COM
-<a href="http://www.sfmta.com">http://www.sfmuni.com</a>
-<a href="http://www.sfmta.com">www.sfmuni.com</a>
-<a href="http://www.sfmta.com">sfmuni.com</a>
-text is bad www.sfmuni.com
-text is bad sfmuni.com
出于某种原因,标签中的所有 URL 都匹配,而它们都不应该匹配。
来自 [PHP Live Regex] [1],结果(穿插在原始字符串中):
1.
+<a href="http://www.sfmta.com">text is okay</a>
预期没有匹配,但是匹配
Array
(
[0] => www.sfmta.com
[1] =>
[2] => ww.
[3] => com
)
2.
+<a href="http://WWW.SFMTA.COM" title="Commercial">com</a>
预期没有匹配,但是匹配
Array
(
[0] => WWW.SFMTA.COM
[1] =>
[2] => WW.
[3] => COM
)
3.
+text is okay
如预期的那样不匹配
Array
(
)
4.
+text is...okay
如预期的那样不匹配
Array
(
)
5.
+000.000.0000
如预期的那样不匹配
Array
(
)
6.
-text is okay com
如预期的那样不匹配
Array
(
)
7.
-text is bad HTTP://WWW.SFMUNI.COM
如预期的那样匹配
Array
(
[0] => HTTP://WWW.SFMUNI.COM
[1] => HTTP://
[2] => WWW.
[3] => COM
)
8.
-<a href="http://www.sfmta.com">http://www.sfmuni.com</a>
匹配 www.sfmta.com,预计匹配 http://www.sfmuni.com或 www.sfmuni.com
Array
(
[0] => www.sfmta.com
[1] =>
[2] => ww.
[3] => com
)
9.
-<a href="http://www.sfmta.com">www.sfmuni.com</a>
匹配 www.sfmta.com,预计匹配 www.sfmuni.com
Array
(
[0] => www.sfmta.com
[1] =>
[2] => ww.
[3] => com
)
10.
-<a href="http://www.sfmta.com">sfmuni.com</a>
匹配 www.sfmta.com,预计匹配 sfmuni.com
Array
(
[0] => www.sfmta.com
[1] =>
[2] => ww.
[3] => com
)
11.
-text is bad www.sfmuni.com
如预期的那样匹配
Array
(
[0] => www.sfmuni.com
[1] =>
[2] => www.
[3] => com
)
12.
-text is bad sfmuni.com
如预期的那样匹配
Array
(
[0] => sfmuni.com
[1] =>
[2] =>
[3] => com
)
如何让标签中的 URL 不匹配?在具有 URL 的任何给定标记中,除了 href 或 src 之外,可能还有其他属性。
我还意识到文本中的 URL 从字段的最开头开始,或者如果有人在文本中的 URL 之前键入 =、"或/,这些将被遗漏。这些可能但不太可能。但是如果有人能在合理长度的正则表达式中捕捉到这些内容,那将是一个奖励。但是,对我来说更重要的是不要匹配标签内的 URL。
[1]: http://www.phpliveregex.com/
最佳答案
我知道那是旧帖子,但也许有人正在寻找 MySQL 中正则表达式的示例:
SELECT str
, str REGEXP '^([.<.].*[.>.])?(.* )?(https?[.:.][./.]{2})?([a-zA-Z0-9]+[.])+[a-zA-Z]{2,6}( .*)?([.<.].*[.>.])?$' address_in_with_text
, str REGEXP '^([.<.].*[.>.])?(https?[.:.][./.]{2})?([a-zA-Z0-9]+[.])+[a-zA-Z]{2,6}([.<.].*[.>.])?$' address_in_tag
, str REGEXP '^.*([a-zA-Z0-9]+[.])+[a-zA-Z]{2,6}.*$' address_in
, str REGEXP '^.*(https?[.:.][./.]{2}).*' http_in
, str REGEXP '^([.<.].*[.>.]).*$' tag_at_begin
, str REGEXP '^.*([.<.].*[.>.])$' tag_at_end
FROM strings;
示例测试数据: 创建表字符串( str varchar(255) 不为空 );
insert into strings values ('<a href="http://www.sfmta.com">text is okay</a>'),
('<a href="http://WWW.SFMTA.COM" title="Commercial">com</a>'),
('text is okay'),
('text is...okay'),
('000.000.0000'),
('text is okay com'),
('text is bad HTTP://WWW.SFMUNI.COM'),
('<a href="http://www.sfmta.com">http://www.sfmuni.com</a>'),
('<a href="http://www.sfmta.com">www.sfmuni.com</a>'),
('<a href="http://www.sfmta.com">sfmuni.com</a>'),
('text is bad www.sfmuni.com'),
('text is bad sfmuni.com'),
('text is bad https://www.sfmuni.com'),
('<a href="http://WWW.SFMTA.COM" title="Commercial">https://com</a>')
;
输出:
| str | address_in_with_text | address_in_tag | address_in | http_in | tag_at_begin | tag_at_end |
|-------------------------------------------------------------------|----------------------|----------------|------------|---------|--------------|------------|
| <a href="http://www.sfmta.com">text is okay</a> | 0 | 0 | 1 | 1 | 1 | 1 |
| <a href="http://WWW.SFMTA.COM" title="Commercial">com</a> | 0 | 0 | 1 | 1 | 1 | 1 |
| text is okay | 0 | 0 | 0 | 0 | 0 | 0 |
| text is...okay | 0 | 0 | 0 | 0 | 0 | 0 |
| 000.000.0000 | 0 | 0 | 0 | 0 | 0 | 0 |
| text is okay com | 0 | 0 | 0 | 0 | 0 | 0 |
| text is bad HTTP://WWW.SFMUNI.COM | 1 | 0 | 1 | 1 | 0 | 0 |
| <a href="http://www.sfmta.com">http://www.sfmuni.com</a> | 1 | 1 | 1 | 1 | 1 | 1 |
| <a href="http://www.sfmta.com">www.sfmuni.com</a> | 1 | 1 | 1 | 1 | 1 | 1 |
| <a href="http://www.sfmta.com">sfmuni.com</a> | 1 | 1 | 1 | 1 | 1 | 1 |
| text is bad www.sfmuni.com | 1 | 0 | 1 | 0 | 0 | 0 |
| text is bad sfmuni.com | 1 | 0 | 1 | 0 | 0 | 0 |
| text is bad https://www.sfmuni.com | 1 | 0 | 1 | 1 | 0 | 0 |
| <a href="http://WWW.SFMTA.COM" title="Commercial">https://com</a> | 0 | 0 | 1 | 1 | 1 | 1 |
关于mysql - 如何在 SQL 友好的正则表达式中匹配标签外但不在标签内的 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28182773/
我试图弄清楚如何为聊天气泡制作外 Angular 圆形设计,以获得所需的结果: 我必须使用气泡作为不同背景的组件,没有相同和纯色,但有一些设计元素,所以气泡周围的空间必须是透明的: 我试过将元素添加为
我尝试了 display:table-cell 但它没有用。我怎样才能在div中显示这个词。现在它显示溢出了 div。我在我的网页上使用 CSS2。提前致谢。 Visit W3Schools
我有一个使用 CSS 隐藏在 View (对于移动设备)之外的菜单: #filter-column { position:absolute; left:-400px; } 当用户单击链
我想创建一个这样的问题行 http://imageshack.us/photo/my-images/200/questionh.png/ 此时我的html源是: question label
我要mock a class with Ruby . 如何编写处理样板代码的方法? 以下代码: module Mailgun end module Acani def self.mock_mail
请不要担心循环,但我的问题是关于这些关键字:outer、middle 和 inner。它们不是声明为实例变量,为什么IDE让代码编译?我在谷歌上搜索了一下,这是java标签吗? Java中的某种关键字
我有一个数据框(df),看起来像, Id Name Activity. 1 ABC a;sldkj kkkdk 2 two
Elasticsearch内存中有哪些东西可以使搜索如此快速? 是所有json本身都在内存中,还是仅倒排索引和映射将在内存中24 * 7? 最佳答案 这是一个很好的问题,然后简而言之就是: 不仅仅是数
我正在尝试添加用户在用户界面上选择的值。对于数据库中的特定列,我已经与数据库建立了连接,当我按“保存”时,新的 id 会添加到数据库中,控制台中不会显示任何错误,但我要提交的值不会放入数据库,我怎样才
我不确定这个问题是否应该涉及电子领域,但由于它是关于编程的,所以我在这里问了它。 我正在制作一个数字时钟,使用由移位寄存器供电的 LED,而不是 7 段显示器。无论如何,当使用 CCS 编译代码时,我
我希望用户在 div 中选择文本 (html)。然而,这样做会在浏览器中显示选择背景,也在 div 之外。 我可以用(参见 http://jsfiddle.net/lborgman/aWbgT/)来防
我有以下 Razor View @{ ViewBag.Title = "UserCost"; }
我使用 KineticJS 和 D3.js 制作了以下内容。当用户将鼠标悬停在其中一个点上时,我使用 KineticJS 让我弹出工具提示。但是,由于 Canvas 的边界,工具提示似乎被切断了。有没
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 2 年前。 Improve this qu
我正在使用 primefaces 学习 Java Web 和 jsf。 我的项目当前只有一个index.xhtml 文件,当我访问localhost:8080/appname/时,index.xhtm
我是 ios 新手。 我有一个 View ,其中我使用 Quarts 核心绘制了一个圆圈。 我在该圆圈中放置了一个 UIButton,并赋予了拖放该按钮的功能。 现在我想要限制按钮不能被拖出那个圆圈区
这个问题已经有答案了: How to add two strings as if they were numbers? [duplicate] (20 个回答) How to force JS to
我正在创建简单的文本从右侧滑动到页面的 css 动画。我正在使用 jQuery 通过向元素添加一个类来触发动画。但是起始位置必须在视口(viewport)之外,这会触发底部滚动条出现。如何预防? 这是
我编写了一个简单的代码来评估一段代码并将输出写入文件。这样它减少了我的一些,因为我需要很多很多文件,每一行都包含返回值! 无论如何,我正在使用的代码是: #!/usr/bin/ruby -w def
所以我试图在我的一款游戏中加入一个非常基本的“手电筒”式的东西。 我让它工作的方式是在我的游戏屏幕顶部有一个层,这个层会绘制一个黑色矩形,不透明度约为 80%,在我的游戏场景顶部创建黑暗的外观。 cc
我是一名优秀的程序员,十分优秀!