- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
SO 上的每一天都会询问有关使用正则表达式解析 (X)HTML 或 XML 的问题。
虽然相对容易想出 examples that demonstrates the non-viability of regexes for this task或使用 collection of expressions为了表达这个概念,我仍然找不到正式解释为什么这不可能用外行人的术语来完成。
到目前为止,我在这个网站上能找到的唯一正式解释可能非常准确,但对于自学成才的程序员来说也相当神秘:
the flaw here is that HTML is a Chomsky Type 2 grammar (context freegrammar) and RegEx is a Chomsky Type 3 grammar (regular expression)
或者:
Regular expressions can only match regular languages but HTML is acontext-free language.
或者:
A finite automaton (which is the data structure underlying a regularexpression) does not have memory apart from the state it's in, and ifyou have arbitrarily deep nesting, you need an arbitrarily largeautomaton, which collides with the notion of a finite automaton.
或者:
The Pumping lemma for regular languages is the reason why you can't dothat.
[上面的大部分解释都链接到维基百科页面,但这些并不比答案本身更容易理解]。
上面给出的关于为什么不能使用正则表达式解析 (X)HTML/XML 的正式解释的通俗易懂的翻译是什么?
我正在寻找一种翻译,它还可以简要地解释它试图翻译的概念:在答案的最后,读者应该对“常规语言”和“上下文无关语法”的含义有一个粗略的了解。
最佳答案
专注于这一点:
A finite automaton (which is the data structure underlying a regular expression) does not have memory apart from the state it's in, and if you have arbitrarily deep nesting, you need an arbitrarily large automaton, which collides with the notion of a finite automaton.
正则表达式的定义相当于可以通过有限自动机(每个模式有一个不同的自动机)来执行字符串是否与模式匹配的测试。有限自动机没有内存——没有堆栈,没有堆,没有可以在上面乱写乱画的无限磁带。它所拥有的只是有限数量的内部状态,每个内部状态都可以从正在测试的字符串中读取一个输入单元,并使用它来决定下一步要移动到哪个状态。作为特殊情况,它有两种终止状态:“是,匹配”和“否,不匹配”。
另一方面,HTML 具有可以任意深度嵌套的结构。要确定文件是否是有效的 HTML,您需要检查所有结束标记是否与之前的开始标记匹配。要理解它,您需要知道哪个元素正在被关闭。如果没有任何方法来“记住”您所看到的开始标签,就没有机会。
但请注意,大多数“正则表达式”库实际上不仅仅允许正则表达式的严格定义。如果它们可以匹配反向引用,那么它们就超越了常规语言。因此,为什么不应该在 HTML 上使用正则表达式库的原因比 HTML 不规则这一简单事实要复杂一些。
关于regex - 为什么无法使用正则表达式解析 HTML/XML : a formal explanation in layman's terms,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41121014/
我有一个加号/减号按钮,希望用户不能选择超过 20 个但不知道如何让它工作。我尝试使用 min="1"max="5 属性,但它们不起作用。这是我的代码和一个 fiddle 链接。https://jsf
我正在尝试复制顶部底部图,如示例 here但它没有正确渲染(紫色系列有 +ve 和 -ve 值,绿色为负值)留下杂乱的人工制品。我也在努力创建一个玩具示例来复制这个问题,所以我希望尽管我缺乏数据,但有
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 6 年前。 社区去年审查了是
这个问题在这里已经有了答案: Adding two positive integers gives negative answer.Why? (4 个答案) 关闭 5 年前。 我遇到了一个奇怪的问题
有谁知道如何将字符串值类型 -4,5 或 5,4 转换为 double -4.5 或 5.4? 最佳答案 只需使用 Double.parseDouble(Locale, String); 糟糕,我很困
我正在尝试根据 TextBlob 分类插入一个仅包含“正”或“负”字符串的新数据框列:对于我的 df 的第一行,结果是 ( pos , 0.75, 0.2499999999999997)我想要' 正
我对 VBA 非常陌生,无法理解如何在一个循环中完成 2 个任务。我非常感谢您的帮助。 我已经能够根据第 3 列中的数据更改第 2 列中的数值,但我不明白如何将负值的字体更改为红色。 表格的大小每月都
欢迎, 我正在使用 jquery 通过 POST 发送表单。 这就是我获得值(value)的方式。 var mytext = $("#textareaid").val(); var dataStrin
double d = 0; // random decimal value with it's integral part within the range of Int32 and always p
我有这个字符串: var a='abc123#xyz123'; 我想构建 2 个正则表达式替换函数: 1) 用 '*' 替换所有确实有 future '#'的字符(不包括'#') 所以结果应该是这样的
我正在使用 DialogFragment。当用户从 Gmail 平板电脑应用程序的屏幕与下面示例图片中的编辑文本进行交互时,我希望正面和负面按钮保持在键盘上方。 在我的尝试中不起作用,这是我的 Dia
从组装艺术一书中,我复制了这句话: In the two’s complement system, the H.O. bit of a number is a sign bit. If the H.O
是否有更好更优雅的方法来实现下面的简单代码(diffYear、A 和 B 是数字): diffYear = yearA - yearB; if (diffYear == 0) { A = B
我正在设计一种语言,并尝试确定 true 应该是 0x01 还是 0xFF。显然,所有非零值都将转换为 true,但我正在尝试确定确切的内部表示。 每种选择的优点和缺点是什么? 最佳答案 没关系,只要
在我的 dialogfragment 类的 OnCreateDialog 中,我正在这样做: AlertDialog.Builder builder = new AlertDialog.Builder
这个问题在这里已经有了答案: Resolving ambiguous overload on function pointer and std::function for a lambda usin
我偶然发现了一个奇怪的 NSDecimalNumber 行为:对于某些值,调用 integerValue、longValue、longLongValue 等,返回意想不到的值(value)。示例: l
这个问题在这里已经有了答案: Resolving ambiguous overload on function pointer and std::function for a lambda using
我有这个正则表达式来测试用户输入是否有效: value.length === 0 || value === '-' || (!isNaN(parseFloat(value)) && /^-?\d+\.
我想用高斯混合模型拟合数据集,数据集包含大约 120k 个样本,每个样本有大约 130 个维度。当我使用 matlab 执行此操作时,我运行脚本(簇号为 1000): gm = fitgmdist(d
我是一名优秀的程序员,十分优秀!