perl - 如何最好地解析/拆分基于 <br/> 标签的 <div>-6ren

perl - 如何最好地解析/拆分基于
标签的

转载作者：行者123 更新时间：2023-12-01 03:38:27

26

4

我有一个包含多行地址的标签，我想将其拆分为单行，以便识别城市、邮政编码等。

例如

<div>Ministry of Magic
    <br />Whitehall
    <br />London
    <br />SW1A 2AA
</div>

例如，我可以用 split 函数做到没有问题(假设地址 div 在变量 $text 中)

use feature 'say';
my @lines = split qr{<br\s?/>}, $text;
foreach my $line (@lines) {
    say $line;
}

显示

Ministry of Magic
Whitehall
London
SW1A 2AA

但是，我很清楚 using a regex to parse HTML is verboten所以我想我会尝试使用 HTML::TreeBuilder / HTML::Element但我不确定如何获取内容。我可以对'br'标签进行look_down，但它只返回 <br />标签本身。这并不奇怪，因为 <br> element 不能包含内容，但我不知道要使用什么语法。

my $tree = HTML::TreeBuilder->new();
my @content = $tree->parse($text)->guts()->look_down(_tag => 'br');
foreach my $line (@content) {
    say $line->as_HTML;
}

显示

<br />
<br />
<br />

所以，我的问题是:1)我应该坚持使用正则表达式还是使用 HTML::TreeBuilder，以及 2)如果我应该使用 HTML::TreeBuilder，我该如何提取我感兴趣的四行文本？

最佳答案

如果您的情况(并且将始终)如您所描述的那样简单，那么我会坚持使用正则表达式。在你大喊大叫并释放对我的狗之前，请想一想:

是的，正则表达式确实无法解析 HTML。但是我们这里不解析 HTML。我们正在解析 <div> 中非常非常小的 HTML 子集。，这可以通过简单的正则表达式轻松处理。对我来说，使用成熟的解析库就像使用大锤敲碎核桃一样。

我会亲自将您的正则表达式升级到 m!<\s*br\s*/?\s*>!捕获(稍微)损坏的 HTML，并且与任何事情一样，使用您可以组合在一起的每个有效和无效输入进行测试。

关于perl - 如何最好地解析/拆分基于 <br/> 标签的 <div>，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32705282/

26

4

0

文章推荐： file - 如何在 Yii2 框架中验证现有文件

文章推荐： python - 使用逻辑 pandas 进行多重索引和掩码

文章推荐： python - 没有这个选项，点击6.6版本

html - Mozilla 将

翻译成

我们的 CMS 将换行符输出为 (愚蠢，我知道，但在语法上是正确的(？)) 这转换为在 chrome 和 IE10 中到在火狐中。所有浏览器都将其显示为两个换行符。为什么不是翻译成或者只是
java - 尝试将
、
、
标签替换为

我正在尝试将一堆 HTML 文档转换为 XML 合规性(通过 java 方法)，并且有很多 (1) 未封闭或 (2) 包含属性的标签。由于某种原因，我使用的正则表达式无法处理包含属性的标签。这是代码
java - 如何使用 java 的 String.replaceAll(String, String) 方法将 "

"之类的字符串转换为 "
"？
如何转换字符串 "" to "" using java's String.replaceAll(String, String) method? 我都试过了: str.replaceAll("+
HTML 5 : Is it
,
，还是
？
这个问题的答案是 community effort 。编辑现有答案以改进这篇文章。它目前不接受新的答案或交互。我试过检查 other answers ，但我仍然感到困惑——尤其是在看到 W3scho
linux - Vagrant中的Kafka集群(ZK、BR、BR、BR)无法建立连接
问题是我无法通过生产者脚本将消息发送到集群内的任何代理。该设置是一个单一的 Zookeeper 服务器，使用默认设置在 IP (192.168.10.2:2181) 上运行。此外，还有 3 个代理
python - Beautiful Soup 4中如何处理

和
？
我正在尝试使用 python 和 Beautiful Soup 4 用新行替换某些 html 中的每个中断标记。该文档有 , 和标签，但由于 Beautiful Soup 处理标签的方式，每当它找到
javascript -

生成并仅在 Inspect Element 中显示
我正在使用带有模板工具包的 perl 生成网页，我在 HTML 文件上更改了一些 JS 代码，编辑后有显示在 UI 上，我不知道如何，奇怪的是没有源码中，只有在Inspect element On
html - 为什么
与 XHTML 中的

不同？
这是 HTML 页面的完整源代码: one two three four 谁能解释一下为什么我在IE8或chrome浏览页面时，“三”和“四”之间多了一个空行？我认为标准应该让所有
html -
在 firefox 中被读取为

但在 chrome 中不是
我正在使用并且它按预期在 chrome 和 IE 中正常工作，但在 firefox 中结果很奇怪。当我在 firefox 中看到代码时，它替换了与 . 我还在某处读到替代语法 XML 允许在许
c# 正则表达式将
或 [br/] 替换为 [pre=html]code[br/]code[/pre] 之间的 "\n"
我有将 BBCode 替换为 html 的代码，当我想替换标签时出现问题或 [br /]在 [pre=html] code [/pre] 内. Regex exp; string str; str
regex - 使用正则表达式匹配字符串中的
或

这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
jquery - 将所有
替换为

我正在使用这个(jQuery)来替换所有与清除验证错误: $("").replaceAll(""); 但它不会减少任何验证错误。验证器是否检查原始来源？最佳答案 JQuery 仅在文档呈现后才
java - 如何让文本用

换行
我想获取 break html 中的文本，但这不是用段落换行，只是break内的文本。 Division 是我唯一的标识符，它是“Msg”。我怎样才能获得每个元素之一？ H
html -
不换行，查看源代码也显示

Hood switch - (automatic transmission only).<br><br>Hood Switch (2013 CX-5 - not requir
CSS 选择 br 后面没有 br
我想选择 br 后面没有跟另一个 br 的元素。例如。 sometextadsf 我想选择这两个元素。 sometextadsf 我只想选择 2 个 br 元素，而不是 4 个。我看过这个问题，但
html - 使用
而不是

这个问题在这里已经有了答案: HTML 5: Is it , , or ? (18 个答案) 关闭 9 年前。当我开始从 w3schools 学习 HTML 时，他们正在使用这个 .当我开始学习
linux -
如何在nagios中安装nagios check_procs插件

我是 nagios 新手，我已经在我的 Linux 机器上安装了 nagios 3。我想安装 nagios check_procs 插件。有人可以建议我吗。谢谢最佳答案您可以从依赖于您使用的 L
javascript - 删除段落中的单个 br 但不删除双 br？
我有一个段落有一些单一的和双 . 我想添加所有单个 , 但不是双 . 这怎么可能？如果我用 p br {display:none} 它隐藏了所有的 br 标签。但是，当我有两个 br 时，我希
html -
和
的主要区别是什么
之间的主要区别是什么？和在 html 标记中？有人可以解释两者的主要区别，因为这让我感到困惑。预先感谢您的所有评论。 :) 最佳答案在实践中，不存在。就或 . 但是，区别在于位置，并且对所有
javascript - 将多个
替换为一个

我如何使用JavaScript来检测成为一个 ? 我试过: jQuery('body').html().replace(/(\\r\n){3, }/g,"\n"); 但这对我不起作用。最佳

首页

博学

6Ren·AI

商城

perl - 如何最好地解析/拆分基于
标签的

首页

博学

6Ren·AI

商城

perl - 如何最好地解析/拆分基于 标签的

perl - 如何最好地解析/拆分基于
标签的