gpt4 book ai didi

BASH - 选择多行 Div 之间的所有代码

转载 作者:行者123 更新时间:2023-11-29 09:44:40 24 4
gpt4 key购买 nike

我的所有电子商务网站页面上都有一个包含 SEO 内容的 div。我想计算那个 div 中的单词数。它用于诊断大型爬网中的空白页面。

div 始终以如下方式开始:

<div class="box fct-seo fct-text

然后它包含<h1> , <p><a>标签。

然后,很明显,它以 </div> 结束

我如何使用 SED、AWK、WC 等获取 div 开头与其结束 div 之间的所有代码并计算出现的单词数。如果它是 90% 准确,我很高兴。

您必须以某种方式告诉它在第一次关闭前停止扫描 </div>它发现。

这是一个示例页面:

http://www.zando.co.za/women/shoes/

非常感谢。-P

最佳答案

当它变得更复杂时(比如 div 嵌套在那个 div 中)正则表达式方法 won't work anymore你需要一个 html 解析器,就像我的 Xidel .然后就可以找到正文了

或者使用 css:

xidel http://www.zando.co.za/women/shoes/  -e 'css(".fct-seo")' | wc -w

或模式匹配:

xidel http://www.zando.co.za/women/shoes/  -e '<div class="box fct-seo fct-text">{.}</div>' | wc -w

它也只会打印文本,不会打印 html 标签。 (如果你/某人想要它们,你可以添加 --printed-node-format xml 选项)

关于BASH - 选择多行 Div 之间的所有代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14256917/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com