gpt4 book ai didi

html - 使用ruby从html文档中删除空格

转载 作者:太空狗 更新时间:2023-10-29 16:52:13 24 4
gpt4 key购买 nike

所以我在 ruby​​ 中有一个类似这样的字符串

str = "<html>\n<head>\n\n  <title>My Page</title>\n\n\n</head>\n\n<body>" +
" <h1>My Page</h1>\n\n<div id=\"pageContent\">\n <p>Here is a para" +
"graph. It can contain spaces that should not be removed.\n\nBut\n" +
"line breaks that should be removed.</p></body></html>"

我将如何删除标签外部/不在具有类似 <p> 内容的标签内部的所有空格(空格、制表符和换行符)只使用原生 Ruby?

(我想避免使用 XSLT 或其他东西来完成如此简单的任务。)

最佳答案

str.gsub!(/\n\t/, " ").gsub!(/>\s*</, "><")

第一个 gsub! 将所有换行符和制表符替换为空格,第二个删除标记之间的空格。

你最终会在你的标签中有多个空格,但如果你只是删除所有 \n\t,你会得到类似“not be removed. Butline breaks”,这不是很可读。另一个正则表达式或前面提到的 .squeeze("") 可以解决这个问题。

关于html - 使用ruby从html文档中删除空格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3076772/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com