gpt4 book ai didi

c++ - 使用 RE2 正则表达式库从字符串中删除 html 标签

转载 作者:行者123 更新时间:2023-11-28 03:42:01 25 4
gpt4 key购买 nike

我需要从字符串中删除 HTML 标签:

std::String whole_file("<imgxyz width=139\nheight=82 id=\"_x0000_i1034\" \n src=\"cid:image001.jpg@01CB8C98.EA83E0A0\" \nalign=baseline border=0> \ndfdsf");

当我使用 RE2 库进行模式删除时

RE2::GlobalReplace(&whole_file,"<.*?>"," ");

当我使用

时,不会删除 Html 标签
RE2::GlobalReplace(&whole_file,"<.*\n.*\n.*?>"," ");

html 标签被删除了,为什么会这样......任何人都可以建议一个更好的正则表达式来从文件中删除 HTML 标签吗?

最佳答案

大胆猜测:.不匹配 EOL 字符。

您可以使用:"<[.\n]*?>"匹配任意数量的换行符。

关于c++ - 使用 RE2 正则表达式库从字符串中删除 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8891013/

25 4 0