gpt4 book ai didi

regex - 使用正则表达式删除html实体并提取文本内容

转载 作者:行者123 更新时间:2023-12-03 15:25:29 26 4
gpt4 key购买 nike

我有一个仅包含 HTML 实体的文本,例如 < 我需要删除这一切并只获取文本内容:

&nbspHello there<testdata>

所以,我需要得到 Hello theretestdata从本节。有没有办法使用负前瞻来做到这一点?

我尝试了以下操作: /((?!&.+;).)+/ig但这似乎效果不佳。那么,我怎样才能从那里提取所需的文本呢?

最佳答案

查找 HTML 实体的更好语法是以下正则表达式:

/&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-fA-F]{1,6});/ig
此语法忽略虚假实体。

关于regex - 使用正则表达式删除html实体并提取文本内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26127775/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com