gpt4 book ai didi

python - 用于从 < 和 > 内部提取文本字符串的正则表达式 (Python) - 例如

转载 作者:太空宇宙 更新时间:2023-11-04 07:25:28 24 4
gpt4 key购买 nike

我目前正在研究 Stack Overflow 数据转储,并试图构建(我想象的)一个简单的正则表达式以从 < 内部提取标签名称。和 >人物。因此,对于每个问题,我都有一个或多个标签的列表,例如 <tagone><tag-two>...<tag-n>并试图仅提取标签名称列表。以下是从数据转储中获取的一些示例标记字符串:

<javascript><internet-explorer>

<c#><windows><best-practices><winforms><windows-services>

<c><algorithm><sorting><word>

<java>

作为引用,我不需要将标签名称分成单词,所以对于像<best-practices>这样的例子我想回来 best-practices (不是 bestpractices )。此外,不管它的值(value)如何,如果它有任何不同,我正在使用 Python。有什么建议吗?

最佳答案

由于 Stackoverflow 的标签名称没有嵌入 < >你可以使用正则表达式:

<(.*?)>

<([^>]*)>

解释:

  • < : 文字 <
  • (..) : 分组并记住匹配。
  • .*? : 匹配任何东西非贪婪方式。
  • > : 文字 <
  • [^>] : 要匹配的字符类除 > 以外的任何内容

关于python - 用于从 < 和 > 内部提取文本字符串的正则表达式 (Python) - 例如<stringone><string-two> 等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3708418/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com