gpt4 book ai didi

java - 使用java从特定标签中提取字符串

转载 作者:行者123 更新时间:2023-12-04 09:15:03 24 4
gpt4 key购买 nike

我在 html 中有几个标签。正如您在下面的 HTML 中看到的那样 <AT></AT> .所以我需要从 <AT></AT> this tag 中提取文本.
我遵循以下方法

  • 写了一个正则表达式,从 AT 标签中提取文本

  • 下面是测试字符串::
    href="<AT>EXTRACT_URL</AT>" target="_blank" style="font-weight: bold;letter-spacing: normal;line-height: 100%;text-align: center;text-decoration: none;color: #FFFFFF;">Sign In</a></td></tr></tbody></table></td></tr> <a href="<AT>EXTRACT_URL</AT>" target="_blank" title="" class="" target="_blank"> <a href="<AT>EXTRACT_URL</AT>" target="_blank" title="" class="" target="_blank"> <a href="<AT>EXTRACT_URL</AT>" target="_blank" title="" class="" target="_blank">
    使用下面的程序从 AT 标签中提取文本
    private static final Pattern TAG_REGEX = Pattern.compile("<AT>(.*)</AT>");

    public static String getText(String text) {
    final Matcher matcher = TAG_REGEX.matcher(text);

    while (matcher.find()) {
    String url = matcher.group(1);

    System.out.println("Extracted URL::"+url);
    }
    }
    从上述程序获取输出:
    Extracted URL::EXTRACT_URL</AT>" target="_blank" style="font-weight: bold;letter-spacing: normal;line-height: 100%;text-align: center;text-decoration: none;color: #FFFFFF;">Sign In</a></td></tr></tbody></table></td></tr> <a href="<AT>EXTRACT_URL</AT>" target="_blank" title="" class="" target="_blank"> <a href="<AT>EXTRACT_URL</AT>" target="_blank" title="" class="" target="_blank"> <a href="<AT>EXTRACT_URL
    预期输出:
    Extracted URL::EXTRACT_URL
    Extracted URL::EXTRACT_URL
    Extracted URL::EXTRACT_URL
    Extracted URL::EXTRACT_URL
    为什么我没有得到预期的输出?

    最佳答案

    这是因为 Pattern在这种情况下,正确的模式是

    private static final Pattern TAG_REGEX = Pattern.compile("<AT>(.*?)</AT>");
    两者都将匹配任何字符序列,但
  • .*是贪婪的,会尽可能匹配(会在最后一个 </AT> 结束)
  • .*?不情愿,会尽量少匹配

  • 更多在此 tutorial

    关于java - 使用java从特定标签中提取字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63266153/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com