Java正则表达式懒惰运算符不那么懒吗？-6ren

Java正则表达式懒惰运算符不那么懒吗？

转载作者：行者123 更新时间：2023-11-30 05:10:16

31

4

我有一个 Java 类，它必须在线获取 URL 的内容(返回 XML)，并对其应用正则表达式(该行为是由第三方文件定义的，因此我无法使用 DOM 或 SAX 来解析回复)。这是代码:

    import java.io.InputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;


    public class RegExpTest {
        public static void main(String[] args) {
            try {
                StringBuffer buffer = new StringBuffer();
                URL url = new URL("http://api.themoviedb.org/2.1/Movie.search/en/xml/57983e31fb435df4df77afb854740ea9/Inglourious+Bastards");
                HttpURLConnection conn = (HttpURLConnection)url.openConnection();

                conn.connect();
                InputStream input = conn.getInputStream();

                for(int c = input.read(); c != -1; c = input.read())
                    buffer.append((char)c);

                Pattern pattern = Pattern.compile("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", Pattern.DOTALL);
                Matcher matcher = pattern.matcher(buffer);
                for(int i = 1; i < (matcher.groupCount() + 1); i++) {
                    matcher.find();
                    String toReplace = matcher.group(i);
                    System.out.println(toReplace);
                }
            }
            catch (Exception e) {
                e.printStackTrace();
            }
        }
}

此示例的输出是“Inglourious Basterds”，然后是“22311”，这是第一个 movie 标签中 name 标签的内容，以及第二个 中 id 标签的内容电影标签。但是，惰性运算符应保证仅检索第一个电影标签中的项目。

此外，以下 Python 代码的作用基本上完全相同，并且按预期方式工作。

import re
import urllib

url = urllib.urlopen("http://api.themoviedb.org/2.1/Movie.search/en/xml/"
    "57983e31fb435df4df77afb854740ea9/Inglourious+Bastards")

m = re.search("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>",
        url.read(), re.DOTALL)
print m.group(1), m.group(2)

知道我的代码有什么问题吗？

谢谢

最佳答案

正则表达式中有两个捕获组，因此 find() 被调用两次。在开始查看匹配信息之前，您需要调用 find()(并检查结果):

while (matcher.find()) {
    for(int i = 1; i < (matcher.groupCount() + 1); i++) {
        String toReplace = matcher.group(i);
        System.out.println(toReplace);
    }
}

关于Java正则表达式懒惰运算符不那么懒吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3659503/

31

4

0

文章推荐： java - 需要 core java 项目帮助

文章推荐： android - 使用 SVG 转换为矢量到 imageview

文章推荐： java - Weblogic EJB部署: classes in jar inside ear are not accessible

文章推荐： java - 多对多消除问题

ocaml - (懒)Haskell 在 OCaml 中未定义/底部
Haskell 有一个非常膨胀的 undefined 值，它会惰性地引发异常(在求值时)。 Ocaml当然是严格的，所以as far as I can tell there is no equival
让 Node.js 变“懒”的 COW 技术
COW 不是奶牛，是 Copy-On-Write 的缩写，这是一种是复制但也不完全是复制的技术。一般来说复制就是创建出完全相同的两份，两份是独立的：但是，有的时候复制这件事没多大必要

首页

博学

6Ren·AI

商城

Java正则表达式懒惰运算符不那么懒吗？