作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 Java 类,它必须在线获取 URL 的内容(返回 XML),并对其应用正则表达式(该行为是由第三方文件定义的,因此我无法使用 DOM 或 SAX 来解析回复)。这是代码:
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegExpTest {
public static void main(String[] args) {
try {
StringBuffer buffer = new StringBuffer();
URL url = new URL("http://api.themoviedb.org/2.1/Movie.search/en/xml/57983e31fb435df4df77afb854740ea9/Inglourious+Bastards");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.connect();
InputStream input = conn.getInputStream();
for(int c = input.read(); c != -1; c = input.read())
buffer.append((char)c);
Pattern pattern = Pattern.compile("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", Pattern.DOTALL);
Matcher matcher = pattern.matcher(buffer);
for(int i = 1; i < (matcher.groupCount() + 1); i++) {
matcher.find();
String toReplace = matcher.group(i);
System.out.println(toReplace);
}
}
catch (Exception e) {
e.printStackTrace();
}
}
}
此示例的输出是“Inglourious Basterds”,然后是“22311”,这是第一个 movie 标签中 name 标签的内容,以及第二个 中 id 标签的内容电影标签。但是,惰性运算符应保证仅检索第一个电影标签中的项目。
此外,以下 Python 代码的作用基本上完全相同,并且按预期方式工作。
import re
import urllib
url = urllib.urlopen("http://api.themoviedb.org/2.1/Movie.search/en/xml/"
"57983e31fb435df4df77afb854740ea9/Inglourious+Bastards")
m = re.search("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>",
url.read(), re.DOTALL)
print m.group(1), m.group(2)
知道我的代码有什么问题吗?
谢谢
最佳答案
正则表达式中有两个捕获组,因此 find()
被调用两次。在开始查看匹配信息之前,您需要调用 find()
(并检查结果):
while (matcher.find()) {
for(int i = 1; i < (matcher.groupCount() + 1); i++) {
String toReplace = matcher.group(i);
System.out.println(toReplace);
}
}
关于Java正则表达式懒惰运算符不那么懒吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3659503/
Haskell 有一个非常膨胀的 undefined 值,它会惰性地引发异常(在求值时)。 Ocaml当然是严格的,所以as far as I can tell there is no equival
COW 不是奶牛,是 Copy-On-Write 的缩写,这是一种是复制但也不完全是复制的技术。 一般来说复制就是创建出完全相同的两份,两份是独立的: 但是,有的时候复制这件事没多大必要
我是一名优秀的程序员,十分优秀!