- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
首先,XML 文件大小为 2,84GB,SAX 或 DOM 解析器似乎都无法正常工作。我已经尝试过了,每次都会崩溃。所以,我选择用BufferedReader读取文件并导出我想要的数据,像解析txt一样解析XML文件。
XML文件(小部分):
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp-2019-11-22.dtd">
<dblp>
<phdthesis mdate="2016-05-04" key="phd/dk/Heine2010">
<author>Carmen Heine</author>
<title>Modell zur Produktion von Online-Hilfen.</title>
<year>2010</year>
<school>Aarhus University</school>
<pages>1-315</pages>
<isbn>978-3-86596-263-8</isbn>
<ee>http://d-nb.info/996064095</ee>
</phdthesis><phdthesis mdate="2020-02-12" key="phd/Hoff2002">
<author>Gerd Hoff</author>
<title>Ein Verfahren zur thematisch spezialisierten Suche im Web und seine Realisierung im Prototypen HomePageSearch</title>
<year>2002</year>
我想从该 XML 文件中检索标签 <year>
之间的数据。 。我还使用 Pattern 和 Matcher 与 regEx 来查找我想要的信息。到目前为止我的代码:
public class Publications {
public static void main(String[] args) throws IOException {
File file = new File("dblp-2020-04-01.xml");
FileInputStream fileStream = new FileInputStream(file);
InputStreamReader input = new InputStreamReader(fileStream);
BufferedReader reader = new BufferedReader(input);
String line;
String regex = "\\d+";
// Reading line by line from the
// file until a null is returned
while ((line = reader.readLine()) != null) {
final Pattern pattern = Pattern.compile("<year>(.+?)</year>", Pattern.DOTALL);
final Matcher matcher = pattern.matcher("<year>"+regex+"</year>");
matcher.find();
System.out.println(matcher.group(1)); // Prints String I want to extract
}
}
}
编译后,结果不是我想象的那样。解析器每次找到 ... 标记时都不会打印确切的年份,结果如下:
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
有什么建议吗?
最佳答案
请不要尝试使用正则表达式解析 XML。我们在这个论坛上收到了数百个问题,人们试图以特殊格式生成 XML,因为这是接收应用程序唯一可以处理的问题,而接收应用程序具有此类限制的原因是它试图“手动”进行 XML 解析。 。你正在为自己、为你想要与之交换数据的人、为 StackOverflow 上的人埋下麻烦,当事情进展不顺利时,你会向这些人寻求帮助。 XML 标准的存在是有原因的,当每个人都遵守它们时,它就会很好地发挥作用。
在这种情况下,正确的方法是使用 SAX、StAX 或流式 XSLT 3.0 的流式 XML 方法,但您出于完全虚假的原因放弃了这些方法。
关于java - 在 Java 中使用 BufferedReader 解析 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61363218/
我可以做这个科目吗?我的意思是: BufferedReader reader1 = new BufferedReader(new FileReader(new File("file"))); Bu
这个问题已经有答案了: Unhandled Exception Type IOException [duplicate] (4 个回答) Java: import statement vs fully
PrintWriter out = new PrintWriter(DoDSocket.getOutputStream(), true); BufferedReader in = ne
我是java新手。我想从 java 启动的进程中读取标准输出。我在谷歌搜索中得到了以下代码: Runtime rt = Runtime.getRuntime(); Process pr
这个问题已经有答案了: Stream closed and not reopened - Java (2 个回答) Closing Reader/Stream in Java [duplicate]
我有一个片段如下: Process proc = Runtime.getRuntime().exec(command); BufferedReader br = new BufferedReader(
1. 概述 在这个例子中,我们将使用一个BufferedReader类来读取一个名为 "sample.txt "的文件。 BufferedReader类是用来从基于字符的
我正在 youtube 上查看有关 BufferedReader 的教程 https://www.youtube.com/watch?v=yofFVbARIRU 我完全按照他的方式编写代码,但我无法让
我正在尝试编写一个方法来获取一个多行制表符分隔的文件,并将该文件的内容作为字符串数组的数组列表返回(每一行都是一个字符串[],每个这样的字符串[]都是一个元素一个数组列表)。我的问题是,我无法判断输出
我需要从 Java InputStream 中读取以零结尾的字符串。 有没有类似BufferedReader.readLine()的读取零结尾字符串的方法? 最佳答案 package com; imp
String str = ""; try { BufferedReader br = new BufferedReader(new FileRe
我用下面的样式用BufferedReader读取文件 try (BufferedReader br = new BufferedReader(new FileReader("my_file"))) {
我正在编写一些使用clojure.async的函数,以从读取/写入套接字抽象出来。我的目的是可以将值放入 channel 中以进行写入,并从要读取的 channel 中弹出。这样,用户无需担心Read
我正在尝试使用缓冲读取器读取文件,但有时它会跳过一行中的第一个字符。这是我正在阅读的文件: http://files.moonmana.com/forums/Rectangle.h 这是我得到的结果:
我是 Java 新手,我正在尝试使用此类返回 "test.csv" 的内容。这只在我使用本地文件的路径时才有效。 public class CSVtoArray2 { public stati
我正在使用 BufferedReader.readLine() 逐行读取文本文件,但突然它不读取整行,而是只读取仅第一个字符串 示例:如果文本文件中的第一行是: [98.0,20.0,-65.0]
读完整个字符串后,读者会停留在 while 中,甚至不会抛出异常。我正在通过curl 向服务器发送请求。 我尝试更改 curl 的内容类型,更改字符串的内容,并使用另一种方式读取输入,例如扫描仪,但总
我正在使用 BufferedReader 从 ma url 获取数据。 URL url = new URL("http://"); BufferedReader in = new Buffered
我有一个缓冲阅读器,由于某种原因,它不会从我从客户端发送的打印流中读取文本。这是每次 line = in.readline 时失败的点 我也检查过并且服务器已连接。 这是错误 java.net.Soc
第一次这个循环迭代效果很好,但在我按字符“y”以重复之后,下次显示时,它不会让我输入另一个名称。我不知道是什么原因造成的,但是当你需要清除输入缓冲区时,它让我想起了 C。 任何帮助我们都将不胜感激。
我是一名优秀的程序员,十分优秀!