java - 用于非常大的 XML 文件的 SAX 解析器-6ren

java - 用于非常大的 XML 文件的 SAX 解析器

转载作者：行者123 更新时间：2023-12-04 06:28:55

25

4

我正在处理一个非常大的 XML 文件，4 GB 并且我总是遇到内存不足错误，我的 java 堆已经达到最大值，这就是代码的原因:

Handler h1 = new Handler("post");
        Handler h2 = new Handler("comment");
        posts = new Hashtable<Integer, Posts>();
        comments = new Hashtable<Integer, Comments>();
        edges = new Hashtable<String, Edges>();
         try {
                output = new BufferedWriter(new FileWriter("gephi.gdf"));
                SAXParser parser = SAXParserFactory.newInstance().newSAXParser();
                SAXParser parser1 = SAXParserFactory.newInstance().newSAXParser();


                parser.parse(new File("G:\\posts.xml"), h1);
                parser1.parse(new File("G:\\comments.xml"), h2);
            } catch (Exception ex) {
                ex.printStackTrace();
            }

    @Override
         public void startElement(String uri, String localName, String qName, 
                    Attributes atts) throws SAXException {
                if(qName.equalsIgnoreCase("row") && type.equals("post")) {
                    post = new Posts();
                    post.id = Integer.parseInt(atts.getValue("Id"));
                    post.postTypeId = Integer.parseInt(atts.getValue("PostTypeId"));
                    if (atts.getValue("AcceptedAnswerId") != null)
                        post.acceptedAnswerId = Integer.parseInt(atts.getValue("AcceptedAnswerId"));
                    else
                        post.acceptedAnswerId = -1;
                    post.score = Integer.parseInt(atts.getValue("Score"));
                    if (atts.getValue("OwnerUserId") != null)
                        post.ownerUserId = Integer.parseInt(atts.getValue("OwnerUserId"));
                    else
                        post.ownerUserId = -1;
                    if (atts.getValue("ParentId") != null)
                        post.parentId = Integer.parseInt(atts.getValue("ParentId"));
                    else
                        post.parentId = -1;
                }
                else if(qName.equalsIgnoreCase("row") && type.equals("comment")) {
                    comment = new Comments();
                    comment.id = Integer.parseInt(atts.getValue("Id"));
                    comment.postId = Integer.parseInt(atts.getValue("PostId"));
                    if (atts.getValue("Score") != null)
                        comment.score = Integer.parseInt(atts.getValue("Score"));
                    else
                        comment.score = -1;
                    if (atts.getValue("UserId") != null)
                        comment.userId = Integer.parseInt(atts.getValue("UserId"));
                    else
                        comment.userId = -1;
                }
            }



public void endElement(String uri, String localName, String qName) 
         throws SAXException {
             if(qName.equalsIgnoreCase("row") && type.equals("post")){ 
                 posts.put(post.id, post);
                 //System.out.println("Size of hash table is " + posts.size());
             }else if (qName.equalsIgnoreCase("row") && type.equals("comment"))
                 comments.put(comment.id, comment);
         }

有什么方法可以优化此代码，以免内存不足？可能使用流？如果是，你会怎么做？

最佳答案

SAX 解析器对故障很有效。

帖子、评论和边缘 HashMap 立即作为潜在问题向我跳出来。我怀疑您需要定期从内存中刷新这些映射以避免 OOME。

关于java - 用于非常大的 XML 文件的 SAX 解析器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5684239/

25

4

0

文章推荐：用于编辑 vimrc 的 vim 映射不起作用？

文章推荐： zend-framework - 在 Zend Framework 中更改布局扩展

sax - 如何为 SAX 解析器设置线程和处理程序？
我一直在尝试为 SAX 解析器设置 UI 线程和处理程序。这是我没有实现 UI 线程和处理程序的解析器: public class AndroidXMLReader extends ListActiv
c# - SAX 与 XmlTextReader - C# 中的 SAX
我正在尝试读取一个大型 XML 文档，并且我想以 block 的形式读取它，而不是 XmlDocument 将整个文件读入内存的方式。我知道我可以使用 XmlTextReader 来做到这一点，但我想
java - SAX 解析器。如何停止 SAX 解析器连接到 Internet？
我正在尝试将 11384 个 XML 文件解析到一个 SQLite 数据库中。其中之一: ]> 1 2 我正在使用 SAX 解析器: pub
Perl、SAX 和系统实体
我需要用 Perl 解析 XML 文件。文件的一部分单独存储，并作为系统实体插入。不过，这个问题很常见。但是我无法获得任何信息来解决它。 ]> &externalContent; 当使
xsd - SAX 解析器不遵循引用
我正在尝试从 xsd 解析 HL7 消息定义。我将模式定义分成两个文件。第一个文件包含实际的消息定义，第二个文件包含消息中的段定义。我正在尝试调整示例代码以从此处解析 XML https://gis
使用 SAX 进行解析并处理字符实体
我正在使用 SAX 解析 MathML 表达式(尽管它是 MathML 的事实可能并不完全相关)。输入字符串示例为 λ 为了让 SAX 解
java - SAX 处理特殊字符
我正在尝试使用 Java 和 SAX 为 Android 设备解析 XML 文件。我从互联网上获取，在解析它时，我得到一个 ExpatException :字符“é”的格式不正确(无效标记)。有没有办
java - SAX 解析器不工作
我正在尝试使用java中的sax读取xml文件。我只获得 endElement 的输出，但无法找出 startElement 出了什么问题。这是我的处理程序: public class XMLHan
java - SAX 解析器具有相似的父标签和子标签
我正在使用 SAX 解析器来解析具有父级及其子级标记的 XML，如下所示:
java - SAX 解析器返回空字符串
我正在尝试从 RSS 提要中提取数据。 RSS 链接 - http://www.thehindu.com/sport/?service=rss ？这是我的默认处理程序的字符方法。 public vo
java - SAX 解析器不调用开始元素
我尝试执行下面的代码，但我的 SAX 解析器没有调用 startElement 方法。下面是我的代码: package getTableStructure; import java.util.Lis
java - SAX 解析器是否将所有数据保存在内存中？
我正在满足一项要求，即我需要拆分大型 XML 并进一步处理。这是 XML 示例，它可以变成单行。 yongjin 这是我的代码: import java.util.Arrays; import ja
java - Sax 解析器字符数组到整数？
我正在尝试将标签的内容放入我的 java Sax 解析器中的变量中。但是，Characters 方法仅返回 Char 数组。有没有办法将 Char 数组转换为 Int？？？ public void c
java - SAX 的问题
我有下面的代码.. System.setProperty("http.proxyHost","176.6.129.25") ; System.setProp
java - SAX 查找最大深度的节点
如何使用 SAX 显示树中最大深度的节点名称。该算法很适合我理解这个概念.. 例如，我应该如何使用 startelement、endelement、startdocument、enddocument
java - SAX 查找结束标签
有没有可行的方法使用默认的处理程序类来查找对应的XML标签？例如... 1 1 我想使用 startElement() 和 endElement() 方
java - SAX 解析和特殊字符
我想使用 SAX 解析器从 xml 文件中解析一些数据。我的xml如下: Pies & past Fruits 为了解析这些数据，我扩展了 DefaultHandler。解析后的输出
Java 将字符串传递给 SAX
我正在构建一个创建 XML 的流程(从各种来源并出于我事先不知道的各种目的)，并且我希望将生成的 XML 直接注入(inject)到标准 XML 处理中，例如 SAX、StAX和 DOM。我已经完成了
java - SAX 解析器未读取部分节点内容
我有一个由 MS Excel 创建的 XML 文件，其中包含如下元素: 22. Department"GS "NAES "ABCDEF"
java - Sax 解析器缺少开头元素
我在使用 java sax 解析器打开 stackoverflow 帖子 XML 转储时遇到问题。它识别每个元素的结尾，但似乎跳过了 startElement 方法。我使用示例代码: try {

首页

博学

6Ren·AI

商城

java - 用于非常大的 XML 文件的 SAX 解析器