gpt4 book ai didi

java - 如何在 java 或 php 中解析一个非常大的 xml 文件并插入到 mysql 数据库中

转载 作者:行者123 更新时间:2023-11-30 07:34:48 25 4
gpt4 key购买 nike

<分区>

我正在尝试将大量 xml 文件解析到我的 MySQL 数据库中。该文件是 4.7gb。 我知道,这太疯狂了。

数据来自这里:http://www.discogs.com/data/ (最新专辑 xml 压缩后为 700mb,解压后为 4.7gb)

我可以使用 java 或 php 来解析和更新数据库。我认为 Java 是更聪明的想法。

我需要找到一种方法来解析 xml 而无需填充我的 4gb 内存,并将其加载到数据库中。

最聪明的做法是什么?我听说过 SAX 解析器,我的思考方向是否正确?

现在,我不关心从那些 url 下载图像,我只想要我的数据库中的数据。我还没有设计表格,但我现在对 xml 方面更感兴趣。

我使用 php 的 fread() 打开文件的前 1000 口,所以至少我可以看到它的样子,这里是文件中第一个专辑的结构示例:

<releases>
<release id="1" status="Accepted">
<images>
<image height="600" type="primary" uri="http://s.dsimg.com/image/R-1-1193812031.jpeg" uri150="http://s.dsimg.com/image/R-150-1-1193812031.jpeg" width="600" />
<image height="600" type="secondary" uri="http://s.dsimg.com/image/R-1-1193812053.jpeg" uri150="http://s.dsimg.com/image/R-150-1-1193812053.jpeg" width="600" />
<image height="600" type="secondary" uri="http://s.dsimg.com/image/R-1-1193812072.jpeg" uri150="http://s.dsimg.com/image/R-150-1-1193812072.jpeg" width="600" />
<image height="600" type="secondary" uri="http://s.dsimg.com/image/R-1-1193812091.jpeg" uri150="http://s.dsimg.com/image/R-150-1-1193812091.jpeg" width="600" />
</images>
<artists>
<artist>
<name>Persuader, The</name>
</artist>
</artists>
<title>Stockholm</title>
<labels>
<label catno="SK032" name="Svek" />
</labels>
<formats>
<format name="Vinyl" qty="2">
<descriptions>
<description>12"</description>
</descriptions>
</format>
</formats>
<genres>
<genre>Electronic</genre>
</genres>
<styles>
<style>Deep House</style>
</styles>
<country>Sweden</country>
<released>1999-03-00</released>
<notes>Recorded at the Globe studio in Stockholm. The titles are the names of Stockholm's districts.</notes>
<master_id>5427</master_id>
<tracklist>
<track>
<position>A</position>
<title>Östermalm</title>
<duration>4:45</duration>
</track>
<track>
<position>B1</position>
<title>Vasastaden</title>
<duration>6:11</duration>
</track>
<track>
<position>B2</position>
<title>Kungsholmen</title>
<duration>2:49</duration>
</track>
<track>
<position>C1</position>
<title>Södermalm</title>
<duration>5:38</duration>
</track>
<track>
<position>C2</position>
<title>Norrmalm</title>
<duration>4:52</duration>
</track>
<track>
<position>D</position>
<title>Gamla Stan</title>
<duration>5:16</duration>
</track>
</tracklist>
</release>

谢谢。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com