php - 在 PHP 中解析 BIG XML-6ren

php - 在 PHP 中解析 BIG XML

转载作者：行者123 更新时间：2023-11-29 07:01:04

25

4

我需要解析一个很大的 XML。 f.ex 100mb(可能更多)。

例如:Xml 看起来像这样:

<notes>
  <note>
    <id>cdsds32da435-wufdhah</id>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
  </note>


 x 1000000 different notes(or even more)

</notes>

每个笔记都有唯一的 ID。当我解析 XML 时，我需要首先查找数据库中是否存在特定 ID 的注释，如果不存在则插入它。

问题出在性能上(需要 2 小时)。我尝试使用一个 SELECT 从数据库中获取所有 ID(但也很大)，所以我不会每次都询问数据库，我将它们放在 PHP 数组(内存)中。

$sql = "SELECT id FROM 'notes'";
...
$ids = Array with all ids

我还在循环中使用 xml_parser 解析了一个 XML:

while($data = fread($Xml, '512')) {
    xml_parse($xmlParser, $data);
}

我认为使用 simple_xml_parser 解析 XML 可能会生成一个太大的变量，PHP 无法处理它。

当我有一个笔记 ID 时，我会检查它是否存在于 $ids 中:

if (array_search($note->id, $ids) === FALSE) {
    //than insert it
}

但是时间太长了。所以我发现 PHP 带有特殊的数组，称为 Juddy Arrays http://php.net/manual/en/book.judy.php但我不确切知道它们是否用于此 - 我的意思是用于快速解析大数组。

我也考虑使用 Memcached，将来自 DB 的 ID 存储在许多变量中，但我想找到一个合适的解决方案。

在数据库表中也有索引，以加快这个过程。 XML 每周都在增长 :) 并且它每次都包含来自上一个 XML 的所有注释以及新注释。

问题？如何在 PHP 中快速解析大数组？ Judy Arrays 适合这个吗？将数据库中的所有 ID 存储在一个变量中是一个很好的解决方案吗？ - 一次对于 PHP 来说可能太大了。

最佳答案

当我解析 DMOZ database 时(2G xml) 我一直在用Java解决方案(SAX解析器)。首先，我需要将大量数据从 XML(RDF 格式)传输到 MySQL 数据库中。我的 PHP 解决方案执行此任务超过 6 个小时。但是 Java 解决方案在 15 分钟后完成了类似的任务。所以我可以告诉你:尝试使用基于SAX解析器的Java解决方案。

关于php - 在 PHP 中解析 BIG XML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10101498/

25

4

0

文章推荐： mysql 派生表、性能、替代方案

文章推荐： java - 关于 Java HashMap : when key is a Set

文章推荐： Mysql 查询返回带有 Union Join 的 BLOB

big-o - 谁能解释一下 Big O、Big Omega 和 Big Theta？
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Big Theta Notation - what exactly does big Theta represent
big-o - 如何评估两个函数的 Big-Theta 和 Big-Omega 是否相等？
我有一个作业要证明这些是对还是错: a) 150n^3 + 43n^2 + 50^n + 3 = Ω(n^5) b) n^10 + 30n^8 + 80n^6 = O(n^12) c) 55n + 3
pointers - big.Int 和 *big.Int 之间的区别，以及如何按值传递 big.Int
我可以在 big.Int 上使用像 Text() 这样的方法，它工作正常，但是如果我返回一个 big.Int 然后使用“myfunc().Text()”会抛出一个错误，而如果我返回一个 * big.I
PHP 脚本 : How big is too big?
我正在用 PHP 开发一个网络应用程序，此时核心库的大小为 94kb。虽然我认为我现在是安全的，但多大才算太大？脚本的大小是否会成为一个问题，如果是这样，可以通过将脚本拆分为多个库来改善这一点吗？我
Big-O/Big-Oh 符号问题
我正在复习 Big-Oh 符号，但我在理解这个问题的解决方案时遇到了问题: Is 2n + 10 ≡ O(n)? Can we find c and n0? 2n + 10 = 10 n >= 10/
big-o - 哪个 Big-O 渐近增长得更快
我最近陷入了争论/辩论中，我试图对正确的解决方案做出明确的判断。众所周知， n! grows very quickly ，但究竟有多快，足以“隐藏”可能添加到其中的所有其他常量？让我们假设我有这个
big-o - 如何为我的循环找到 Big-O 符号？
我很难找出这段代码的 Big-O 符号。我需要找到两个 for 循环的符号。 public static int fragment(int n) { int sum = 0; for (in
big-o - 对数基础在 Big O 统治中重要吗？
给定两个函数: f(n)=O(log2n) 和 g(n)=O(log10n) 其中一个是否支配另一个？最佳答案请记住，任何碱基的对数都可以转换为仅以常数变化的公共(public)碱基。因此它们都
big-o - 使用 big-o 进行时间复杂度分析
经过修改，我们得出结论，时间复杂度实际上是O(2^n) 问题是时间复杂度是多少？是 O(2^n) 还是？我相信这是因为 for 循环被认为运行了 n 次。然后嵌套的 while 循环运行 2^n 次
big-o - 什么是嵌套循环的 Big-O，其中内循环的迭代次数由外循环的当前迭代确定？
以下嵌套循环的 Big-O 时间复杂度是多少: for (int i = 0; i < N; i++) { for (int j = i + 1; j < N; j++) {
c - 在 C 中按值传递参数 : how big is too big?
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。上下文:我有机会使用 2×2 矩阵，它位于一个结构体中: typedef struct { double a, b, c,
c - 在 C 中按值传递参数 : how big is too big?
我很想知道经验丰富的 C 程序员认为可以按值传递的参数大小的上限是什么。上下文:我有机会使用 2×2 矩阵，它位于一个结构体中: typedef struct { double a, b, c,
big-o - Big-O = x 何时被归类为无效率？
假设我们有一个问题，我们使用 X 算法实现了 O(n) 或 O(log n) 或 etc...。 n 的值何时大到我们必须考虑替代实现？让我们看看我是否可以更好地解释自己。 For n=10,000
big-o - 这属于什么 Big-O 表示法？
这属于哪种 Big-O 表示法？我知道 setSearch() 和 removeAt() 是 O(n) 的顺序(假设它们是任意一种)。我知道如果没有 for 循环它肯定是 O(n)，但是我很困惑如何计
big-o - 两个非嵌套循环的 Big Oh 表示法
这是我的问题，我已经设法为 a 部分提出了一个答案，但对于 b 部分，我对 b 部分的答案并不是很自信。在最近的一起法庭案件中，一名法官以蔑视城市为由，下令第一天罚款 2 美元。之后的每一天，直到
algorithm - Big-O/Big-Oh 表示法
我正在尝试计算以下算法的大 O，但我很困惑，需要一些帮助: Algorithm 1. DFS(G,n) Input: G- the graph n- the current node 1
big-ip - 有什么方法可以模拟 F5 BIG-IP 服务器？
我们有一个使用 F5 BIG-IP 服务器进行负载平衡的潜在客户端。在确定我们是否可以将我们的产品与他们的负载均衡器干净地集成时，我开始查看 F5 提供的 API。问题是，如果没有 F5 服务器，我无
react-big-calendar - react-big-calendar 事件的基本设置未显示
我正在尝试使用 react-big-calendar 包。 http://intljusticemission.github.io/react-big-calendar/examples/index.
java - 递归方法的 Big-O 和 Big-Omega
我的任务是尝试找到给定 Java 方法的 big-O 和 big-Omega，但不知道如何找到。我知道 big-O 给出了上限，big-Omega 给出了下限，但是在查看程序(更不用说递归程序)时，我
algorithm - 如何对渐近符号函数集进行操作，即。 Big-O + Big-Omega？
我正在尝试确定以下陈述是对还是错。如果 f(n) ∈ O(n) 且 g(n) ∈ Ω(n)，则 f(n) + g(n) ∈ Θ(n)。我想我理解添加相同的渐近 big-O。 O(n) + O(n)

首页

博学

6Ren·AI

商城

php - 在 PHP 中解析 BIG XML