- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前适用于 < 100MB 的文件的方法是:
Document doc = Jsoup.parse(full_html);
Elements html_tables = doc.select("table");
JSoup.parse
对于 400MB 的文件来说执行得非常糟糕。我可以编写自己的 HTML 标记器来快速提取表格吗?有什么建议吗?
我正在从 SEC 文件中嵌入的更广泛的 HTML 文件中提取一个 HTML 表,该表通过将其文本与正则表达式匹配来识别。
目前:我使用 JSoup 来解析 HTML。然后我遍历表格寻找符合我的标准的候选人。
问题是,从 2014 年左右开始,美国证券交易委员会 (SEC) 的一些文件变得非常大。示例(403 MB 文件!):
-rw-r--r-- 1 mgunn 员工 403M 0000065984-14-000065.txt
调用 Document doc = Jsoup.parse(full_html)
(我当前方法的一部分)需要几分钟时间和/或耗尽内存。
我需要在一个又一个的文件上执行此操作(其中几个> 100MB),因此我需要编写/使用相当强大且高效的东西。
最佳答案
正如原帖评论中提到的,您不应该尝试使用基于 DOM 的解析器加载如此庞大的文档,因为这会占用大量内存。相反,您应该寻找成熟的替代方案。这里的关键字是SAX,它代表“Simple API for XML Parsing”。有几种 Java 替代方案:
处理与基于 DOM 的解析有些不同,但易于管理。
关于java - 从 403MB(是的,我有这个权利)html 文件中有效提取特定表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34029366/
我在尝试构建时遇到此错误:应用程序代码签名权利文件中指定的权利与配置配置文件中指定的权利不匹配。 (0xE8008016)。 这不是我第一次构建应用程序。这将是我的第六个应用程序,所以这个东西正在绊倒
这个问题在这里已经有了答案: How do I change my iOS applications' entitlements? (2 个答案) 关闭 8 年前。 我在越狱的 iPhone 上运行
我有一个 PacketTunnelProvider 应用程序扩展,带有一个包含 key 的 plist NSExtensionPointIdentifier NSExtensionPr
我想在我的应用程序中实现 CloudKit,但是我无法将它添加到我的项目中。 大多数教程都是在较旧的 Xcode 版本(我假设)中制作的,其中有一个 iCloud 开关 - 在我的项目(Xcode 1
我已经像他们说的那样提交了这个表格 https://developer.apple.com/contact/network-extension/ 然后我收到了苹果的邮件 Please note tha
在Windows的安全体系中,一个用户可以属于多个组,一个组又可以包含其他的组。在 Windows 中解决权限冲突的“规则”是什么? 例如,假设用户在 A 组和 B 组中。A 组对文件具有“拒绝读取”
我正在尝试将 HealthKit 与我正在构建的应用程序集成,我似乎已经成功地为它添加了权利。我已经创建并下载了一个具有适当应用程序 ID 的配置文件,Xcode 功能选项卡中的 HealthKit
wso2 身份服务器已安装并正在运行。我能够在其中创建策略并测试一个简单的场景。这里面似乎有很多连接部分。 尚不清楚如何从 Java 程序访问策略并以编程方式传递角色、资源并检查登录用户是否有权执行特
我知道有人提出了有关以下错误的问题:权利“应用程序标识符”具有配置配置文件不允许的值,但是,没有一个解决方案可以解决我的问题。情况是这样的:我有一个可以下载文件的应用程序,并且在开发模式下运行良好。当
我需要在启用了沙箱的应用程序中使用 AppleScript。只是使用诸如“告诉 Finder bla-bla-bla”之类的东西。很简单。我知道我需要在 Entitlements 中为 finder
我有一个涉及消息传递的应用程序(它是应用程序的重要组成部分)。人们可以通过应用程序互相发短信,每条消息都保存在我们的服务器上,未加密。 (我们从来没有真正想过加密它) 用户在创建帐户时必须接受条款,所
我最近上传了一个应用程序到苹果商店,它的当前状态是等待审核。 我正在检查二进制细节以检查一切是否正确,但我读到一些让我担心的东西。 在权利部分我有以下内容: 获取任务允许:假 钥匙串(keychain
我已经为 iOS 10 苦苦挣扎了几天。我有一个使用 Xcode 7.3 构建的 iOS 8 和 iOS 9 应用程序。推送工作正常。 我更新了一些东西并发布了使用 XCode8.3 编译的应用程序。
我目前在授予 Zend Server 上的权利/所有权方面遇到了很多问题。我总是做一个 chown user -R path/to/file 和 giving 777 to fodlers and f
在我的项目中,我有三个目标 - 项目目标、单元测试目标和 UI 测试目标。 在升级到 Xcode 8 时,我遇到了 UI 测试目标的问题,并显示了错误消息: Provisioning profile
我正在尝试为临时分发(在 TestFlight 上)构建我的应用程序。我已通读所有说明并进行了大量网络搜索。我的问题是如何在 Xcode 4.2.1 上创建 entitlements.plist 所有
Havind向我的应用程序添加了推送通知,我在上传二进制文件时收到此消息 app signature's entitlements do not include the "aps-environmen
我知道沙箱是在 Mac OS X Lion (10.7) 中引入的,但临时异常权利,特别是 com.apple.security.temporary-exception.files.home-rela
我创建了一个 ios 应用程序,它使用 healthkit 功能将健康相关数据获取到我的 ios 应用程序。嗯,我的应用程序在模拟器和 iPhone 设备上运行良好。但是,当我创建 ios 应用程序的
com.apple.OMC:这是什么?为什么启用它以及如何禁用它? 最佳答案 苹果支付。在这个项目中找到它,它是 Xcode 中 Capabilites 页面上唯一启用的东西:https://gith
我是一名优秀的程序员,十分优秀!