gpt4 book ai didi

java - 在 Java 中存储 Web 爬虫的 URI 的最有效的数据结构

转载 作者:行者123 更新时间:2023-12-01 05:06:50 25 4
gpt4 key购买 nike

我正在构建一个网络爬虫,我已经实现了解析部分。现在我想将获得的URI存储到一个高效的数据结构中。我应该用什么?我正在使用 Jena 库进行解析。

最佳答案

哈希值。

例如:URL:scheme://domain:port/path?query_string#fragment_id。

将 URL 解析为字符串后,将 URL 存储为:

哈希['方案'] = 方案;

哈希['域'] = 域;

哈希['端口'] = 端口;

哈希['路径'] = 路径;

哈希['query_string'] = query_string;

哈希['fragment_id'] =fragment_id;

关于java - 在 Java 中存储 Web 爬虫的 URI 的最有效的数据结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12546396/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com