gpt4 book ai didi

java - 数据结构最佳设计(大数据)

转载 作者:行者123 更新时间:2023-12-01 14:50:47 26 4
gpt4 key购买 nike

我有很多页面(5.000.000.000+),我需要构建一个反向链接结构。对于每个页面,我需要提取所有出站链接。

例如获取原始数据。

www.mypage1.com = outbound1, outbound2, outbound3
www.mypage2.com = ouput4, outbound2, outbound1

预期结果。

outbound1=www.mypage1.com,www.mypage2.com
outbound2=www.mypage1.com,www.mypage2.com
outbound3=www.mypage1.com
outbound4=www.mypage2.com

实际上,我正在使用 hadoop 进行映射缩减,并且运行良好。但经过一番分析,我发现有些网址至少有 500mb 的入站链接信息。

5.000.0000.000 页乘以 500 mb 是大量数据......

每个 url 的长度都是 100 字节,所以我的第一个提示是进行某种哈希来减小每个 url 的大小。但这会增加进程的一些开销,因为我们需要一个服务来检索给定 url 的哈希值,反之亦然。

那么,您认为最好的方法是什么?有什么想法吗?

最佳答案

尽管对于单人团队来说这是不切实际的任务,但我可以建议:

  1. 根据“power low”,500mb 将只有很少的链接,其中大多数将有一小堆链接。因此您应该重新估计您的链接分布。
  2. 要压缩链接,您可以对恢复的链接(即 com.google.mail)使用 trie。

关于java - 数据结构最佳设计(大数据),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14879481/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com