gpt4 book ai didi

algorithm - 在大文件中查找点击率最高的 url

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:25:39 25 4
gpt4 key购买 nike

我正在阅读 this Yelp interview on Glassdoor

“我们有一个相当大的日志文件,大约 5GB。日志文件的每一行都包含一个用户在我们网站上访问过的 url。我们想找出用户访问最多的 100 个 url 是什么。”

解决方案之一是

猫日志 |排序 | uniq-c |排序-k2n |头 100

谁能给我解释一下第二种排序(sort -k2n)的目的是什么?

谢谢!

最佳答案

看起来这些阶段是:

1) 将日志文件放入过滤器

2) 将相同的文件名放在一起

3) 统计每个不同文件名出现的次数

4) 按出现次数对(文件名、出现次数)进行排序

5) 打印出 100 个更常见的文件名

关于algorithm - 在大文件中查找点击率最高的 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26209945/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com