- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想在我的数据库中存储所有 en.wikipedia 文章的列表。我想为每篇文章存储 pageid、标题和受欢迎程度。我考虑过使用观看次数(上个月)作为受欢迎程度的衡量标准,但如果这不可能,我可以想象做其他事情(也许使用修订次数)。我知道 http://dumps.wikimedia.org/enwiki/latest/并且我可以从那里获得完整的文章列表(当前计数 36508337)。但是,我找不到一种聪明的方法来获取每篇文章的浏览量。
//更新、编辑、...建议的副本对我没有帮助,因为a) 我正在寻找受欢迎程度的衡量标准。其他问题的答案只是说明无法获得页面的观察者数量,这对我来说很好。b) 那里没有给我每个页面的页面浏览量(或任何其他指标)的答案。
最佳答案
好的,我终于完成了。这是我所做的:
我找到了 http://dumps.wikimedia.org/other/pagecounts-ez/每月提供页面浏览量。这看起来很有希望,但他们没有提到 pageid,所以我正在做的是从 http://dumps.wikimedia.org/enwiki/latest/ 获取所有文章的列表。 , 创建一个映射 name->pageid 然后解析 pagecount 转储。这大约需要 30 分钟,以下是一些统计数据:
页数文件中 68% 的文章在最新转储中不存在。这可能是由于一些用户链接,例如 Misfits_(TV_series) 而其他链接到 Misfits_(tv_series) 甚至 Misfits_%28TV_series%29 之类的东西......我没有理会这些,因为我的程序已经花了足够长的时间来运行。
前 3 个页面是:
2.1。首页浏览量6.39亿(上月)
2.2。具有 850 万次浏览量的恶意软件
2.3。猎鹰 9 v1.1 浏览量 470 万(酷!)
我制作了具有特定浏览量的页面数量的直方图,如下所示:
我还绘制了当我忽略低于特定查看次数的所有文章时必须处理的页面数。这是:
关于postgresql - 每篇维基百科文章的受欢迎程度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31008143/
我是一名优秀的程序员,十分优秀!