作者热门文章
- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
假设我正在根据各种标准从 Twitter 收集推文,并将这些推文存储在本地 mysql 数据库中。我希望能够计算出 1-3 个单词长度的热门话题,例如 twitter。
有没有可能写一个脚本来做这样的PHP和mysql?
我找到了关于如何计算哪些术语是“热门”术语的答案,一旦您能够获得这些术语的计数,但我停留在第一部分。我应该如何将数据存储在数据库中,如何计算数据库中长度为 1-3 个单词的术语的频率?
最佳答案
我收到的热门话题:
1. 获取推文
2. 按空格将每条推文拆分为 n-gram(如果你想要 3 个单词长度,最多 3 克)数组
3.从url、@username、常用词和垃圾字符中过滤掉每个数组
4.统计所有独特的关键字/词组频率
5. 屏蔽一些垃圾词/短语
是的,你可以在 php 和 mysql 上完成 ;)
关于php - 计算热门话题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2247663/
放弃当前在 Mercurial topic 中不需要的变更集的最佳方法是什么,这些变更集已经被推送并且不能被剥离? 换句话说,是否可以从 hg topics 输出中删除主题而不发布它? 最佳答案 hg
我是一名优秀的程序员,十分优秀!