- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我每天都有报纸文章的语料库。语料库中的每个单词都有当天出现的频率计数。我一直在尝试寻找一种算法来捕获中断词,类似于 Twitter 衡量人们推文趋势的方式。
例如,假设“经济衰退”一词在同一组报纸中出现的频率如下:
第 1 天 |经济衰退 | 456
第 2 天 |经济衰退 | 2134
第 3 天 |经济衰退 | 3678
虽然“欧洲”
第 1 天 |欧洲 | 67895
第 2 天 |欧洲 | 71999
第 3 天 |欧洲 | 73321
我正在考虑将每天的增长百分比乘以频率总和的对数。然后我会取平均来打分并比较各种单词。
在这种情况下:
经济衰退 = (3.68*8.74+0.72*8.74)/2 = 19.23
欧洲 = (0.06*12.27+0.02*12.27)/2 = 0.49
有没有更好的方法来捕捉爆炸式增长?我正在尝试挖掘每日语料库以查找在特定时间段内越来越多地提及的术语。请让我知道是否有更好的算法。我希望能够找到具有高非恒定加速度的单词。也许采用二阶导数会更有效。或者,也许我让这种方式太复杂了,并且在发现 channel 上看了太多物理节目。如果可能的话,请通过数学示例告诉我谢谢!
最佳答案
首先要注意的是,这可以通过局部问题来近似。也就是说,一个“趋势”一词实际上只取决于最近的数据。因此,我们可以立即将数据截断到最近的 N
天,其中 N
是一些通过实验确定的最佳值。这显着减少了我们必须查看的数据量。
事实上,NPR article建议这个。
然后您需要以某种方式看待增长。而这正是衍生品所捕捉到的。首先要做的是规范化数据。将所有数据点除以第一个数据点的值。这使得不常用词的大幅增长不会被流行词相对较小的增长所淹没。
对于一阶导数,做这样的事情:
d[i] = (data[i] - data[i+k])/k
对于一些实验确定的 k
值(在这种情况下,它是天数)。同理,二阶导数可表示为:
d2[i] = (data[i] - 2*data[i+k] + data[i+2k])/(2k)
高阶导数也可以这样表示。然后你需要为这些衍生品分配某种加权系统。这是一个纯粹的实验过程,实际上取决于您要考虑“趋势”的内容。例如,您可能希望为增长加速度赋予速度一半的权重。另一件需要注意的事情是,你应该尽量从你的数据中去除噪音,因为衍生品对噪音非常敏感。您可以通过仔细选择 k
的值并完全丢弃频率非常低的词来做到这一点。
我还注意到您乘以频率的对数和。我想这是为了给流行词的增长更多的权重(因为更流行的词首先不太可能成为趋势)。衡量一个词流行程度的标准方法是查看它的 inverse document frequency。 (以色列国防军)。
我会除以一个词的 IDF,以赋予更受欢迎的词更大的增长权重。
IDF[word] = log(D/(df[word))
其中 D
是文档总数(例如,对于 Twitter,它将是推文的总数)而 df[word]
是包含 word
(例如,包含一个词的推文数量)。
高 IDF 对应一个不受欢迎的词,而低 IDF 对应一个流行词。
关于algorithm - 我如何衡量某些词的趋势,比如 Twitter?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8482800/
用户使用 oauth 登录我的应用程序,注销我的应用程序后,但 twitter 无法执行,问题是用户 twitter 帐户处于事件状态。 当注销我的应用程序的同时注销 Twitter twitter
我在 Twitter 的文本查询字符串参数方面遇到了一些字符编码问题。 a) http://www.twitter.com/share?url=http://www.example.com&text=
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在尝试执行3-legged authorization来在浏览器中调用Twitter API。该过程首先通过将签名的请求发布到 /oauth/request_token 来获得请求 token (
我正在做一个项目来识别用户是否是 Twitter 中的名人。有什么方法可以检查 Twitter 中的用户是否被验证为名人?我知道名人会在推特个人资料中用蓝色徽章来识别。但是我如何通过 Twitter
我想对推文进行一些挖掘。是否有更具体的推文停用词列表,例如删除“lol”和其他推特笑脸? 最佳答案 我想你应该合并普通的停用词列表,例如 this one或that ,带有特定的首字母缩略词词典,例如
我正在为我的期末项目建立一个网站,用于查找和显示 Twitter 上当前 HitTest 门的主题。有谁知道如何从上周或一天内的大量推文中提取主题?我还想知道如何在 http://tweet3d.co
我可以使用获取所有用户的详细信息 https://api.twitter.com/1/account/verify_credentials.json 但我只想通过使用 api 获取 ID 如何获得它。
我见过多个“允许此应用程序与 twitter 一起运行”的内容,但没有一个: 查看您的 Twitter 密码 在“此应用程序将能够”下 示例: 最佳答案 没有 Twitter 永远不会允许人们看到您的
我注意到最近的一些推文有与之相关的媒体,例如来自 TwitPic 或 Flickr 的照片以及来自 Youtube 的视频。你可以直接在 Twitter 网站上看到它们,所以它不仅仅是一个链接。我的想
在 Twitter API 中,有一个 status_lookup 方法可以“水化”推文。文档不清楚这意味着什么。那么我什么时候需要补充推文呢? 如果我有来自 /statuses/user_timel
我使用以下代码来显示一个带有已填充消息的 Twitter 框的页面: Click me 但是,在页面上,我在 Twitter 框中得到了这个: myMessage/ 注意结尾的斜杠。有什么想法可以解决
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 7 年前。 Improve
在开发包含 Twitter 客户端的 iOS 应用程序时,我必须允许用户生成主题标签(可以在应用程序内的其他位置创建,而不仅仅是在推文正文中创建)。 我想确保任何此类主题标签对于 Twitter 都有
我是集群新手,之前刚刚实现了一些算法。我需要根据推文的相似性对推文进行聚类。一种方法是仅使用哈希标签,但我认为这不会提供那么多信息。因此应该分析完整的推文。 此外,我还在网上搜索聚类提要的算法。 我遇
我想在 ios 7 中集成 twitter 并希望实现以下功能。1. 从 iOS 应用程序使用 Twitter 登录。2. 获取用户资料信息 我尝试了几个解决方案,但没有一个对我有用。请帮忙。 最佳答
是否有任何方法可以使用用户 ID 或屏幕名称构建个人资料图像 URL?我将用户 ID 存储在数据库中,但我不想存储个人资料图像 url。 编辑: 我也不想进行 api 调用。我想将 user_id 放
在 iOS5 上,是否可以提示用户并将其引导至 Twitter Settings.app 区域,以便他们可以将自己的 Twitter 帐户添加到手机中?如果是,你是怎么做到的? 作为解决方法,我可以指
有许多网站为 Twitter 提供附加服务: hashtags.org tweetmeme.com repeets.com dailyrt.com backtweets.com 他们都有一个共同点:他
我正在使用 Twitter Bootstrap 并尝试使用背景打印页面。 我尝试了网络浏览器中的所有选项,但它不起作用。 如果我不包括 twitter bootstrap,则背景的打印效果很好。 (顺
我是一名优秀的程序员,十分优秀!