gpt4 book ai didi

database - 将 Twitter Streaming API 推文原样转储到 Apache Cassandra 进行后期处理

转载 作者:太空狗 更新时间:2023-10-30 01:57:26 24 4
gpt4 key购买 nike

我正在使用 Twitter Streaming API 来监控多个关键字/用户。我打算将从推特直接获取的推文 json 字符串原样转储到 cassandra 数据库,稍后再对它们进行后期处理。

这样的设计实用吗?当我有数百万条推文时,它会扩展吗?

我稍后要做的事情包括获得最受关注的用户、热门主题标签等。我想按原样保存流,以便以后挖掘它们以获取我现在可能不知道的任何新信息。

最佳答案

重要的不是推文的数量,而是它们到达的速度。 Cassandra 每秒可以轻松处理数千次写入,这应该没问题(Twitter 目前每秒总共生成大约 1200 条推文,您可能只会得到其中的一小部分)。

但是,每秒的推文变化很大。在写入量激增之后,您可能会发现范围查询速度有所放缓。请参阅 Cassandra under heavy write load part i 上的 Acunu 博客文章和 part ii对问题和解决方法的一些讨论。

除了存储原始 json 之外,我还会提取一些您几乎肯定需要的常用功能,例如用户 ID 和主题标签,并将它们分开存储。这将为您以后节省大量处理工作。

另一个需要考虑的因素是规划存储的数据将如何随时间增长。 Cassandra 可以很好地扩展,但是您需要制定一个策略来确定如何在整个集群中保持负载平衡以及如何随着数据库的增长添加节点。如果您没有提前计划好如何为新节点分配代币,那么添加节点可能会是一个痛苦的经历。等到节点过载后再添加新节点是让集群崩溃的好方法。

关于database - 将 Twitter Streaming API 推文原样转储到 Apache Cassandra 进行后期处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7135131/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com