gpt4 book ai didi

amazon-web-services - Logstash并从关系表中查找其他数据?

转载 作者:行者123 更新时间:2023-12-03 00:49:41 27 4
gpt4 key购买 nike

我每天都会发布移动应用日志数据(最终将是数据流)。我正在寻找用于处理此日志数据和提供分析的不同解决方案。我正在考虑使用Logstash / elasticsearch / kibana组合,但是我们在Redshift数据库中存储了有关用户的其他数据。因此,除了移动数据外,我还想在与移动应用进行交互时从redshift中获取有关用户的其他数据。

但是,我在某些地方读到,通过logstash进行实际的数据库查询是不可行的,但是您可以使用字典文件对每个用户进行查找。

关于此方法,我有两个问题

  • 此查找文件可以有很大的限制吗?我的记录会少于50万,所以我想这会很好吗?
  • 是否可以完全自动地从redshift表制作查找文件的过程(理想情况下是通过aws服务)-即每天晚上将查找表刷新并发布到logstash,然后用于Kibana中的分组讨论

  • 我们目前正在使用的方法是使用lambda函数处理每日的jason文件,将其发布到s3,然后将其读取到redshift表中。然后,将这些数据处理为 session ,并与其他表合并以生成最终的数据集以用于可视化。目前,这是在Tableau中完成的,但我们正在探索其他选项(例如快速见解,或者可能是ELK堆栈)

    只是想弄清楚哪种解决方案可扩展到点击流数据,这将是最有用的方法。

    谢谢!

    最佳答案

    logstash 7有一个jdbc_streaming过滤器插件,用于将事件动态添加到事件中;还有jdbc_static过滤器,用于静态事件。

    如您所见,您还可以使用translate过滤器。手册页上说,他们已经测试了多达100,000个条目的“大型”数据集,因此您的数据集可能需要进行一些测试。关于此过滤器的好处在于,它会在检测到更改时重新加载数据,因此您可以按自己的时间表(例如cron)发布数据,而无需重新启动logstash。请注意未获得转换值的事件,这可能表明您的发布频率应被更新。

    关于amazon-web-services - Logstash并从关系表中查找其他数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55716893/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com