gpt4 book ai didi

r - 在大型访问日志(〜30Gb)中检测可疑/机器人IP地址

转载 作者:行者123 更新时间:2023-12-02 21:33:21 25 4
gpt4 key购买 nike

我的访问日志很大(〜30Gb),我正在寻找查找可疑/机器人IP地址的方法。当然,我们可以用(IP + User_Agent)代替IP。所以我的问题是:

  • 查找从任何IP
  • 完成的平均请求数
  • 查找发出比平均请求更多的IP地址(请参阅上一点)
  • 查找在
  • 一天中有规律地(例如每小时)进行请求的IP地址
  • 您关于如何检测机器人
  • 的建议

    该日志相当大,我认为R lang无法对其进行处理。我应该在R后面使用某种类型的存储(hadoop或类似的东西)吗?我绝对没有处理/分析大数据的经验,因此任何想法,建议和评论/文章都值得赞赏。

    最佳答案

    访问日志可能包含很多数据,根据您的问题,您可能不需要这些数据,如果您只关心请求时间和原始IP,则可以通过在读取之前从输入中提取“列”来轻松减少数据大小它放入R,一些标准的命令行工具(例如cut或awk)就可以解决问题。
    如果您想保留更多详细信息,另一种选择是将访问日志加载到数据库中并用于进一步处理,对于数据库来说30GB并不多,但这当然意味着一些额外的工作:设计datbase模式和一个在数据库中加载数据的方法。

    关于r - 在大型访问日志(〜30Gb)中检测可疑/机器人IP地址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33456277/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com