gpt4 book ai didi

linux - bash脚本: word occurrences in web sites

转载 作者:太空宇宙 更新时间:2023-11-04 04:35:17 25 4
gpt4 key购买 nike

我需要制作一个脚本来计算网页上单词出现的次数

我正在做的是计算随机IP(避免多次检查相同的IP),使用nmap查看端口80是否打开以了解它是否是Web服务器,然后使用w3m将http页面作为文件。很容易统计单词出现次数

我有一些疑问和问题

  • 这个过程需要很多时间,但我想不出有什么方法可以让它更快
  • 许多开放 80 端口的 IP 都不是网站,它们没有启动,并且可能存在一些问题,有什么方法可以仅检查已启动的网站吗?
  • 此方法仅检查网站索引页面中的单词出现情况,有没有办法也检查其他公共(public)页面?

非常感谢

最佳答案

我用 awk 做了类似的事情。 Awk 对于文本解析来说非常棒。我所做的是分析 Apache 日志中每个 IP 地址完成了多少次 HTTP GET。因此,像您这样的机器人很容易出现在我的统计数据中:P 使用 awk,我已经超越了我所有同事在 PHP、Ruby 和 bash 脚本中提出的所有解决方案。

问题是您没有生成每个文件(或页面)的统计信息。你正在总结所有结果,对吗?因此,我会使用 SQLite 来跟踪某个单词在所有扫描文本中出现的次数。使用 shell 脚本在 SQLite 中添加数据非常简单(而且快速)。

此外,您还应该使用 wget --spider 或其他蜘蛛 HTTP 客户端,因为它们不仅会从索引页下载内容,还会从首页中包含链接 (HREF) 的所有页面下载内容。因此您可以递归地扫描网站。

关于linux - bash脚本: word occurrences in web sites,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11804318/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com