gpt4 book ai didi

web-crawler - 分类网站

转载 作者:行者123 更新时间:2023-12-05 01:35:06 25 4
gpt4 key购买 nike

我需要抓取一千个共享相同结构的网站:它们都有一个菜单、一个标题、一些文本和一个评级,很像一个博客。不幸的是,它们的编码也非常不同,有些是手动的,所以我不能重新利用 CSS 选择器,甚至可能不依赖它们。

我想知道如何自动对它们进行分类并保存我剩下的头发。我的第一个猜测是使用 lynx 或其他文本浏览器来获取一些文本 block 并根据它们的大小对它们进行分类。

您知道更好或更复杂的方法吗?

谢谢!

最佳答案

查看http://code.google.com/p/boilerpipe/反汇编页面。

关于分类,也许可以查看 mahout.apache.org。

关于web-crawler - 分类网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5158507/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com