gpt4 book ai didi

web-crawler - 如何抓取网页?

转载 作者:行者123 更新时间:2023-12-02 05:29:04 26 4
gpt4 key购买 nike

我是网络爬虫的初学者。我正在尝试抓取一个页面,例如这个页面: http://shopping.yahoo.com/search;_ylt=AkzLiLhD9_ulIJy.SYsw9T0bFt0A?p=video&did=0

我需要提取搜索结果,例如:Amazon.com 或 antonline.com。任何人都可以帮助我命名一些可以帮助我实现这一目标的技术、工具和软件吗?

编辑:我必须使用 Java。

最佳答案

基本上这个想法是在浏览器开发工具(Chrome 或 Firebug)中检查页面。尝试查找特殊 ID 或类。在您的页面上这是 <ul class='hproducts'>有一个列表 <li class='hproduct'>用那个!

然后您进行调用并获得响应并解析它。 (Google 的 DOM、SAX、XPath...)这在语言和库之间非常不同。例如,在 Java 上,我们有 JSoup 库,它可以获取 html(在这种情况下它与 xml 有点不同,呵呵)并以方便的方式解析它。

或者更好地谷歌他们的 API ;)

关于web-crawler - 如何抓取网页?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12656549/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com