gpt4 book ai didi

php - Python 从搜索结果中抓取链接

转载 作者:行者123 更新时间:2023-12-01 04:23:45 25 4
gpt4 key购买 nike

我正在尝试使用 Python 从新闻网站的关键字搜索中生成/检索新闻链接列表。对于谷歌搜索,我知道一些用途 requests ,但是虽然 Google 搜索页面有自己的链接地址(即 https://www.google.dz/search?q=keyword ),但有些网站并不通过网址传输关键字。

首先 - 例如,在 http://english.hani.co.kr/ 中,用户被引导至搜索结果页面http://search.hani.co.kr/Search包含链接列表,无论他们输入哪个关键字( Korea Times 是另一个示例)。这样的话,还可以使用Python库来提取那些链接吗?

第二 - 在前两个和许多其他情况下(例如 this ),搜索结果显示在多达数百个页面中。我应该使用哪些工具和技术来生成完整的新闻链接列表?

最佳答案

There are two basic tasks that are used to scrape web sites:

  • Load a web page to a string.
  • Parse HTML from a web page to locate the interesting bits.

您可以查看更多详细操作方法here .

因此,一些搜索引擎使用 GET 进行搜索,而其他搜索引擎则使用 POST 方法。对于那些使用 POST 方法的人来说,独特的方法是进行搜索(不是通过 url)并获取 html 结果进行分析。

两种方式(GET 和 POST)您都可以使用beautifulsoup

关于php - Python 从搜索结果中抓取链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33388578/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com