gpt4 book ai didi

python - driver.page_source 使用 Selenium 仅返回元名称 ="ROBOTS"内容 ="NOINDEX, NOFOLLOW"

转载 作者:行者123 更新时间:2023-12-01 07:22:23 26 4
gpt4 key购买 nike

我想抓取一个网站,以使用以下代码获取页面内容:

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
driver = webdriver.Remote("http://adress:4444/wd/hub", DesiredCapabilities.CHROME)
link = 'website_url'
driver.get(link)
s = driver.page_source
print((s.encode("utf-8")))
driver.quit()

这是收到的:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

我也尝试了很多不同的方法,Luminati,代理newipnow,phantomjs,但不起作用,有什么建议我还能尝试解决这个问题吗?

最佳答案

<meta name="ROBOTS" content="value">

此元标记向不同的搜索引擎传达它们在特定页面上允许和不允许执行的操作。此元标记可以放置在<head>内的任何位置。和</head>标签。

注意::如<meta>标签不具有站点范围的效果,它可以在同一网站的不同页面上包含不同的值。

有效的是:

  • Index (默认值)
  • Noindex
  • None
  • Follow
  • Nofollow
  • Noarchive
  • Nosnippet

这些值也可以组合起来形成所需的有效元机器人标签。

示例:

  • <meta name="robots" content="noindex" />
  • <meta name="robots" content="index,follow" />
  • <meta name="robots" content="index,follow,noarchive" />
<小时/>

content="NOINDEX, NOFOLLOW"

NOINDEX值传达搜索引擎索引该页面,因此该页面不应显示在搜索结果中。 NOFOLLOW值(value)传达给搜索引擎NOT关注或发现此页面链接到的页面。

网络开发人员在开发网站上添加 NOINDEXNOFOLLOW 元机器人标签,因此搜索引擎意外地不会开始向仍在 build 中的网站发送流量.

<小时/>

你为什么看到?

原因可能是以下任一原因:

  • 您正在尝试在开发环境中执行自动测试
  • 开发团队无意中将此标签添加到实际网站中。
  • 开发团队忘记在上线后将其从上线网站中删除。
<小时/>

引用

What is the meaning of the meta name "robots" tag

<小时/>

片尾

Using the robots meta tag

关于python - driver.page_source 使用 Selenium 仅返回元名称 ="ROBOTS"内容 ="NOINDEX, NOFOLLOW",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57638195/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com