python - 无法准确抓取google新闻-6ren

python - 无法准确抓取google新闻

转载作者：太空宇宙更新时间：2023-11-03 18:03:04

25

4

我正在尝试抓取给定关键字(例如 Blackrock)在给定时间段(例如 2012 年 1 月 7 日至 2012 年 1 月 14 日)的 Google 头条新闻。我试图通过构造 url 然后使用 urllib2 来实现此目的，如下面的代码所示。如果我将构建的网址放入浏览器中，它会给出正确的结果。然而，如果我通过 python 使用它，我会得到当前时期正确关键字的新闻结果。这是代码。有人可以告诉我我做错了什么以及如何纠正它吗？

import urllib
import urllib2
import json
from bs4 import BeautifulSoup
import requests

url = 'https://www.google.com/search?q=Blackrock&hl=en&gl=uk&authuser=0&source=lnt&tbs=cdr%3A1%2Ccd_min%3A7%2F1%2F2012%2Ccd_max%3A14%2F1%2F2012&tbm=nws'


req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3 Gecko/2008092417 Firefox/3.0.3')
response = urllib2.urlopen(req)


html = response.read()
soup = BeautifulSoup(html)

text = soup.text

start = text.index('000 results')+11
end = text.index('NextThe selection')
text = text[start:end]
print text

最佳答案

问题出在你的用户代理上，它对我有用:

req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36')

您正在使用 Firefox 3 的用户代理，该代理已有大约 6 年的历史。

关于python - 无法准确抓取google新闻，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27360315/

25

4

0

文章推荐： python - 以十六进制格式写入Python数字

文章推荐： arrays - 未定义的方法 ruby

文章推荐： ruby-on-rails - 有几个元素的数组要用条件散列

文章推荐： python - 将贝塞尔函数与 2 个变量积分

algorithm - 如何(准确)估计剩余下载时间？
当然，您可以将剩余文件大小除以当前下载速度，但如果您的下载速度波动(而且它会波动)，这不会产生很好的结果。有什么更好的算法可以产生更平滑的倒计时？最佳答案安exponential moving a
image - 准确(且快速)的角度匹配
对于一个业余项目，我正在尝试对齐照片并创建 3D 图片。我基本上在一个钻机上有 2 个相机，我用来拍照。我会自动尝试以您获得 3D SBS 图像的方式对齐图像。它们是高分辨率图像，这意味着需要处理大
algorithm - 如何(准确)估计剩余下载时间？
当然，您可以将剩余的文件大小除以当前的下载速度，但如果您的下载速度波动(而且会波动)，这不会产生很好的结果。什么是产生更平滑倒计时的更好算法？最佳答案安exponential moving ave
machine-learning - 机器学习中训练数据的标记可能不是 100% 准确
我有一个数据集，其中包含患有糖尿病和未患有糖尿病的人。我想使用这些数据训练一个模型来计算糖尿病状况未知的人的风险概率。我知道在培训中没有被诊断出糖尿病的人大多数都没有糖尿病，但很可能其中一些人可能患有
Swift - 即使 objectId 准确，自定义对象仍未找到
let parent = path[row-1] let child = path[row] let indexOfChild = matrix[parent.obje
javascript - Element.getBoundingClientRect 何时保证更新/准确？
我正在编写一些使用 Element.getBoundingClientRect 的代码(gBCR)，加上内联样式更新，以执行计算。这不适用于一般网站，我不关心或不感兴趣是否有“更好的 CSS 方式”
python - 从 csv 文件中删除不需要的值的快速、准确、可靠的方法
我有一个很大的 csv 文件，其中包含大量脏数据，我想通过消除所有不是绝对必要的值来稍微清理一下它。 Here是我正在谈论的文件。它有以下组件: 网站,标题,开始日期,开始日期,雇主,地点,纬度,
java - Windows 上的 Java 准确 sleep
有谁知道一个库，它为 Java 提供了一个错误不高于 1-2 毫秒的 Thread.sleep()？我尝试了 sleep 、错误测量和 BusyWait 的混合，但在不同的 Windows 机器上我
javascript - (准确)从用户输入获取时间的首选方法(在 UiApp - GAS 中)
UiApp有DateBox和 DateTimeFormat 对于那个类(class)。但是，不存在诸如 TimePicker 或 TimeBox 这样的东西，用户可以通过明确指定的方式(例如通过使用
python - mnist 数据集的 SVM 是否 100% 准确？
因此，我使用 sklearn 的 svm.SVC 模块编写了一个程序来学习 mnist 数据集，出于某种原因，每当我计算其准确性为 100% 时。这似乎好得令人难以置信，这是预期的吗？ from sk
python - 为什么 gpytorch 似乎不如 scikit-learn 准确？
我当前找到了 gpytorch ( https://github.com/cornellius-gp/gpytorch )。它似乎是将 GPR 集成到 pytorch 中的一个很棒的包。第一次测试也呈
c++ - 转到不同网站后如何获得完整(准确)的 Url/QUrl 地址？
我正在使用 QT Creator 5.9 创建一个简单的 Web 浏览器模型，我的 EditLine/Text Box 有问题: 1.如何在转到不同的网站/页面后自动更新显示的 URL 字符串。 2。
c++ - 为什么 long int 不是 100% 准确？
我在 Linux 上尝试 time -p 命令，我写了一些代码来浪费 CPU 周期: #include using namespace std; int main() { long int c;
java - 准确(方位角)罗盘方向 Android 3.2 平板电脑
亲爱的程序员/脚本编写者/工程师/其他人，问题:我目前正在为 Android 3.2 平板电脑开发增强现实应用程序，但在获取准确的罗盘读数方面遇到一些问题。我需要确切地知道平板电脑所面向的 (z)
apache-spark - Apache Spark 是否不如 Scikit Learn 准确？
我最近一直在尝试了解 Apache Spark 作为 Scikit Learn 的替代品，但在我看来，即使在简单的情况下，Scikit 收敛到准确模型的速度也远远快于 Spark。例如，我使用以下脚本
http - 如果我检查 "content-length" header ，它是否 100% 准确？
如果不是，它的准确性如何？我想在下载之前知道图片的大小。最佳答案 HTTP Content-length header 是否格式错误？是的。您是否应该相信它能公平地表示消息正文的大小？是的。关
machine-learning - 一元词和二元词 (tf-idf) 不如二元词 (ff-idf) 准确？
这是一个关于 ngram 线性回归的问题，使用 Tf-IDF(术语频率 - 逆文档频率)。为此，我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。使用一元语法时，我有 53 个案例和 6
objective-c - *准确*计算 Cocoa 中的文本高度(适用于 Mac，不适用于 iOS)
对于某些给定的固定宽度，如何计算特定标签 (NSTextField) 中字符串的高度？我用谷歌搜索了各种方法并尝试了 this method from Apple .它的工作原理，除了高度变成一行对

首页

博学

6Ren·AI

商城

python - 无法准确抓取google新闻