python - Urllib Python 没有提供我在检查元素中看到的 html 代码-6ren

python - Urllib Python 没有提供我在检查元素中看到的 html 代码

转载作者：可可西里更新时间：2023-11-01 13:32:40

25

4

我正在尝试抓取此链接中的结果:

url = "http://topsy.com/trackback?url=http%3A%2F%2Fmashable.com%2F2014%2F08%2F27%2Faustralia-retail-evolution-lab-aopen-shopping%2F "

当我用 firebug 检查它时，我可以看到 html 代码，并且我知道我需要做什么来提取推文。问题是当我使用 urlopen 获得响应时，我没有得到相同的 html 代码。我只得到标签。我错过了什么？

示例代码如下:

   def get_tweets(section_url):
     html = urlopen(section_url).read()
     soup = BeautifulSoup(html, "lxml")
     tweets = soup.find("div", "results")
     category_links = [dd.a["href"] for tweet in tweets.findAll("div", "result-tweet")]
     return category_links

url =  "http://topsy.com/trackback?url=http%3A%2F%2Fmashable.com%2F2014%2F08%2F27%2Faustralia-retail-evolution-lab-aopen-shopping%2F"
cat_links = get_tweets(url)

谢谢，YB

最佳答案

问题是 results div 的内容充满了额外的 HTTP 调用和在浏览器端执行的 javascript 代码。 urllib 仅“看到”不包含您需要的数据的初始 HTML 页面。

一种选择是遵循@Himal 的建议并模拟对 trackbacks.js 的底层请求，该请求是为带有推文的数据发送的。结果为 JSON 格式，您可以 load()使用 json标准库自带的模块:

import json
import urllib2

url = 'http://otter.topsy.com/trackbacks.js?url=http%3A%2F%2Fmashable.com%2F2014%2F08%2F27%2Faustralia-retail-evolution-lab-aopen-shopping%2F&infonly=0&call_timestamp=1411090809443&apikey=09C43A9B270A470B8EB8F2946A9369F3'
data = json.load(urllib2.urlopen(url))
for tweet in data['response']['list']:
    print tweet['permalink_url']

打印:

http://twitter.com/Evonomie/status/512179917610835968
http://twitter.com/abs_office/status/512054653723619329
http://twitter.com/TKE_Global/status/511523709677756416
http://twitter.com/trevinocreativo/status/510216232122200064
http://twitter.com/TomCrouser/status/509730668814028800
http://twitter.com/Evonomie/status/509703168062922753
http://twitter.com/peterchaly/status/509592878491136000
http://twitter.com/chandagarwala/status/509540405411840000
http://twitter.com/Ayjay4650/status/509517948747526144
http://twitter.com/Marketingccc/status/509131671900536832

这是“深入金属”选项。

否则，您可以采用“高级”方法，而不必担心幕后发生的事情。让真实的浏览器加载您将通过 selenium WebDriver 与之交互的页面:

from selenium import webdriver

driver = webdriver.Chrome()  # can be Firefox(), PhantomJS() and more
driver.get("http://topsy.com/trackback?url=http%3A%2F%2Fmashable.com%2F2014%2F08%2F27%2Faustralia-retail-evolution-lab-aopen-shopping%2F")

for tweet in driver.find_elements_by_class_name('result-tweet'):
    print tweet.find_element_by_xpath('.//div[@class="media-body"]//ul[@class="inline"]/li//a').get_attribute('href')

driver.close()

打印:

http://twitter.com/Evonomie/status/512179917610835968
http://twitter.com/abs_office/status/512054653723619329
http://twitter.com/TKE_Global/status/511523709677756416
http://twitter.com/trevinocreativo/status/510216232122200064
http://twitter.com/TomCrouser/status/509730668814028800
http://twitter.com/Evonomie/status/509703168062922753
http://twitter.com/peterchaly/status/509592878491136000
http://twitter.com/chandagarwala/status/509540405411840000
http://twitter.com/Ayjay4650/status/509517948747526144
http://twitter.com/Marketingccc/status/509131671900536832

这是您可以缩放第二个选项以获取分页后的所有推文的方式:

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

BASE_URL = 'http://topsy.com/trackback?url=http%3A%2F%2Fmashable.com%2F2014%2F08%2F27%2Faustralia-retail-evolution-lab-aopen-shopping%2F&offset={offset}'

driver = webdriver.Chrome()

# get tweets count
driver.get('http://topsy.com/trackback?url=http%3A%2F%2Fmashable.com%2F2014%2F08%2F27%2Faustralia-retail-evolution-lab-aopen-shopping%2F')
tweets_count = int(driver.find_element_by_xpath('//li[@data-name="all"]/a/span').text)

for x in xrange(0, tweets_count, 10):
    driver.get(BASE_URL.format(offset=x))

    # page header appears in case no more tweets found
    try:
        driver.find_element_by_xpath('//div[@class="page-header"]/h3')
    except NoSuchElementException:
        pass
    else:
        break

    # wait for results
    WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.ID, "results"))
    )

    # get tweets
    for tweet in driver.find_elements_by_class_name('result-tweet'):
        print tweet.find_element_by_xpath('.//div[@class="media-body"]//ul[@class="inline"]/li//a').get_attribute('href')

driver.close()

关于python - Urllib Python 没有提供我在检查元素中看到的 html 代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25924890/

25

4

0

文章推荐： php - Perl 有类似于 PHP 的 constant() 的东西吗？

文章推荐： javascript - 同时滚动多个元素

文章推荐： php - 使用 PHP 动态添加到 .htaccess 文件？

文章推荐： html - "Holy Grail"使用flexbox的三列布局

r - 看到 R 字符串的确切字节序列了吗？
如何获取特定 UTF-8 字符串的字节序列？我看到正则表达式引擎中的某些错误仅在某些边缘情况下才会触发，我想确切地知道它正在处理哪些数据。最佳答案也许 charToRaw ? > charToRa
java - 看到 Java 程序运行时变量值发生变化吗？
考虑一个具有许多变量的 java 程序，其中一些是循环计数器，我希望看到这些变量随时间变化的值，而不是在代码中到处放置 print 语句。为什么？我认为它可以帮助我轻松调试。 Example- in
javascript - 看到 JavaScript 正在创建的线程了吗？
有没有办法查看 JavaScript 正在创建的“线程”？例如，如果我有一个附加到 DOM 元素的事件处理程序，我假设 JavaScript 会隐式地创建一个新线程来在后台运行该代码？如果是这样，有没
java - 看到 InvokingTargetException 异常
我正在使用反射 API 来调用类运行时并调用其方法。但我看到 java.lang.reflect.InitationTargetException 异常。我需要调用一个名为 - TestClass
windows - 命令脚本退出代码未被同一行 && 或 || 看到？
考虑一个名为 t.cmd 的命令脚本，它只包含以下两行: @exit /b 123 @echo If you see this, THEN EXIT FAILED.. 因此，该脚本只是将脚本执行过程的
ruby - 看到 Ruby 的内幕了吗？
我最近一直在努力学习编程语言实用学第 3 版，以了解更多关于语言在底层如何工作的信息，并且通过查看由真正基本的 GCC 编译的 C 代码生成的程序集，我获得了很多进展.我开始对 C 系列的静态语言越来
flash - 如何让 QtWebKit 看到 Flash？
最简单的制作方法是什么QWebView识别并正确加载网页上的 Flash？最佳答案似乎只需两行即可实现(当然，假设目标系统上安装了闪存): QWebSettings *settings = QWe
vba - VBA，Outlook，看到“人民日历”
我想通过编程（使用VBA）访问其他人与我共享的日历。它们在我的Outlook中的“人民日历”下列出。我在网上搜索了此内容，所有建议所做的仅使我感到困惑。如何从“人的日历”中获取共享给我的所有日历的
mongodb-compass - 看到/设置MongoDB Compass用户？
使用MongoDB Compass，可以看到数据库用户或创建新用户吗？最佳答案香港专业教育学院在命令行上使用以下命令进行管理: mongo use (my database name) db.cr
xml - 除非我在oXygen上手动编辑文件，否则eXist-db不会对通过XQuery更新插入添加的新记录进行索引(“看到”)
我正在CentOS 7.4.1708（核心），Java（TM）SE运行时环境（内部版本1.8.0_152-b16）上运行eXist-db 3.6.1。我希望能够在person.xml中的最后一个记录之
sql - 在事务提交之前，在事务中进行的插入是否可以通过 SELECT 看到
我需要确认。客户端 1 在事务内的表中插入行。客户端 2 使用 SELECT 请求该表。如果在此客户端上隔离级别设置为 READ COMMITTED，您能否确认 SELECT 不会返回客户端 1
python - 如何让 Python 看到 librt？
我刚刚安装了 python-dev: $ sudo apt-get install python-dev 这样我就可以开始使用 P4Python 了。但是当我尝试导入 P4 时，我得到: Traceb
c++ - 如何让 libtorrent 看到 boost ？
我正在使用 msys 和 mingw 编译 libtorrent-rasterbar-0.16.16。./configure 运行良好，直到它进入 boost 库检查。我有 boost 1.51，我设
go - Travis 看到 GO 函数的旧签名并且不会构建
我在 GO 项目的 Travis CI 上有一个奇怪的行为。 [这里] 失败了，提示一个函数只接受 1 个参数并用 2 个参数调用。 src/finances-service/main.go:45:1
java - 看到 enum 后对 Java 中的类型声明感到困惑
这个问题已经有答案了: What are enums and why are they useful? (27 个回答) 已关闭 4 年前。作为 Java 初学者，我接触到了枚举，这让我对类型声明感
facebook - 为什么我的 Facebook 个人资料无法从外部(注销时)看到？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 11 年前。 Improve thi
javascript - preactjs 看到 [Object object] 而不是链接
我正在使用 preactjs 创建我的应用程序。最重要的是，我正在使用剑道网格。在网格内，我想显示一个超链接。如果用户点击链接，它应该改变路线。为了呈现链接，我使用了 preact-router。这
node.js - 看到 Node.js 中的函数签名了吗？
有没有办法只查看 Node.js 中的函数签名？我知道 fn.toString() 但不需要所有代码，只需要签名。最佳答案 var source = fn.toString(); var signa
ruby - 让 Vim 看到 RVM ubuntu
如何设置 vim 以查看我在 ubuntu 上安装的 ruby rvm。 rvm 已安装，ruby 从终端返回。 renshaw@renshaw-TravelMate-5740G:~$ ruby
android - 试图防止 OutOfMemoryError 看到 MAT - Android
我试图在我的 Android 应用程序中防止 OutOfMemoryError。我已经阅读了很多帖子，但我仍然无法解决。该应用程序有后台 Activity ，所以我认为这是主要问题。 OutOfMe

首页

博学

6Ren·AI

商城

python - Urllib Python 没有提供我在检查元素中看到的 html 代码