gpt4 book ai didi

javascript - 如何使用 python 从 javascript 生成的页面中抓取文本?

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:58:32 25 4
gpt4 key购买 nike

我正在寻找一种在 Linux 上编写脚本的方法,该脚本从 Javascript 生成的页面中抓取文本(特别是 etherpad 例如 http://www.board.net )。理想情况下,我想使用现有的工具,但我还没有找到合适的工具(例如 lynx,但它不支持 javascript,或 Selenium,但它在浏览器中运行)。欢迎提出建议。

如果没有合适的东西(对于这样一个简单的需求来说这似乎令人惊讶),也许我可以自己用 Python 写一些东西。有哪些有用的 Python 类可用于此类操作?

最佳答案

一个选择是仍然坚持使用 Selenium , 但使用 headless PhantomJS .

另见:

示例(使用 firefox webdriver):

from selenium import webdriver

url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)

element = driver.find_element_by_id('padcontent')
print element.text

打印:

Here is some text I'd like to scrape
I wonder how to go about it?

关于javascript - 如何使用 python 从 javascript 生成的页面中抓取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23137028/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com