python - 希望每天抓取网站并设置警报-6ren

python - 希望每天抓取网站并设置警报

转载作者：太空宇宙更新时间：2023-11-03 11:05:22

28

4

我需要运行一个每天抓取以下站点的脚本(当脚本运行时，它会抓取当天的日历)(相当于单击“每日”按钮)

http://www.fxempire.com/economic-calendar/

我想提取特定日期的所有日期数据/事件，并过滤相关货币(如果适用)，然后创建某种警报或在每个事件发生前 10 分钟弹出.

到目前为止，我正在使用以下代码抓取网页，然后查看/打印变量“html”，但找不到我需要的日历信息。

import sys  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  



class Render(QWebPage):  
  def __init__(self, url):  
    self.app = QApplication(sys.argv)  
    QWebPage.__init__(self)  
    self.loadFinished.connect(self._loadFinished)  
    self.mainFrame().load(QUrl(url))  
    self.app.exec_()  

  def _loadFinished(self, result):  
    self.frame = self.mainFrame()  
    self.app.quit()  

url = 'http://www.fxempire.com/economic-calendar/'  
r = Render(url)  
html = r.frame.toHtml()

最佳答案

在我看来，从网页中抓取数据的最佳方式是使用 BeautifulSoup .这是一个快速脚本，可以获取您想要的数据。

import re
from urllib2 import urlopen
from bs4 import BeautifulSoup


# Get a file-like object using urllib2.urlopen
url = 'http://ecal.forexpros.com/e_cal.php?duration=daily'
html = urlopen(url)

# BS accepts a lot of different data types, so you don't have to do e.g.
# urlopen(url).read(). It accepts file-like objects, so we'll just send in html
# as a parameter.
soup = BeautifulSoup(html)

# Loop over all <tr> elements with class 'ec_bg1_tr' or 'ec_bg2_tr'
for tr in soup.find_all('tr', {'class': re.compile('ec_bg[12]_tr')}):
    # Find the event, currency and actual price by looking up <td> elements
    # with class names.
    event = tr.find('td', {'class': 'ec_td_event'}).text
    currency = tr.find('td', {'class': 'ec_td_currency'}).text
    actual = tr.find('td', {'class': 'ec_td_actual'}).text

    # The returned strings which are returned are unicode, so to print them,
    # we need to use a unicode string.
    print u'{:3}\t{:6}\t{}'.format(currency, actual, event)

为了给您一些将来如何解决此类问题的提示，我记下了解决您的问题时使用的步骤。希望对您有所帮助。

我在 Chrome 中打开网页，右键单击并选择 Inspect Element .
找到 iframe通过查看元素选项卡中的信息，然后打开该 url。
也检查了这个页面，发现所有包含数据的元素都是 <tr>元素，并拥有类 ec_bg1_tr或 ec_bg2_tr .
我从早先遇到的 BS 知道它可以找到所有 tr类 ec_bg1_tr 的元素通过使用 soup.find_all('tr', {'class': 'ec_bg1_tr'}) .我最初的想法是首先遍历这些元素，然后遍历 ec_bg2_tr。元素。
然后我想也许 BS 足够聪明，可以接受正则表达式作为输入，所以我检查了他们的 docs ，这似乎不成问题。
按照文档中的方法，我尝试使用简单的正则表达式“ec_bg_[12]_tr”。
快跑!

关于python - 希望每天抓取网站并设置警报，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21002712/

28

4

0

文章推荐： c# - 我如何以最快的方式检查网络连接？

文章推荐：此类内容的 MySQL 结构？

文章推荐： c# - 仅为特定操作系统版本加载样式

文章推荐： C# 字体显示 OpenGL

c - (希望)我的刽子手游戏的最后一个循环，
对于我不断地用刽子手问题来打扰这个论坛，我深表歉意。我希望很快就能完成这件事。确实在这方面一直在努力。这是到目前为止我的代码: #include #include #include #defin
.net - 希望 .NET 泛型可以继承其中一种泛型参数类型的充分理由是什么？
这篇文章是 this one 的延续. 我试图了解我是否是唯一一个错过并需要 .NET 泛型类型继承其泛型参数类型之一的能力的人。面临的挑战是收集支持此功能的令人信服的理由，或者，要知道没有。我给
javascript - 希望 javascript 倒计时即使在刷新后也能从原来的位置继续
我正在使用下面的代码设计一个 3 小时的 JavaScript 倒计时 var count = 10800; var counter = setInterval(timer, 1000); //1
javascript - 希望 html 模式属性在不点击提交按钮的情况下工作
我正在处理验证并放置一个 html 模式属性，并希望在不点击保存/提交按钮的情况下查看错误消息。当我在字段外单击时，它应该根据我的模式条件进行验证。这是我的代码: Extra Credit Da
mysql - 希望 SELECT 在一行中返回多个值
我有一个像这样的 mysql 表结构: id int primary key name varchar start_time float 数据可能是这样的: id name
html - 希望 DIV 在桌面上堆叠但在移动设备上彼此相邻
我试图在桌面上保留一张带有描述的图片，然后在移动设备上希望图片在左边，描述在右边……更多的是尽可能让所有内容都在首屏。我希望桌面上的 DIV 是: 一个一个 BBB 但是在手机上: A B A B
css - 希望 CSS 列重叠
我通过 Stackoverflow 进行了搜索，发现很多人试图避免 CSS 列中的重叠，但实际上我被要求让文本和图像重叠。更新: 更好的图像解释了我被要求做的事情，以及指向我正在使用的代码的链接。谢
swift - 为什么这不像我期望(希望)的那样表现？
我在我的框架中设置了几个协议(protocol)来处理资源。在其中一个协议(protocol)中，我设置了一个扩展来为 decode 函数提供默认实现。显示代码和发生的情况更简单(请参阅对 fatal
javascript - 希望 div 在加载上面的图像后立即加载
我想同时加载，或者在上面的图像之后立即加载。它会在图像和标题 div 在预加载器内旋转之前不断加载 - 不好!这是 HTML: ✕ Various inv
Java - 希望 getKeyCode 仅注册一次
我目前正在开发一个小游戏。我使用 getKeyCode 来移动我的角色，但问题是我不希望你在按住按钮的情况下能够继续移动。无论如何，我是否可以使用 getKeyCode 仅在第一次单击时注册，然后在释
css 希望 p 在设置时的宽度小于最大宽度
我需要设置 width 或 max-width 才能让 margin:auto 工作，对吗？ Like in this jsFiddle . 问题是，段落宽度等于 max-width，因此文本 blo
php - 希望 Paypal 订阅按钮在重定向付款之前向我提交页面中的表单
您好，我在同一页面上有一个表单和一个 Paypal 订阅按钮。在重定向到 Paypal 付款之前，我想在单击提交表单(通过电子邮件发送给我)时订阅按钮。 > >
android - 希望 textview 像单击按钮一样通过单击更改颜色
我想让用户在点击一个文本字段时感觉就像我们点击一个按钮，在释放按钮后它会在很短的时间内变成橙色，然后闪烁并再次变成它的第一种颜色。当我点击它时它运行良好但没有出现颜色闪烁。布局文件主要 Ac
android - 希望 MediaPlayer 在屏幕锁定时继续运行
我怎样才能让我的 MediaPlayer 继续播放，即使在手机锁定和屏幕关闭的情况下，我认为它可能必须做一些使其成为服务但不确定的事情。如果是这样，我该如何将其更改为服务，或者是否有更快更简单的修复方
c - 内存泄漏......解释(希望)
有人可以帮助我理解内存泄漏的概念以及特定数据结构如何促进/防止它(例如链表、数组等)。前段时间我被两个不同的人教过两次——由于教学方法的不同，这让我有点困惑。最佳答案维基百科有一个 good de
javascript - 希望 HTML 表单提交什么也不做
我希望 HTML 表单在提交后不执行任何操作。 action="" 不好，因为它会导致页面重新加载。基本上，我希望在按下按钮或有人在输入数据后点击 Enter 时调用 Ajax 函数。是的，我可以删
c - 希望 execve() 运行的可执行文件使用我预加载的库
我正在执行一个程序 say A from another，首先是 fork-ing，然后是 execve()。现在的问题是我希望 A 使用我通常使用 LD_PRELOAD 来完成的库。我如何在 exe
c# - 希望 Autofac 不注册任何具有多个实现的接口(interface)
我目前正在为我们公司测试 Autofac。我们希望有以下规则: 如果接口(interface)只实现了一次，则使用 builder.RegisterAssemblyTypes 自动添加它(见下文)。
c++ - 对此(希望)100% 安全的双重检查锁定替代单例的任何评论
正如 Scott Meyers 和 Andrei Alexandrescu 在 this 中概述的那样文章简单尝试实现双重检查锁定实现在 C++ 中特别是不安全的，并且通常在不使用内存屏障的多处理器
php - 希望 Javascript Button 的图像相互独立交换
目前我有一些代码可以在点击时改变图像，但这段代码是在一个 php HTML 循环中所以事情变得棘手，点击一个开关会使每个故事的开关都激活，因为它是基于 CSS 运行的.如何让它们独立交换？ $("

首页

博学

6Ren·AI

商城

python - 希望每天抓取网站并设置警报