- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
在 python 2.x 环境中使用 Scrapy,我设置了一个蜘蛛来抓取网页列表,专门查看这些页面是否产生错误,例如 400/404/500。
我编写 scrapy 项目的目的是将所有抓取的结果通过管道存储在 mysql 数据库中。它有效!我能够成功写入我的数据库。但仅限于成功抓取的页面,HTTP 状态代码为 200。
Scrapy 似乎没有通过管道将 404 页面上的信息发送到数据库中。
下面是蜘蛛代码的摘录,它抓取了两个不存在的网页:
class LandingPage004Spider(scrapy.Spider):
name='LandingPage004Spider'
start_urls = []
def __init__(self):
super(LandingPage004Spider,self).__init__()
#self.start_urls = unique_landingpages
self.start_urls = ['https://www.google.com/doesntexist', 'https://www.google.com/deadpage']
def parse(self, response):
url = response.url
url_title = 'Title goes here.'
pagesize = len(response.body)
HTTP_code = response.status
yield {'url': url, "pagesize": pagesize, "HTTP_code": HTTP_code}
当我运行这个蜘蛛时,我得到以下输出:
[scrapy] DEBUG: Ignoring response <404 https://www.google.com/deadpage>: HTTP status code is not handled or not allowed
[scrapy] DEBUG: Ignoring response <404 https://www.google.com/doesntexist>: HTTP status code is not handled or not allowed
现在,我对此进行了大量搜索,看起来这可能是故意的,并且有一种方法可以强制 scrapy 包含 404。我看到有一个选项 dont_filter,但我只能找到有关如何将该代码附加到类似于以下代码语法的说明:yield Request(url="test.com", callback=self.callback, dont_filter = True)
但是我的蜘蛛的结构似乎不允许任何这样的行。
我说的 404 没有被发送到数据库,这是我设计的吗?有没有办法附加我当前的代码以允许记录 404?
如果有帮助,这里是 pipelines.py 文件:
from sqlalchemy.orm import sessionmaker
from LandingPageVerifier.models import LandingPagesScrapeResults, db_connect
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.engine import create_engine
Base = declarative_base()
class Landingpageverifier004Pipeline(object):
def __init__(self):
"""
Initializes database connection and sessionmaker.
"""
engine = db_connect()
self.Session = sessionmaker(bind=engine)
def process_item(self, item, spider):
session = self.Session()
landingpage_scrape_results = LandingPagesScrapeResults()
landingpage_scrape_results.url = item["url"]
landingpage_scrape_results.client_id = 1
landingpage_scrape_results.HTTP_code = item["HTTP_code"]
landingpage_scrape_results.page_size = item["pagesize"]
try:
session.add(landingpage_scrape_results)
session.commit()
except:
session.rollback()
raise
finally:
session.close()
return item
以及我的 models.py 文件的摘录:
class LandingPagesScrapeResults(Base):
__tablename__ = 'landingpages_scrape_results'
id = Column(Integer(), primary_key=True)
client_id = Column(Integer(), ForeignKey('landingpages_clients.id'))
url = Column(String(512), nullable=True)
url_shortener = Column(String(32), nullable=True)
url_title = Column(String(256), nullable=True)
page_size = Column(Integer(), nullable=True)
created_on = Column(DateTime(),default=datetime.datetime.now)
HTTP_code = Column(String(4), nullable=True)
err_small = Column(String(1), nullable=True)
err_has_not_found = Column(String(1), nullable=True)
err_has_error = Column(String(1), nullable=True)
err_has_nolongeravailable = Column(String(1), nullable=True)
err_no_service_specials = Column(String(1), nullable=True)
最佳答案
@stranac 当然给出了一个很好的答案,但您也可以直接使用 errback
请求属性来处理这个问题,它将捕获所有错误的响应,特别是在您需要的请求中:
def parse(self, response):
yield Request(
'http://httpbin.org/status/404',
errback=self.parse_error,
callback=self.parse_item,
)
def parse_error(self, failure):
if failure.value.response.status == 404:
# insert item as a bad response
def parse_item(self, response):
# insert item as good response
或者您当然也可以始终使用中间件,以便在收到各种响应/请求后立即捕获。
关于python - Scrapy:通过管道发送到数据库时包含状态代码为 404 的项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53731561/
我的问题是如何在 python 中创建一个简单的数据库。我的例子是: User = { 'Name' : {'Firstname', 'Lastname'}, 'Address' : {'Street
我需要创建一个与远程数据库链接的应用程序! mysql 是最好的解决方案吗? Sqlite 是唯一的本地解决方案吗? 我使用下面的方法,我想知道它是否是最好的方法! NSString *evento
给定两台 MySQL 服务器,一台本地,一台远程。两者都有一个包含表 bohica 的数据库 foobar。本地服务器定义了用户 'myadmin'@'%' 和 'myadmin'@'localhos
我有以下灵活的搜索查询 Select {vt:code},{vt:productcode},{vw:code},{vw:productcode} from {abcd AS vt JOIN wxyz
好吧,我的电脑开始运行有点缓慢,所以我重置了 Windows,保留了我的文件。因为我的大脑还没有打开,所以我忘记事先备份我的 MySQL 数据库。我仍然拥有所有原始文件,因此我实际上仍然拥有数据库,但
如何将我的 Access 数据库 (.accdb) 转换为 SQLite 数据库 (.sqlite)? 请,任何帮助将不胜感激。 最佳答案 1)如果要转换 db 的结构,则应使用任何 DB 建模工具:
系统检查发现了一些问题: 警告:?:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式 提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
系统检查发现了一些问题: 警告:?:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式 提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
我想在相同的 phonegap 应用程序中使用 android 数据库。 更多说明: 我创建了 phonegap 应用程序,但 phonegap 应用程序不支持服务,所以我们已经在 java 中为 a
Time Tracker function clock() { var mytime = new Date(); var seconds
我需要在现有项目上实现一些事件的显示。我无法更改数据库结构。 在我的 Controller 中,我(从 ajax 请求)传递了一个时间戳,并且我需要显示之前的 8 个事件。因此,如果时间戳是(转换后)
我有一个可以收集和显示各种测量值的产品(不会详细介绍)。正如人们所期望的那样,显示部分是一个数据库+建立在其之上的网站(使用 Symfony)。 但是,我们可能还会创建一个 API 来向第三方公开数据
我们将 SQL Server 从 Azure VM 迁移到 Azure SQL 数据库。 Azure VM 为 DS2_V2、2 核、7GB RAM、最大 6400 IOPS Azure SQL 数据
我正在开发一个使用 MongoDB 数据库的程序,但我想问在通过 Java 执行 SQL 时是否可以使用内部数据库进行测试,例如 H2? 最佳答案 你可以尝试使用Testcontainers Test
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 已关闭 9 年前。 此问题似乎与 a specific programming problem, a sof
我正在尝试使用 MSI 身份验证(无需用户名和密码)从 Azure 机器学习服务连接 Azure SQL 数据库。 我正在尝试在 Azure 机器学习服务上建立机器学习模型,目的是我需要数据,这就是我
我在我的 MySQL 数据库中使用这个查询来查找 my_column 不为空的所有行: SELECT * FROM my_table WHERE my_column != ""; 不幸的是,许多行在
我有那个基地:http://sqlfiddle.com/#!2/e5a24/2这是 WordPress 默认模式的简写。我已经删除了该示例不需要的字段。 如您所见,我的结果是“类别 1”的两倍。我喜欢
我有一张这样的 table : mysql> select * from users; +--------+----------+------------+-----------+ | userid
我有表: CREATE TABLE IF NOT EXISTS `category` ( `id` int(11) NOT NULL, `name` varchar(255) NOT NULL
我是一名优秀的程序员,十分优秀!