python - 解析西类牙语文本并将其保存在数据库中-6ren

python - 解析西类牙语文本并将其保存在数据库中

转载作者：太空宇宙更新时间：2023-11-04 06:29:52

24

4

我正在用 scrapy 解析用西类牙语编写的网页.问题是由于编码错误，我无法保存文本。

这是解析函数:

def parse(self, response):
        hxs = HtmlXPathSelector(response)
        text = hxs.select('//text()').extract() # Ex: [u' Sustancia mineral, m\xe1s o menos dura y compacta, que no es terrosa ni de aspecto met\xe1lico.']
        s = "".join(text)
        db = dbf.Dbf("test.dbf", new=True)
        db.addField(
            ("WORD", "C", 25),
            ("DATA", "M", 15000), # Memo field
        )
        rec = db.newRecord()
        rec["WORD"] = "Stone"
        rec["DATA"] = s
        rec.store()
        db.close()

当我尝试将其保存到 db(a dbf db) 时，出现 ASCII(128) 错误。我尝试使用“utf-8”和“latin1”进行解码/编码，但没有成功。

编辑:

为了保存数据库，我正在使用 dbfpy .我在上面的parse函数中添加了dbf保存代码。

这是错误信息:

Traceback (most recent call last):
  File "/usr/lib/python2.6/dist-packages/twisted/internet/base.py", line 1179, in mainLoop
    self.runUntilCurrent()
  File "/usr/lib/python2.6/dist-packages/twisted/internet/base.py", line 778, in runUntilCurrent
    call.func(*call.args, **call.kw)
  File "/usr/lib/python2.6/dist-packages/twisted/internet/defer.py", line 280, in callback
    self._startRunCallbacks(result)
  File "/usr/lib/python2.6/dist-packages/twisted/internet/defer.py", line 354, in _startRunCallbacks
    self._runCallbacks()
--- <exception caught here> ---
  File "/usr/lib/python2.6/dist-packages/twisted/internet/defer.py", line 371, in _runCallbacks
    self.result = callback(self.result, *args, **kw)
  File "/home/katy/Dropbox/proyectos/rae/rae/spiders/rae_spider.py", line 54, in parse
    rec.store()
  File "/home/katy/Dropbox/proyectos/rae/rae/spiders/record.py", line 211, in store
    self.dbf.append(self)
  File "/home/katy/Dropbox/proyectos/rae/rae/spiders/dbf.py", line 214, in append
    record._write()
  File "/home/katy/Dropbox/proyectos/rae/rae/spiders/record.py", line 173, in _write
    self.dbf.stream.write(self.toString())
  File "/home/katy/Dropbox/proyectos/rae/rae/spiders/record.py", line 223, in toString
    for (_def, _dat) in izip(self.dbf.header.fields, self.fieldData)
  File "/home/katy/Dropbox/proyectos/rae/rae/spiders/fields.py", line 215, in encodeValue
    return str(value)[:self.length].ljust(self.length)
exceptions.UnicodeEncodeError: 'ascii' codec can't encode character u'\xf1' in position 18: ordinal not in range(128)

最佳答案

请不要记住DBF files don't support unicode at all我还建议使用 Ethan Furman 的 dbf 包(另一个答案中的链接)

您只能使用 'table = dbf.Table('filename') 来猜测真实类型。

使用非 cp437 编码的示例是:

#!/usr/bin/env python
# coding: koi8-r
import dbf
text = 'текст в koi8-r'
table = dbf.Table(':memory:', ['test M'], 128, False, False, True, False, 'dbf', 'koi8-r')
record = table.append()
record.test = text

请注意以下有关版本 0.87.14 和“dbf”表类型的信息:

使用 DBF 包 0.87.14，您可以在“.../site-packages/dbf/tables.py”的第 686 行找到异常“TypeError: ord() excepted character...”

只有 'dbf' 表类型受到此 tupo 的影响!

免责声明:我不知道在以下值中使用真正正确的值，所以不要因为与此“修复”不兼容而责怪我。

您可以在第 490 行和第 491 行将值“”替换为“\0”(至少)以使该测试可行。

关于python - 解析西类牙语文本并将其保存在数据库中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4175246/

24

4

0

文章推荐： python - 带有嵌套类的 SQLalchemy

文章推荐： java - 使用jsp和servlet上传文件

文章推荐： javascript - 将 Django 模板变量传递到 GAE 中的 javascript

数据库
我的问题是如何在 python 中创建一个简单的数据库。我的例子是: User = { 'Name' : {'Firstname', 'Lastname'}, 'Address' : {'Street
mysql - iOS开发。数据库？数据库？什么是最好的方法？
我需要创建一个与远程数据库链接的应用程序! mysql 是最好的解决方案吗？ Sqlite 是唯一的本地解决方案吗？我使用下面的方法，我想知道它是否是最好的方法! NSString *evento
java 应用程序无法连接到远程 MySQL 数据库，但可以连接到本地 MySQL 数据库
给定两台 MySQL 服务器，一台本地，一台远程。两者都有一个包含表 bohica 的数据库 foobar。本地服务器定义了用户 'myadmin'@'%' 和 'myadmin'@'localhos
java - 灵活查询适用于 HANA 数据库，但不适用于 HSQL 数据库
我有以下灵活的搜索查询 Select {vt:code},{vt:productcode},{vw:code},{vw:productcode} from {abcd AS vt JOIN wxyz
mysql - 从原始数据文件恢复 MySQL 数据库 [XAMPP | MySQL |数据库]
好吧，我的电脑开始运行有点缓慢，所以我重置了 Windows，保留了我的文件。因为我的大脑还没有打开，所以我忘记事先备份我的 MySQL 数据库。我仍然拥有所有原始文件，因此我实际上仍然拥有数据库，但
android - 如何将我的 Access 数据库 (.accdb) 转换为 SQLite 数据库 (.sqlite)？
如何将我的 Access 数据库 (.accdb) 转换为 SQLite 数据库 (.sqlite)？请，任何帮助将不胜感激。最佳答案 1)如果要转换 db 的结构，则应使用任何 DB 建模工具:
django - 实际上我将我的 django 数据库 sqlite3 连接到 Mysql 数据库，每当我迁移时我都会收到此错误
系统检查发现了一些问题: 警告:？:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
django - 实际上我将我的 django 数据库 sqlite3 连接到 Mysql 数据库，每当我迁移时我都会收到此错误
系统检查发现了一些问题: 警告:？:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
android - 如何在 phonegap 数据库中使用 android 数据库/作为 phonegap 数据库
我想在相同的 phonegap 应用程序中使用 android 数据库。更多说明: 我创建了 phonegap 应用程序，但 phonegap 应用程序不支持服务，所以我们已经在 java 中为 a
javascript - 将日期插入 mysql 数据库 [我正在使用 php 和 xampp mysql 数据库]
Time Tracker function clock() { var mytime = new Date(); var seconds
php - MySQL如何从年份(参数)、weekOfYear(参数)、时间(数据库)和dayofweek(数据库)创建时间戳？
我需要在现有项目上实现一些事件的显示。我无法更改数据库结构。在我的 Controller 中，我(从 ajax 请求)传递了一个时间戳，并且我需要显示之前的 8 个事件。因此，如果时间戳是(转换后)
performance - : {REST API, 网站} --> {数据库} 或 {网站} --> {REST API} --> {数据库} 哪个更好？
我有一个可以收集和显示各种测量值的产品(不会详细介绍)。正如人们所期望的那样，显示部分是一个数据库+建立在其之上的网站(使用 Symfony)。但是，我们可能还会创建一个 API 来向第三方公开数据
sql-server - Azure SQL 数据库 - 查询速度明显慢于 Azure VM 上的 SQL 数据库
我们将 SQL Server 从 Azure VM 迁移到 Azure SQL 数据库。 Azure VM 为 DS2_V2、2 核、7GB RAM、最大 6400 IOPS Azure SQL 数据
java - MongoDB 如何在 Java 本地测试 MongoDB 数据库，比如 H2 和 sql 数据库？
我正在开发一个使用 MongoDB 数据库的程序，但我想问在通过 Java 执行 SQL 时是否可以使用内部数据库进行测试，例如 H2？最佳答案你可以尝试使用Testcontainers Test
sql - 如何从 unix 终端连接到 Microsoft SQL Server 数据库？我必须连接 SQL Server 2008 数据库
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。已关闭 9 年前。此问题似乎与 a specific programming problem, a sof
python - 尝试使用 MSI 身份验证从 Azure ML 服务连接 Azure SQL 数据库(无需用户名和密码即可连接 Azure 数据库)
我正在尝试使用 MSI 身份验证(无需用户名和密码)从 Azure 机器学习服务连接 Azure SQL 数据库。我正在尝试在 Azure 机器学习服务上建立机器学习模型，目的是我需要数据，这就是我
数据库；空场似乎不空
我在我的 MySQL 数据库中使用这个查询来查找 my_column 不为空的所有行: SELECT * FROM my_table WHERE my_column != ""; 不幸的是，许多行在
数据库 |选择不同的记录
我有那个基地:http://sqlfiddle.com/#!2/e5a24/2这是 WordPress 默认模式的简写。我已经删除了该示例不需要的字段。如您所见，我的结果是“类别 1”的两倍。我喜欢
数据库。提取过滤列的数据
我有一张这样的 table : mysql> select * from users; +--------+----------+------------+-----------+ | userid
数据库 |高级分面搜索
我有表: CREATE TABLE IF NOT EXISTS `category` ( `id` int(11) NOT NULL, `name` varchar(255) NOT NULL

首页

博学

6Ren·AI

商城

python - 解析西类牙语文本并将其保存在数据库中