- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我试图在用 Python 处理后将一些 XML 数据导入我的 MySQL 数据库。为了简单起见,我通过一个使用 SQLAlchemy 访问我的数据库的脚本来完成这一切。
XML 文件有大约 80,000 个条目,我使用 xml.etree.cElementTree
的 iterparse
方法处理它,并在使用它们后删除节点以保持内存使用大约 20mb。
一旦我包含 SQLAlchemy 并开始将内容添加到数据库中,我的内存使用量就会以每秒大约 10mb 的速度增加,直到脚本耗尽我的所有内存并且操作系统将其终止。
我的代码基本上是这样的:
index = 0
for element in iterate_xml():
...
index += 1
session.add(Model(**data))
if index % 1000 == 0:
session.flush()
session.commit()
我不确定还能尝试什么。周期性的 .flush()
和 .commit()
确实有一点帮助,但它们没有解决问题。
SQLAlchemy 不是完成这项任务的正确工具吗?
我像这样设置 SQLAlchemy:
Base = declarative_base()
engine = create_engine(config.SQLALCHEMY_DATABASE_URI, echo=False)
Session = sessionmaker(bind=engine, autoflush=False, expire_on_commit=False)
session = Session()
我的表是这样的:
columns = []
for name, datatype in structure.iteritems():
if isinstance(datatype, int):
datatype = String(datatype or 20)
column = Column(name, datatype)
columns.append(column)
metadata = MetaData(bind=engine)
table = Table('table_name', metadata,
Column('id', Integer, primary_key=True),
*columns
)
metadata.drop_all(engine)
metadata.create_all(engine)
class MyTable(Base):
__tablename__ = 'table_name'
__table_args__ = {
'autoload': True,
'autoload_with': engine
}
structure
是一个将列名称映射到数据类型的字典(它是从 XML 生成的):
structure = {
'column_name': SQLAlchemyDataType,
...
}
最佳答案
这是您的代码的纯 SQLAlchemy 版本。在 0.7 和 0.8 测试,它没有泄漏任何内存,这对我来说并不奇怪,因为我们在持续集成下进行了十几次测试,以确保在许多场景下不会泄漏。因此,第一步是确认此脚本不会为您泄漏,然后尝试找出此脚本与您的脚本之间的变化,以生成实际显示内存泄漏的测试用例。
from sqlalchemy import Column, String, Integer, create_engine
from sqlalchemy.orm import Session
from sqlalchemy.ext.declarative import declarative_base
Base = declarative_base()
class Model(Base):
__tablename__ = "a"
id = Column(Integer, primary_key=True)
data = Column(String)
e = create_engine("sqlite:///somefile.db")
Base.metadata.create_all(e)
session = Session(e)
for index in xrange(10000000):
session.add(Model(data="data %d" % index))
if index % 1000 == 0:
print "flushing... %d" % index
session.flush()
session.commit()
当然,重要的是要注意 SQLAlchemy 过去泄漏内存的那些问题。这是最近修复的泄漏历史记录:
0.7.8 - 最新的。此处修复的泄漏仅在使用时发生:1. C 扩展,2. pyodbc 驱动程序,在某些结果提取操作期间(不是全部)
0.6.6 - C 扩展中的“十进制”结果处理器发生泄漏。
0.6.6 - 如果 SQLSoup 扩展用于以某些方式选择行(SQLSoup 现在是它自己的项目),则被确定为具有潜在泄漏
0.5.5 - 修复了当对象被 unpickle 并放回 session 时潜在的内存泄漏
0.5.4 - 对 session 的内存使用进行了重大改进。您肯定希望顺利通过此版本。
关于python - SQLAlchemy 吃 RAM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13761276/
我正在尝试创建一个使用 UUID 作为主键的用户模型: from src.db import db # SQLAlchemy instance import sqlalchemy_utils impo
在 sqlalchemy 中,我试图合并表,然后使用 WHERE 和 ORDER_BY 创建别名 有点像 SELECT * FROM ( SELECT [TABLE_ONE].[SOME_ID]
我正在使用 SQL Alchemy(通过 Flask_sqlalchemy)将 Python 字典列表插入到 Postgres 数据库中。 其中一个表是所有唯一项目的列表(表 1),而第二个是与某个项
This source详细说明如何使用关联代理创建具有 ORM 对象值的 View 和对象。 但是,当我附加一个与数据库中现有对象匹配的值(并且所述值是唯一的或主键)时,它会创建一个冲突的对象,因此我
SQLAlchemy Core和SQLAlchemy ORM的目的有什么区别? 最佳答案 顾名思义,ORM是一个对象关系映射器:其目的是将数据库关系表示为Python对象。 核心是查询构建器。其目的是
带有ForeignKey的Column是否自动创建索引? 还是我需要手动添加index=True? some_field = Column(Integer, ForeignKey(SomeModel.
我有一个主数据库,每个客户自己的数据库连接存储在其中。 因此,每个客户端都使用2个db:main和它自己的db,必须确定其连接 对于每个http调用。我如何使用flask-sqlalchemy扩展名执
当我仅对类进行继承时,它才起作用 class User(Base): __tablename__ = ’users’ id = Column(Integer, primary_key=
从用户的角度来看,SQLAlchemy 的查询日志似乎有点过于冗长,有时甚至有点神秘: 2015-10-02 13:51:39,500 INFO sqlalchemy.engine.base.Engi
我正在尝试使用 wtforms.ext.sqlalchemy QuerySelectMultipleField 显示复选框列表,但我无法在 GET 的表单上显示模型数据。 这是我的models.py
我想为查询返回一个中继连接。使用标准的 graphene-sqlalchemy 你可以这样做: class Query(graphene.ObjectType): node = relay.N
我在 centos 7.5 虚拟机上部署了最新的 Airflow ,并将 sql_alchemy_conn 和 result_backend 更新到 postgresql 实例上的 postgres
我想将多个项目插入到一个表中,并在发生冲突时更新该表。这是我想出的以下内容 from sqlalchemy.dialects.postgresql import insert meta = MetaD
我有以下模型: class Item(Base): a = relationship() b = relationship() c = relationship() d
我有 presto 和 superset 设置。 presto 运行良好,可以通过命令访问: ./app/hadoop/setjdk8.sh;bin/presto-cli --server http:
我一直在寻找一种在 sqlalchemy 中使用 tsvector 的方法(就像 INTEGER 等其他方法一样),但到目前为止我还不清楚如何做到这一点。我读过可以使用 UserDefinedType
我正在使用 sqlalchemy(现在使用 sqlite,但稍后可能会改变)来构建一个数据库,其中插入的顺序和 rowids 很重要。我基本上有以下几点: class Message(Base):
给定一个对象,我想知道如何知道它是否是 sqlalchemy 映射模型的实例。 通常,我会使用 isinstance(obj, DeclarativeBase)。但是,在这种情况下,我没有可用的 De
我已经通读了查询文档,如果有办法从查询中获取表名,就看不到任何地方 - 例如如果我有 q = query(Users) ,我可以得到Users从 q 退出? 最佳答案 请注意,像您这样的事件简单查询可
我不确定如何定义create schema foo迁移?我的模型如下所示(我正在使用Flask-Migrate): class MyTable(db.Model): __tablename__
我是一名优秀的程序员,十分优秀!