gpt4 book ai didi

python - Oracle 中的 SQLAlchemy 大数截断/舍入问题

转载 作者:太空宇宙 更新时间:2023-11-04 04:50:42 25 4
gpt4 key购买 nike

我管理着许多 ETL 作业,其中我与 Facebook graph 和 Google Doubleclick 等 API 有连接,它们使用大数字唯一标识符。我们使用 Oracle 数据库暂存其中一些数据,并将其与我们自己的数据结合起来。我一直遇到的问题是,当我通过 SQLAlchemy(使用 cx_Oracle)将这些大数字 ID 插入数字列时,重要数字会被截断。

例子: 1234567890726531 变成 1234567890726530

解决方法:为了解决这个问题,我一直在使用 VARCHAR2 数据类型来保存 ID 的文本表示形式,因为它保留了所有有效数字。

我相信它与这些错误线程有关:

(我无法复制这些线程中提到的游标代码来测试我所处情况的解决方案)

Facebook示例的部分示例代码(或从中提取的相关部分)如下:

[...code that populate the "buffer" list]
schema,table_name = 'some_schema','some_table'
engine = create_engine(enginestr)
metadata = MetaData()
table = Table(table_name,
metadata,
schema=schema,
autoload=True,
autoload_with=self.engine)
buf=[]
for i in buffer:
d={
'id':i[1]['id'],
'id_char':i[1]['id'],
'name':i[1]['name'],
'status':i[1]['status'],
'page_id':i[0]['id']
}
buf+=[d]
engine.execute(table.insert(),buf)

缓冲区条目如下所示:

[(<Page> {
"id": "FacebookPageName"
}, <LeadgenForm> {
"id": "123456789012345",
"leadgen_export_csv_url": "https://www.facebook.com/ads/lead_gen/export_csv/?id=123456789012345&type=form&source_type=graph_api",
"locale": "en_US",
"name": "Leadgen Form Name",
"status": "ACTIVE"
})]

表格本质上是这样的:

create table some_schema.some_table (
id number primary key,
name varchar2(512 char),
status varchar2(30 char),
updated timestamp with time zone default systimestamp,
id_char varchar2(64 char)
);

运行上面的代码后,这条SQL的结果应该是nothing

select to_char(t.id) ,t.id_char from some_schema.some_table t where t.id<>t.id_Char;

但是,它确实会返回结果(为了保护隐私而略有改动)

NUMERIC_ID  ID_CHAR
1234567890726530 1234567890726531
1234567890585300 1234567890585296
1234567890103880 1234567890103882
1234567890185790 1234567890185794
1234567890359660 1234567890359664
1234567890793130 1234567890793131
1234567890250270 1234567890250272
1234567890467220 1234567890467223
1234567890905240 1234567890905241
1234567890369260 1234567890369255

此 DML 将其更新为按预期显示,因为向我展示了问题出在 python 方面:

update some_schema.some_table t set t.id = t.id_char where t.id<>t.id_Char;

有没有更好的方法来处理:

  • 表反射
  • 数据类型转换
  • 插入
  • 任何东西

这样我的大数值就不会被截断?现在,为 ID 使用字符串类型的容器似乎可行,但就每行的存储空间而言并不是最好的,这成为大型数据集的一个问题。

补充信息:

  • Python 版本:3.6.2
  • SQLAlchemy 版本:1.2.0
  • cx-Oracle 版本:6.1

编辑:

在Anthony Tuininga的建议下,我尝试通过cx-Oracle直接插入记录,并没有导致上述舍入问题。这让我得出结论,我的问题要么出在我对 SQLAlchemy 的实现上,要么出在 SQLAlchemy 库本身上。

buf=[]
columns = ('id','id_char','name','status','page_id')
for i in buffer:
d=(
i[1]['id'],
i[1]['id'],
i[1]['name'],
i[1]['status'],
i[0]['id']
)
buf+=[d]

from ouplax.database import KEY
import cx_Oracle
config = {
'server' : 'TNSName',
'username' : 'username',
'schema' : 'some_schema',
'table_name' : 'some_table',
'columns' : ','.join(columns),
'binds' : ','.join( [':{}'.format(i) for i in range(1,len(columns)+1)] )
}
k = KEY(server=config['server'],username=config['username'],keyHeader='PYSQL') #Object for storing/retrieving credentials
connection = cx_Oracle.connect(config['username'],k.getpass(),server)
cursor = cx_Oracle.Cursor(connection)
stmt = 'truncate table {schema}.{table_name}'.format(**config)
print(stmt)
cursor.execute(stmt)
stmt = 'insert into {schema}.{table_name} ({columns}) values ({binds})'.format(**config)
print(stmt)
cursor.prepare(stmt)
cursor.executemany(None, buf)
connection.commit()
cursor.close()
connection.close()

最佳答案

我自己偶然发现了这个问题并在 SQLAlchemy 存储库中提交了错误报告 (link) .该问题已在 SQLAlchemy 1.2.11 release 中得到解决:

[oracle] [bug] For cx_Oracle, Integer datatypes will now be bound to “int”, per advice from the cx_Oracle developers. Previously, using cx_Oracle.NUMBER caused a loss in precision within the cx_Oracle 6.x series.

关于python - Oracle 中的 SQLAlchemy 大数截断/舍入问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48406354/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com