- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我管理着许多 ETL 作业,其中我与 Facebook graph 和 Google Doubleclick 等 API 有连接,它们使用大数字唯一标识符。我们使用 Oracle 数据库暂存其中一些数据,并将其与我们自己的数据结合起来。我一直遇到的问题是,当我通过 SQLAlchemy(使用 cx_Oracle)将这些大数字 ID 插入数字列时,重要数字会被截断。
例子: 1234567890726531 变成 1234567890726530
解决方法:为了解决这个问题,我一直在使用 VARCHAR2 数据类型来保存 ID 的文本表示形式,因为它保留了所有有效数字。
我相信它与这些错误线程有关:
(我无法复制这些线程中提到的游标代码来测试我所处情况的解决方案)
Facebook示例的部分示例代码(或从中提取的相关部分)如下:
[...code that populate the "buffer" list]
schema,table_name = 'some_schema','some_table'
engine = create_engine(enginestr)
metadata = MetaData()
table = Table(table_name,
metadata,
schema=schema,
autoload=True,
autoload_with=self.engine)
buf=[]
for i in buffer:
d={
'id':i[1]['id'],
'id_char':i[1]['id'],
'name':i[1]['name'],
'status':i[1]['status'],
'page_id':i[0]['id']
}
buf+=[d]
engine.execute(table.insert(),buf)
缓冲区条目如下所示:
[(<Page> {
"id": "FacebookPageName"
}, <LeadgenForm> {
"id": "123456789012345",
"leadgen_export_csv_url": "https://www.facebook.com/ads/lead_gen/export_csv/?id=123456789012345&type=form&source_type=graph_api",
"locale": "en_US",
"name": "Leadgen Form Name",
"status": "ACTIVE"
})]
表格本质上是这样的:
create table some_schema.some_table (
id number primary key,
name varchar2(512 char),
status varchar2(30 char),
updated timestamp with time zone default systimestamp,
id_char varchar2(64 char)
);
运行上面的代码后,这条SQL的结果应该是nothing
select to_char(t.id) ,t.id_char from some_schema.some_table t where t.id<>t.id_Char;
但是,它确实会返回结果(为了保护隐私而略有改动)
NUMERIC_ID ID_CHAR
1234567890726530 1234567890726531
1234567890585300 1234567890585296
1234567890103880 1234567890103882
1234567890185790 1234567890185794
1234567890359660 1234567890359664
1234567890793130 1234567890793131
1234567890250270 1234567890250272
1234567890467220 1234567890467223
1234567890905240 1234567890905241
1234567890369260 1234567890369255
此 DML 将其更新为按预期显示,因为向我展示了问题出在 python 方面:
update some_schema.some_table t set t.id = t.id_char where t.id<>t.id_Char;
有没有更好的方法来处理:
这样我的大数值就不会被截断?现在,为 ID 使用字符串类型的容器似乎可行,但就每行的存储空间而言并不是最好的,这成为大型数据集的一个问题。
补充信息:
编辑:
在Anthony Tuininga的建议下,我尝试通过cx-Oracle直接插入记录,并没有导致上述舍入问题。这让我得出结论,我的问题要么出在我对 SQLAlchemy 的实现上,要么出在 SQLAlchemy 库本身上。
buf=[]
columns = ('id','id_char','name','status','page_id')
for i in buffer:
d=(
i[1]['id'],
i[1]['id'],
i[1]['name'],
i[1]['status'],
i[0]['id']
)
buf+=[d]
from ouplax.database import KEY
import cx_Oracle
config = {
'server' : 'TNSName',
'username' : 'username',
'schema' : 'some_schema',
'table_name' : 'some_table',
'columns' : ','.join(columns),
'binds' : ','.join( [':{}'.format(i) for i in range(1,len(columns)+1)] )
}
k = KEY(server=config['server'],username=config['username'],keyHeader='PYSQL') #Object for storing/retrieving credentials
connection = cx_Oracle.connect(config['username'],k.getpass(),server)
cursor = cx_Oracle.Cursor(connection)
stmt = 'truncate table {schema}.{table_name}'.format(**config)
print(stmt)
cursor.execute(stmt)
stmt = 'insert into {schema}.{table_name} ({columns}) values ({binds})'.format(**config)
print(stmt)
cursor.prepare(stmt)
cursor.executemany(None, buf)
connection.commit()
cursor.close()
connection.close()
最佳答案
我自己偶然发现了这个问题并在 SQLAlchemy 存储库中提交了错误报告 (link) .该问题已在 SQLAlchemy 1.2.11 release 中得到解决:
[oracle] [bug] For cx_Oracle, Integer datatypes will now be bound to “int”, per advice from the cx_Oracle developers. Previously, using cx_Oracle.NUMBER caused a loss in precision within the cx_Oracle 6.x series.
关于python - Oracle 中的 SQLAlchemy 大数截断/舍入问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48406354/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!