Python 3.6 连接到 MS SQL Server 以处理大型数据帧-6ren

Python 3.6 连接到 MS SQL Server 以处理大型数据帧

转载作者：太空宇宙更新时间：2023-11-03 14:30:48

26

4

我是一名新的 Python 程序员，也是一名新的数据科学家，所以请原谅这里任何听起来愚蠢的事情。除非有人好奇，否则我将保留详细信息，但基本上我需要连接到 Microsoft SQL Server 并上传相对较大(约 500k 行)的 Pandas DF，并且我几乎每天都需要按照项目目前的情况执行此操作。

它不一定是 Pandas DF - 我读过有关使用 odo 处理 csv 文件的内容，但我无法让任何东西发挥作用。我遇到的问题是我无法批量插入 DF，因为该文件与 SQL Server 实例不在同一台计算机上。我不断收到如下错误:

pyodbc.ProgrammingError: ('42000', "[42000] [Microsoft][ODBC SQL Server Driver][SQL Server]Incorrect syntax near the keyword 'IF'. (156) (SQLExecDirectW)")

由于我尝试了不同的 SQL 语句，您可以将 IF 替换为 CREATE 语句中的第一个 COL_NAME 。我正在使用 SQLAlchemy 创建引擎并连接到数据库。这可能是不言而喻的，但 pd.to_sql() 方法对于我移动的数据量来说太慢了，所以这就是为什么我需要更快的方法。

顺便说一句，我正在使用 Python 3.6。我在这里列出了我尝试过但尚未成功的大部分内容。

import pandas as pd
from sqlalchemy import create_engine
import numpy as np    
df = pd.DataFrame(np.random.randint(0,100,size=(100, 1)), columns=list('test_col'))
address = 'mssql+pyodbc://uid:pw@server/path/database?driver=SQL Server'
engine = create_engine(address)
connection = engine.raw_connection()
cursor = connection.cursor()
# Attempt 1 <- This failed to even create a table at the cursor_execute statement so my issues could be way in the beginning here but I know that I have a connection to the SQL Server because I can use pd.to_sql() to create tables successfully (just incredibly slowly for my tables of interest)
create_statement = """
DROP TABLE test_table
CREATE TABLE test_table (test_col)
"""
cursor.execute(create_statement)
test_insert = '''
INSERT INTO test_table
(test_col)
values ('abs');
'''
cursor.execute(test_insert)

Attempt 2 <- From iabdb WordPress blog I came across
def chunker(seq, size):
    return (seq[pos:pos + size] for pos in range(0, len(seq), size))
records = [str(tuple(x)) for x in take_rates.values]

insert_ = """
INSERT INTO test_table
("A")
VALUES
"""

for batch in chunker(records, 2): # This would be set to 1000 in practice I hope
    print(batch)
    rows = str(batch).strip('[]')
    print(rows)
    insert_rows = insert_ + rows
    print(insert_rows)
    cursor.execute(insert_rows)
    #conn.commit() # don't know when I would need to commit

conn.close()

# Attempt 3 # From a related Stack Exchange Post
 create the table but first drop if it already exists
command = """DROP TABLE IF EXISTS test_table
CREATE TABLE test_table # these columns are from my real dataset
"Serial Number" serial primary key,
"Dealer Code" text,
"FSHIP_DT" timestamp without time zone,
;"""
cursor.execute(command)
connection.commit()

# stream the data using 'to_csv' and StringIO(); then use sql's 'copy_from' function
output = io.StringIO()
# ignore the index
take_rates.to_csv(output, sep='~', header=False, index=False)
# jump to start of stream
output.seek(0)
contents = output.getvalue()
cur = connection.cursor()
# null values become ''
cur.copy_from(output, 'Config_Take_Rates_TEST', null="")
connection.commit()
cur.close()

在我看来，MS SQL Server 并不是一个很好的数据库......我想为粗略的格式表示歉意 - 我已经研究这个脚本几个星期了，但最终决定尝试为 StackOverflow 组织一些东西。非常感谢您提供的任何帮助!

最佳答案

如果您只需要替换现有表，请将其截断并使用 bcp 实用程序上传表。速度快得多。

from subprocess import call

command = "TRUNCATE TABLE test_table"
take_rates.to_csv('take_rates.csv', sep='\t', index=False)
call('bcp {t} in {f} -S {s} -U {u} -P {p} -d {db} -c -t "{sep}" -r "{nl}" -e {e}'.format(t='test_table', f='take_rates.csv', s=server, u=user, p=password, db=database, sep='\t', nl='\n')

您需要安装 bcp 实用程序(在 CentOS/RedHat 上安装 yum install mssql-tools)。

关于Python 3.6 连接到 MS SQL Server 以处理大型数据帧，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47318359/

26

4

0

文章推荐： python - 尝试使用 Keras 实现堆叠 LSTM 层时出现问题

文章推荐： python - 如何在 Python 中使用 x DP 将分数写为十进制？

文章推荐： python - 导入错误:无法导入名称 random_integers

sql-server - Windows Server 2008 "Server Core"是否适合 SQL Server 实例？
本周我将在 Windows Server 2008 上设置一个专用的 SQL Server 2005 机器，并希望将其精简为尽可能简单，同时仍能发挥全部功能。为此，“服务器核心”选项听起来很有吸引力
sql-server - 我可以随我的应用程序一起分发和安装 SQL Server Server 管理对象吗？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 8 年前。 Improve
sql-server - 如何将SQL Server 2014数据库备份恢复到SQL Server 2016？
我获取了 2014 版本数据库的备份，并尝试在另一台服务器中将其恢复到具有相同名称和登录名的数据库中。此 SQL Server 版本是 2016。恢复备份文件时，出现此错误: TITLE: Micr
sql-server - 如何将SQL Server 2014数据库备份恢复到SQL Server 2016？
我获取了 2014 版本数据库的备份，并尝试在另一台服务器中将其恢复到具有相同名称和登录名的数据库中。此 SQL Server 版本是 2016。恢复备份文件时，出现此错误: TITLE: Micr
sql-server - Team Foundation Server - Sql Server 版本管理
TFS 是否提供任何增强的方法来存储对 sql server 数据库所做的更改，而不是使用它来对在数据库上执行的 sql 语句的文本文件进行版本控制？或者我正在寻找的功能是否仅在第 3 方工具(如
sql-server - SQL Server 索引最佳实践 (SQL Server 2008)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
sql-server - 重命名 SQL Server 主机后更新 sys.servers
我即将将我的 SQL Server 2012 实例升级到 SQL Server 2014。我已经克隆了主机 Windows VM 并将其重命名为 foo-2012至 foo-2014 . 重新启动时
sql-server - 授予 SQL Server 登录数据库访问权限 - SQL Server
我想为 SQL Server 登录授予对数据库的访问权限。我知道 sp_grantdbaccess，但它已被弃用。我可以改用什么以及如何检查登录名是否还没有访问数据库的权限？场景:UserA 创建数
sql-server - 是否可以将数据从sql server 2005 中的表恢复到sql server 2008？
客户别无选择，只能在接下来的几天内从 sql server 2000 迁移到 2008。测试显示 2005 年的重要功能出现了 Not Acceptable 性能下降，但 2008 年却没有。好消息是
sql-server - 将数据库从一个 SQL Server 导出到另一个 SQL Server
我有一个测试数据库，我需要将其导出到我们客户的测试环境中。这将是一次性的工作。我正在使用 SQL Server 2005(我的测试数据库是 SQL Server 2005 Express) 执行此
mongodb - 连接到主机时出错 : could not connect to server: server selection error: server selection timeout current topology: Type: Single Servers
我需要将一个 CSV 文件导入到 mongoDB 不幸的是我遇到了以下错误: error connecting to host: could not connect to server: se
sql-server-2008 - 从sql server 2008升级到sql server 2008 R2
我以为 R2 是一个补丁/服务包。我一直在寻找下载，但没有看到。因此，我假设 R2 是一个新版本，并且我需要 sqlserver 2008 r2 的安装介质来进行升级？另外，我需要为新许可证付费吗？
sql-server - SQL server management studio - 如何使用连接字符串连接到 SQL server？
我无法使用 SQL Server Management Studio 连接到 SQL Server。我有一个连接字符串: 我尝试通过在服务器名中输入 myIP、在登录名中输入 MyID、在密码中
sql-server - 如何在一台 SQL Server 上加密并在另一台 SQL Server 上解密？
我们希望使用 SQL Server 加密来加密数据库中的几个列。我们还需要在生产和测试环境之间传输数据。看来最好的解决方案是在生产和测试服务器上使用相同的主 key 、证书和对称 key ，以便我可以
sql-server - FxCop for SQL Server - 分析 SQL Server 数据库潜在问题的工具
有没有可以分析 SQL Server 数据库潜在问题的工具？例如: a foreign key column that is not indexed 没有 FILL FACTOR 的 uniquei
sql-server - 创建复制错误 : You cannot create a publication from server 'X' because the server is too old
我正在尝试从我的 SQL 2012 BI 版本建立复制，但我收到一条奇怪的错误消息! "You cannot create a publication from server 'X' because
sql-server - SQL Server 2005 : How Secure is SQL Server Authentication?
如果您使用 SQL Server 身份验证 (2005)，登录详细信息是否以明文形式通过网络发送？最佳答案如您所愿，安全无忧... 您可以相当轻松地配置 SSL，如果您没有受信任的证书，如果您强制
sql-server - 将数据从一个 SQL Server 数据库表复制到另一个 SQL Server 数据库表
我想将数据从一个表复制到不同服务器之间的另一个表。如果是在同一服务器和不同的数据库中，我使用了以下 SELECT * INTO DB1..TBL1 FROM DB2..TBL1 (to copy w
sql-server - 无法从另一个 SQL Server 连接到 SQL Server 命名实例
我希望得到一些帮助，因为我在这个问题上已经被困了 2 天了! 场景:我可以从我的开发计算机(和其他同事)连接到 SERVER\INSTANCE，但无法从另一个 SQL Server 连接。我得到的错误
sql-server - 创建复制错误 : You cannot create a publication from server 'X' because the server is too old
我正在尝试从我的 SQL 2012 BI 版本建立复制，但我收到一条奇怪的错误消息! "You cannot create a publication from server 'X' because

首页

博学

6Ren·AI

商城

Python 3.6 连接到 MS SQL Server 以处理大型数据帧