python - 为什么从 Spark 写入 Vertica DB 比从 Spark 写入 MySQL 需要更长的时间？-6ren

python - 为什么从 Spark 写入 Vertica DB 比从 Spark 写入 MySQL 需要更长的时间？

转载作者：行者123 更新时间：2023-11-29 11:35:10

28

4

最终，我想将 Vertica DB 中的数据抓取到 Spark 中，训练机器学习模型，进行预测，并将这些预测存储到另一个 Vertica DB 中。

当前的问题是确定流程最后部分的瓶颈:将 Spark 中的值存储到 Vertica DB 中。在 Vertica DB 中存储 63k 行数据大约需要 38 分钟。相比之下，当我将相同的数据从 Spark 传输到 MySQL 数据库时，需要 10 秒。

不知道为什么差别这么大。

我有分别用于 Vertica 和 MySQL 连接的名为 VerticaContext 和 MySQLContext 的类。两个类都使用 SQLContext使用 jdbc 格式读取条目。

df = self._sqlContext.read.format('jdbc').options(url=self._jdbcURL, dbtable=subquery).load()

并使用jdbc编写。

df.write.jdbc(self._jdbcURL, table_name, save_mode)

除了写入不同的目标数据库之外，这两个类之间没有任何区别。我很困惑为什么保存表格所需的时间存在巨大差异。是因为两个不同数据库之间硬件的固有差异吗？

最佳答案

我想出了一个替代解决方案。在深入探讨之前，我将解释一下我的发现以及为什么我认为保存到 Vertica DB 的速度很慢。

Vertica 日志(在 Vertica 计算机上搜索文件“vertica.log”)包含与 Vertica 数据库读取/写入相关的所有最新日志。运行 write 命令后，我发现这本质上是在 Vertica DB 中创建 INSERT 语句。
INSERT 语句(没有“DIRECT”指令)速度很慢，因为它们被写入 WOS(RAM)而不是 ROS(磁盘)。我不知道为什么会出现这种情况的具体细节。写入发出单独的 INSERT 语句
插入缓慢是一个已知问题。我很难找到这些信息，但我终于找到了一些支持该信息的链接。我将它们放在这里供后代使用:http://www.vertica-forums.com/viewtopic.php?t=267 , http://vertica-forums.com/viewtopic.php?t=124

我的解决方案:

有documentation这表明 COPY 命令(带有“DIRECT”关键字)是将大量数据加载到数据库的最有效方法。由于我正在寻找 python 解决方案，因此我使用了 Uber 的 vertica-python package这使我能够与 Vertica DB 建立连接并发送要执行的 Vertica 命令。

我想利用 COPY 命令的效率，但数据位于 Vertica 集群之外的某个位置。我需要将数据从 Spark 集群发送到 Vertica DB。幸运的是，HDFS 有一种方法可以做到这一点(请参阅 here )。我决定将数据帧转换为 csv 文件并将其保存在 HDFS 上。然后我将 COPY 命令发送到 Vertica DB 以从 HDFS 获取文件。

我的代码如下(假设我已经有一个存储 pyspark 数据帧的变量。我们称之为“df”):

    import vertica_python as VertPy

    df.toPandas().to_csv(hdfs_table_absolute_filepath, header=False, index=False)
    conn_info = {
        'host': ['your-host-here']
        'port': [port #],
        'user': ['username'],
        'password': ['password'],
        'database': ['database']
    }

    conn = VertPy.connect(**conn_info)
    cur = conn.cursor()

    copy_command = create_copy_command(table_name, hdfs_table_relative_filepath)
    cursor.execute(copy_command)

    def create_copy_command(table_name, table_filepath):
        copy_command = "COPY " + table_name + " SOURCE Hdfs(url='http://hadoop:50070/webhdfs/v1" + table_filepath + "', username='root') DELIMITER ',' DIRECT ABORT ON ERROR"
        return copy_command

关于python - 为什么从 Spark 写入 Vertica DB 比从 Spark 写入 MySQL 需要更长的时间？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36725645/

28

4

0

文章推荐： mysql - 嵌套连接查询

文章推荐： php - MySQL程序更改字符集

文章推荐： javascript - php 返回表后移动一个值

文章推荐： postgresql - Postgres generate_series 不包括日期范围

mysql - 只有 Mysql OR mysql+sqlite OR mysql+自己的解决方案
目前我正在构建相当大的网络系统，我需要强大的 SQL 数据库解决方案。我选择 Mysql 而不是 Postgres，因为一些任务需要只读(MyISAM 引擎)而其他任务需要大量写入(InnoDB)。
mysql - Linux/mysql 将 mysql 表输出写入文件并保持 mysql 格式。
我在 mysql 中使用如下命令。当它显示表格数据时，它被格式化为一个非常干净的表格，间距均匀且 |作为列分隔符。 SELECT * FROM TABLE_NAME; 当我从 CLI 运行命令时，如下
mysql - 无法从终端加载 mysql 但可以使用系统首选项启动 mysql
我知道这个问题之前已经被问过好几次了，我已经解决了很多问题，但到目前为止没有任何效果。 MySQL 试图将自身安装到的目录 (usr/local/mysql) 肯定有问题。关于我的错误的奇怪之处在于我
mysql - 在 mysql 数据查询上获取不需要的输出 mysql
以下是我的 SQL 数据结构，我正在尝试如下两个查询: Select Wrk_ID, Wrk_LastName, Skill_Desc from Worker, Skill where
mysql - 将本地 mysql 服务器复制到基于云的 mysql
我们有一个本地 mysql 服务器(不在公共(public)域上)，并希望将该服务器复制到我们拥有的 google 云 sql 实例。我的问题是:1.这可能吗？2.我们的本地服务器只能在本地网络上访问
mysql - MySQL 触发器上 MySQL 变量的算术运算
我有一个表(test_table)，其中一些字段值(例如字段 A、B 和 C)是从外部应用程序插入的，还有一个字段(字段 D)，我想从现有表(store_table)插入其值，但在插入前者(A、B 和
mysql - 无法在创建 MySQL 服务器的同一计划中使用 mysql
我想创建一个 AWS RDS 实例，然后使用 terraform 管理数据库用户。因此，首先，我创建了一个 RDS 实例，然后使用创建的 RDS 实例初始化 mysql 提供程序，以进一步将其用于用户
mysql - MySql 用户数量对 MySql 性能影响大吗？
当用户在我的网站上注册时，他们会在我的一个数据库中创建自己的表格。该表存储用户发布的所有帖子。我还想做的是也为他们生成自己的 MySql 用户——该用户仅有权从他们的表中读取、写入和删除。创建它应该
mysql - mysql 表中的下和子类别(coldfusion，mysql)
我有一个关于 ColdFusion 和 Mysql 的问题。我有两个表:PRODUCT 和 PRODUCT_CAT。我想列出包含一些标记为:IS_EXTRANET=1 的特殊产品的类别。所以我写了这个
mysql - 如何使用 MYSQL 运算符选择列所有值都必须可用 - MYSQL
我想获取 recipes_id 列的值，以获取包含 ingredient_id 的 2,17 和 26 条目的值。假设 ingredient_id 2 丢失则不获取记录。我已经尝试过 IN 运算符
mysql - MySQL 服务器和 MySQL 客户端有什么区别
在 Ubuntu 中，我通常安装两者，但 MySQL 的客户端和服务器之间有什么区别。作为奖励，当一个新语句提到它需要 MySQL 5.x 时，它是指客户端、服务器还是两者兼而有之。例如这个链接ht
mysql - mysql - 如何在没有触发器和手动插入的情况下在插入时生成/自动增加 guid mysql？
我重新访问了我的数据库并注意到我有一些 INT 类型的主键。这还不够独特，所以我想我会有一个指导。我来自微软 sql 背景，在 ssms 中你可以选择类型为“uniqeidentifier”并自
mysql - Oracle MySQL 与 MySQL 相同吗？
我的系统上有 MySQL，我正在尝试确定它是 Oracle MySQL 还是 MySQL。 Oracle MySQL 有区别吗: http://www.oracle.com/us/products/m
mysql - 本地 mysql 服务器和生产 mysql 服务器之间的显着性能差异
我是在生产 MySQL 中运行的应用程序的新维护者。之前的维护者已经离开，留下的文档很少，而且联系不上了。我面临的问题是执行以下请求大约需要 10 秒: SELECT COUNT(*) FROM `
mysql - 如何自动将数据从一个 MySQL 数据库传输到另一个 MySQL 数据库？
我有两个位于不同机器上的 MySQL 数据库。我想自动将数据从一台服务器传输到另一台服务器。比方说，我希望每天早上 4:00 进行数据传输。可以吗？是否有任何 MySQL 内置功能可以让我们做到这一
mysql - 从 mysql 目录外的 mysql 表查询？
有什么方法可以使用 jdbc 查询位于 mysql 根目录之外的目录中的 mysql 表，还是必须将它们移动到 mysql 根目录内的数据库文件夹中？我在 Google 上搜索时没有找到任何东西。最
mysql - 使用另一个 mysql 表的值更新 Mysql 表
我在 mysql 数据库中有两个表。成员和 ClassNumbers。两个表都有一个付费年份字段，都有一个代码字段。我想用代码数字表中的值更新成员表中的付费年份，其中成员中的代码与 ClassNumb
mysql - 是否可以将本地 MySQL 数据库复制到远程 MySQL 数据库？
情况:我有 2 台服务器，其中一台当前托管一个实时 WordPress 站点，我希望能够将该站点转移到另一台服务器，以防第一台服务器出现故障。传输源文件很容易；传输数据库是我需要弄清楚如何做的。两台服
mysql - 使用 mysql 查询复制 mysql 数据库
Phpmyadmin 有一个功能是“复制数据库到”..有没有mysql查询来写这个函数？类似于将 db A 复制到新的 db B。最佳答案首先创建复制数据库: CREATE DATABASE du
mysql - 当 mySQL 已安装并由另一个应用程序配置时，为新应用程序配置 mySQL
我有一个使用 mySQL 作为后端的库存软件。我已经在我的计算机上对其进行了测试，并且运行良好。当我在计算机上安装我的软件时，我必须执行以下步骤: 安装 mySQL 服务器将用户名指定为“root

首页

博学

6Ren·AI

商城

python - 为什么从 Spark 写入 Vertica DB 比从 Spark 写入 MySQL 需要更长的时间？