mysql - 如何在kafka jdbc连接源中过滤数据库中的表-6ren

mysql - 如何在kafka jdbc连接源中过滤数据库中的表

转载作者：行者123 更新时间：2023-11-29 16:16:23

我在 Confluence 社区平台中使用 Kafka Connect 来保持 MySQL 数据库同步。源和接收器是 MySQL 数据库。它不起作用。

我的情况存在一些问题:

同一服务器中的其他数据库中有表，我不想将它们读入 Kafka，但 Kafka Connect Source 不断尝试读取其他数据库。
我想在 Source Connector 和 Sink Connector 中使用 org.apache.kafka.connect.json.JsonConverter，但 Sink Connector 无法正确插入。
我想要同步多个数据库，不同数据库中的表可能具有相同的表名，如何避免表名冲突和接收器连接器正确路由 Kafka 主题以将数据插入正确的数据库？ MySQL Synchronization illustration

Kafka JDBC Source Connector 配置文件是:

{
       "name": "br-auths-3910472223-source",
       "config": {
       "connector.class": "io.confluent.connect.jdbc.JdbcSourceConnector",

       "key.converter": "org.apache.kafka.connect.json.JsonConverter",
       "key.converter.schemas.enable":"true",
       "value.converter": "org.apache.kafka.connect.json.JsonConverter",
"value.converter.schemas.enable":"true",

"tasks.max": "1",
"connection.url": "jdbc:mysql://localhost:3306/br_auths?user=root&password=123456",
"database.whitelist":"br_auths",
"table.blacklist": "br_auths.__migrationversions,br_auths.auths_service_apps",

"mode": "timestamp",
"timestamp.column.name": "utime",
"validate.non.null": "false",

"incrementing.column.name": "id",
"topic.prefix": "br_auths__"
}
}

Kafka JDBC Sink Connector 配置文件是:

{
"name": "br-auths-3910472223-sink",
"config": {
    "connector.class": "io.confluent.connect.jdbc.JdbcSinkConnector",

    "key.converter": "org.apache.kafka.connect.json.JsonConverter",
    "key.converter.schemas.enable":"true",
    "value.converter": "org.apache.kafka.connect.json.JsonConverter",
    "value.converter.schemas.enable":"true",

    "tasks.max": "1",
    "connection.url": "jdbc:mysql://rm-hp303a0n2vr8970.mysql.huhehaote.rds.aliyuncs.com:3306/dev-br-auths-391047222?user=br_auths&password=@123456",

    "topics": "br_auths__auths_roles,br_auths__auths_user_logins,br_auths__auths_user_roles,br_auths__auths_users,br_auths__auths_user_claims,br_auths__auths_user_tokens,br_auths__auths_role_claims", 

    "auto.create": "true",
    "insert.mode": "upsert",

    "transforms":"dropTopicPrefix",
    "transforms.dropTopicPrefix.type":"org.apache.kafka.connect.transforms.RegexRouter",
    "transforms.dropTopicPrefix.regex":"br_auths__(.*)",
    "transforms.dropTopicPrefix.replacement":"$1" 
}
}

我想为不同的数据库创建多对源连接器和接收器连接器，MySQL服务器A中的数据库A中的一些白名单表可以与MySQL服务器B中的数据库A增量同步。

更新1:

我更改为 connect-avro-distributed、Debezium Source Connector 和 JDBC Sink Connector。源连接器是:

{
   "name":"br-auths-3910472223-source",
   "config":{
       "connector.class": "io.debezium.connector.mysql.MySqlConnector",
       "tasks.max": "1",
       "database.hostname": "localhost",
       "database.port": "3306",
       "database.user": "root",
       "database.password": "br123456",
       "database.useLegacyDatetimeCode": "false",
       "database.server.id": "184",
       "database.server.name": "local3910472223",
       "database.whitelist":"br_auths",
       "database.history.kafka.bootstrap.servers": "localhost:9092",
       "database.history.kafka.topic": "schema-changes.br-auths.local3910472223" ,
       "table.blacklist": "br_auths.__migrationversions,br_auths.auths_service_apps",
       "include.schema.changes": "true",
       "transforms": "route,TimestampConverter",
       "transforms.TimestampConverter.type": "org.apache.kafka.connect.transforms.TimestampConverter$Value",  
       "transforms.TimestampConverter.target.type": "string", 
       "transforms.TimestampConverter.field": "payload.after.ctime", 
       "transforms.TimestampConverter.format": "yyyy-MM-dd HH:mm:ss",
       "transforms.route.type": "org.apache.kafka.connect.transforms.RegexRouter",
       "transforms.route.regex": "([^.]+)\\.([^.]+)\\.([^.]+)",
       "transforms.route.replacement": "$2__$3"  
    }
}

接收器连接器是:

{
"name": "br-auths-3910472223-sink",
"config": {
    "connector.class": "io.confluent.connect.jdbc.JdbcSinkConnector",
    "tasks.max": "1",
    "connection.url": "jdbc:mysql://rm-hp303a0n2.mysql.huhehaote.rds.aliyuncs.com:3306/dev-br-auths-391047222?useLegacyDatetimeCode=false&user=br_auths&password=123456",
    "dialect.name": "MySqlDatabaseDialect",
    "topics.regex": "br_auths__(.*)",        
    "transforms": "dropTopicPrefix,unwrap",
    "transforms.dropTopicPrefix.type":"org.apache.kafka.connect.transforms.RegexRouter",
    "transforms.dropTopicPrefix.regex":"br_auths__(.*)",
    "transforms.dropTopicPrefix.replacement":"$1",        
    "transforms.unwrap.type": "io.debezium.transforms.UnwrapFromEnvelope",
    "insert.mode": "upsert",
    "pk.fields": "Id",
    "pk.mode": "record_value"
    }
}

Avro 消息转换为 json，如下所示:

{
    "schema": {
        "type": "struct",
        "fields": [
            {
                "type": "struct",
                "fields": [
                    {
                        "type": "string",
                        "optional": false,
                        "field": "Id"
                    },
                    {
                        "type": "string",
                        "optional": false,
                        "field": "UserId"
                    },
                    {
                        "type": "string",
                        "optional": false,
                        "field": "RoleId"
                    },
                    {
                        "type": "string",
                        "optional": true,
                        "field": "APPID"
                    },
                    {
                        "type": "int32",
                        "optional": false,
                        "default": 0,
                        "field": "IsDeleted"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "name": "io.debezium.time.Timestamp",
                        "version": 1,
                        "default": 0,
                        "field": "ctime"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "name": "io.debezium.time.Timestamp",
                        "version": 1,
                        "default": 0,
                        "field": "utime"
                    }
                ],
                "optional": true,
                "name": "local3910472223.br_auths.auths_user_roles.Value",
                "field": "before"
            },
            {
                "type": "struct",
                "fields": [
                    {
                        "type": "string",
                        "optional": false,
                        "field": "Id"
                    },
                    {
                        "type": "string",
                        "optional": false,
                        "field": "UserId"
                    },
                    {
                        "type": "string",
                        "optional": false,
                        "field": "RoleId"
                    },
                    {
                        "type": "string",
                        "optional": true,
                        "field": "APPID"
                    },
                    {
                        "type": "int32",
                        "optional": false,
                        "default": 0,
                        "field": "IsDeleted"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "name": "io.debezium.time.Timestamp",
                        "version": 1,
                        "default": 0,
                        "field": "ctime"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "name": "io.debezium.time.Timestamp",
                        "version": 1,
                        "default": 0,
                        "field": "utime"
                    }
                ],
                "optional": true,
                "name": "local3910472223.br_auths.auths_user_roles.Value",
                "field": "after"
            },
            {
                "type": "struct",
                "fields": [
                    {
                        "type": "string",
                        "optional": true,
                        "field": "version"
                    },
                    {
                        "type": "string",
                        "optional": false,
                        "field": "name"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "field": "server_id"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "field": "ts_sec"
                    },
                    {
                        "type": "string",
                        "optional": true,
                        "field": "gtid"
                    },
                    {
                        "type": "string",
                        "optional": false,
                        "field": "file"
                    },
                    {
                        "type": "int64",
                        "optional": false,
                        "field": "pos"
                    },
                    {
                        "type": "int32",
                        "optional": false,
                        "field": "row"
                    },
                    {
                        "type": "boolean",
                        "optional": true,
                        "default": false,
                        "field": "snapshot"
                    },
                    {
                        "type": "int64",
                        "optional": true,
                        "field": "thread"
                    },
                    {
                        "type": "string",
                        "optional": true,
                        "field": "db"
                    },
                    {
                        "type": "string",
                        "optional": true,
                        "field": "table"
                    },
                    {
                        "type": "string",
                        "optional": true,
                        "field": "query"
                    }
                ],
                "optional": false,
                "name": "io.debezium.connector.mysql.Source",
                "field": "source"
            },
            {
                "type": "string",
                "optional": false,
                "field": "op"
            },
            {
                "type": "int64",
                "optional": true,
                "field": "ts_ms"
            }
        ],
        "optional": false,
        "name": "local3910472223.br_auths.auths_user_roles.Envelope"
    },
    "payload": {
        "before": null,
        "after": {
            "Id": "DB4DA841364860D112C3C76BDCB36635",
            "UserId": "0000000000",
            "RoleId": "5b7e5f9b4bc00d89c4cf96ae",
            "APPID": "br.region2",
            "IsDeleted": 0,
            "ctime": 1550138524000,
            "utime": 1550138524000
        },
        "source": {
            "version": "0.8.3.Final",
            "name": "local3910472223",
            "server_id": 0,
            "ts_sec": 0,
            "gtid": null,
            "file": "mysql-bin.000003",
            "pos": 64606,
            "row": 0,
            "snapshot": true,
            "thread": null,
            "db": "br_auths",
            "table": "auths_user_roles",
            "query": null
        },
        "op": "c",
        "ts_ms": 1550568556614
    }
}

使用 MySQL 日期时间类型的列被序列化为大整数，JDBC 接收器连接器尝试插入 MySQL 日期时间列，但失败。

所以我在源连接配置中编写了transforms.TimestampConverter，但ctime、utime列没有改变。怎么了？

最佳答案

如果您希望保持数据库同步，则 JDBC 源连接器不是最好的 - 您希望使用适当的基于日志的 CDC，对于 MySQL，您可以通过 Debezium 获得该连接器。更多详情here .
如果您不对数据做任何其他事情，您还需要 Kafka 吗？专用的 MySQL 复制工具会更合适吗？
针对您的具体问题。 This article将解决您的很多问题。特别是:
1. There are tables in other databases in the same server, and i don't want to read them into Kafka, but Kafka Connect Source keep trying to read other databases.
  
  根据需要使用table.whitelist、table.blacklist和schema.pattern的组合。如果您无法使用一个连接器匹配整个模式，则需要使用多个连接器来实现所需的设置。
2. I want to use org.apache.kafka.connect.json.JsonConverter in both Source Connector and Sink Connector, but sink connectors couldn't insert correctly.
  
  如果没有您解释“无法正确插入”，就很难回答这个问题。一般来说，我会使用 Avro，因为它有更丰富的模式支持和更高效的消息(没有嵌入模式，模式存储在模式注册表中)。请参阅here了解更多详情。
3. I want to synchronize several databases, tables in different databases may be with same table names, how to avoid table names conflict and sink connectors route the Kafka topics correctly to insert data into the right databases?
  
  您将需要在源连接器上使用 topic.prefix 组合来标记来自特定源的主题，然后使用单消息转换 RegexRouter (如您所愿)我们已经发现)可以在源连接器和/或接收器连接器中进一步操作主题名称。您可能需要多个接收器连接器，使用 topics.regex 来选择特定主题以路由到特定数据库。

关于mysql - 如何在kafka jdbc连接源中过滤数据库中的表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54760192/

文章推荐： javascript - Mocha 不会在 after() 函数中调用 rmdir

文章推荐： mysql - 将三个表与 2 个不同的公共(public)列连接起来

node.js - API 分页、过滤、排序 VS CLIENT 分页、过滤、排序
场景网站页面有一个带有分页、过滤、排序功能的表格 View 。表中的数据是从REST API服务器获取的，数据包含数百万条记录。数据库 REST API 服务器 Web 服务器浏览器问
MYSQL表搜索-过滤
我有一个表student，其中的列dte_date(日期)具有值(2019-01-01、2019-02-01、2019-03-01)。 .等) 条件: dte_date 列中没有重复值。但 dte_
java流按属性对列表进行排序/过滤
我有一些逻辑可以根据不活动的用户创建通知。我正在获取具有以下属性的用户列表。我想做的只是在部门有非 Activity 用户时触发我的创建通知方法。因此，给出下面的列表，基本上会创建 1 个通知，表示部
过滤/归一化不良信号的算法
使用 GPS 开发跟踪应用程序。一切都很好，但有时由于封闭区域或恶劣天气，我得到的分数不准确。当您绘制它们时，它看起来不对，有很多跃点/跳跃。我应该运行什么算法来过滤掉不良信号对我来说，这看起来像是
通过动态类快速映射/过滤？
我正在尝试按变量类型过滤对象数组。节点是一个具有位置的对象，但以不同的方式定义——作为点、矢量或附件。这是一个代码: class Joint { var position:Position
cuda - 推力收集/过滤
我想做的是在向量上创建一个过滤器，以便它删除未通过谓词测试的元素；但不太确定我该怎么做。我根据谓词评估输入向量中的每个元素，例如在我的代码中，is_even 仿函数在 device_vector 向
过滤 gremlin 结果
我是 Gremlin 的新手，我正在使用 Gremlin 3.0.2 和 Stardog 5.0。我编写此查询是为了找出 schema.org 本体中两个实体之间的路径。以下是输出 - gremlin
r - 基于交替值的快速排序/过滤
考虑以下示例数据表， dt 30 的那一行需要去 - 或者如果其中两行 > 30相隔几秒钟，删除所有 3 个。然而，当我们有 4 行或更多行时，我们需要删除时间差 > 30 没有另一对 < 30
发布者的 ZeroMQ 过滤
我正在考虑使用 ZeroMQ，并尝试了一些示例。但是，我无法验证 ZeroMQ 是否支持一些重要的要求。我希望你能帮助我。我将使用这个简单的场景来问我的问题: 出版商(例如交易所)提供(大量)股票的
Django modelformset_factory() 过滤
我需要从我的查询中过滤掉大量的对象。目前，它正在抓取类中的所有对象，我想将其过滤为查询字符串中的相关对象。我怎样才能做到这一点？当我尝试时，我收到一个属性错误说明 ''QuerySet' object
基于标签的 Prometheus 过滤
如何在 Prometheus 查询中添加标签过滤器？ kube_pod_info kube_pod_info{created_by_kind="ReplicaSet",created_by_name=
r - 过滤/子集包含某些字符串以外的任何内容的行
我有包含字符串的列的数据框，并希望过滤掉包含某些字符串以外的任何内容的所有行。考虑下面的简化示例: string % dplyr::filter(stringr::str_detect(string,
r - 过滤/子集数据框到变化的阈值
我有以下数据框，其中包含多行的角度变化值: 'data.frame': 712801 obs. of 4 variables: $ time_passed: int 1 2 3 4 5 6
rxjs - 过滤 BehaviorSubject
我有一个 BehaviorSubject我希望能够filter ，但要保持新订阅者在订阅时始终获得一个值的行为主题式质量，即使最后发出的值被过滤掉。有没有一种简洁的方法可以使用 rxjs 的内置函数来
过滤 RSS 提要以仅显示更受欢迎的链接
我有一个 RSS 提要，每天输出大约 100 篇文章。我希望过滤它以仅包含更受欢迎的链接，也许将其过滤到 50 个或更少。回到当天，我相信您可以使用“postrank”来做到这一点，但在谷歌收购后现已
xslt - XSLT-过滤
我有这样一个重复的xml树- this is a sample xml file yellowred blue greyredblue 如您所见，每个项目可以具有不同数量的颜色标签
Haskell迭代二维列表，过滤，输出一维列表
我以为我在 Haskell 学习中一帆风顺，直到... 我有一个 [[Int]] tiles = [[1,0,0] ,[0,1,0] ,[0,1,0]
javascript - 过滤 observableArray
我在使用 Knockout.js 过滤可观察数组时遇到问题我的js: 包含数据的数组 var docListData = [ { name: "Article Name 1", info:
javascript - Angular 过滤
我在 mongoDB 中有这个架构: var CostSchema = new Schema({ item: String, value: Number }); var Attachm
r - 根据列中的条件对数据框中的行进行子集化/过滤
给定一个数据框“foo”，我如何才能只选择“foo”中的那些行，例如foo$location =“那里”？ foo = data.frame(location = c("here", "there",

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

mysql - 如何在kafka jdbc连接源中过滤数据库中的表