- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
瞄准
将我的 elasticsearch 服务器与我的 SQL 数据库中的新数据和过期数据同步
问题
我有两种截然不同的方法可以实现这一点,我不知道哪种更好。我可以通过使用 JDBC river 插件直接连接到 SQL 数据库来拉 信息到 elasticsearch。或者,我可以使用 PHP 客户端将数据推送 到 elasticsearch,示例代码如下所示:
// The Id of the document
$id = 1;
// Create a document
$tweet = array(
'id' => $id,
'user' => array(
'name' => 'mewantcookie',
'fullName' => 'Cookie Monster'
),
'msg' => 'Me wish there were expression for cookies like there is for apples. "A cookie a day make the doctor diagnose you with diabetes" not catchy.',
'tstamp' => '1238081389',
'location'=> '41.12,-71.34',
'_boost' => 1.0
);
// First parameter is the id of document.
$tweetDocument = new \Elastica\Document($id, $tweet);
// Add tweet to type
$elasticaType->addDocument($tweetDocument);
// Refresh Index
$elasticaType->getIndex()->refresh();
我打算每 30 分钟运行一次 cron,以检查数据库中不仅有“事件”标志而且没有“索引”标志的项目,这意味着我需要将它们添加到索引。
问题
看到我有两种方法以两种不同的方式在elasticsearch和mysql之间同步数据,每个选项的优点和缺点是什么。是否有一个特定的用例定义了使用一个而不是另一个?
最佳答案
我会使用河流方法,甚至认为内部构建解决方案可能更可定制。
一方面,jdbc-river 插件是一个已经构建好的插件,到目前为止它有大约 20 个贡献者。因此,在 Elasticsearch 本身不断改进的过程中,您有一个额外的团队致力于改进该工具。
您所要做的就是安装它,您甚至不需要复杂的配置来在集群和关系数据库之间设置一条河流。
jdbc-river 解决方案的另一个优点是您不需要处理内存管理。该插件可以在“拉模式”下作为河流运行,或在“推模式”下作为馈线运行。在 feeder 模式下,插件在单独的 JVM 中运行,并且可以连接到远程 Elasticsearch 集群。我个人更喜欢 river 模式,因为在这种情况下,Elasticsearch 会处理索引和内存管理问题。
关系数据在内部转换为结构化 JSON 对象,用于 Elasticsearch 文档的无模式索引模型。
两端都是可扩展的。该插件可以从不同的 RDBMS 源并行获取数据,多线程批量模式可确保索引到 Elasticsearch 时的高吞吐量。
此解决方案的缺点之一是它不会在完成索引时发出通知。作为解决方案,我建议您使用 Count API比较结果。
河流的另一个缺点是它不会在更新 时拉动,它只会在插入 或删除 时拉动。我指的当然是 sql 操作更新、插入和删除。
二手,您的解决方案可能会带来一些您可能需要考虑的优点和缺点。
您的解决方案是高度可定制的,因此您可以根据需要管理脚本。但是考虑到任何可用的 PHP Elasticsearch 客户端(Official Elasticseach-php Client、Elastica 或 FOSElasticaBundle)的当前状态,甚至认为这些人在它们上做得很好,它仍然被认为是一个不太成熟的 API 可以使用与用于河流的官方 Elasticsearch JAVA API 相比,在该级别上。
您还应该考虑处理所有可能导致集群因内存丢失、管理、性能等问题而出现的错误。
示例:我尝试使用 Elastica API 构建概念验证,将我的数据从我的数据库推送到我的集群,配置为 32g RAM,8 个内核,每个内核运行 @2.05GHz,在测试环境中,没有进入很多细节。我花了5个小时才把10M条记录从数据库推送到集群。与河流一样,同样的记录需要 20 分钟。当然,可以围绕我的代码进行优化,但我认为它可以给我带来更多的时间。
所以,只要能根据自己的需要定制河流,就用吧。如果河流不支持你想做的事情,那么你可以坚持自己的解决方案。
注意:当然,您可能还需要考虑其他要点,但这个主题在这里讨论的时间很长。所以我选择了一些你应该知道的重要点。
关于php - Elasticsearch - 我需要 JDBC 驱动程序吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25763997/
我正在尝试用 C 语言编写一个使用 gstreamer 的 GTK+ 应用程序。 GTK+ 需要 gtk_main() 来执行。 gstreamer 需要 g_main_loop_run() 来执行。
我已经使用 apt-get 安装了 opencv。我得到了以下版本的opencv2,它工作正常: rover@rover_pi:/usr/lib/arm-linux-gnueabihf $ pytho
我有一个看起来像这样的 View 层次结构(基于其他答案和 Apple 的使用 UIScrollView 的高级 AutoLayout 指南): ScrollView 所需的2 个步骤是: 为 Scr
我尝试安装 udev。 udev 在 ./configure 期间给我一个错误 --exists: command not found configure: error: pkg-config and
我正在使用 SQLite 3。我有一个表,forums,有 150 行,还有一个表,posts,有大约 440 万行。每个帖子都属于一个论坛。 我想从每个论坛中选择最新帖子的时间戳。如果我使用 SEL
使用 go 和以下包: github.com/julienschmidt/httprouter github.com/shwoodard/jsonapi gopkg.in/mgo.v2/bson
The database仅包含 2 个表: 钱包(100 万行) 事务(1500 万行) CockroachDB 19.2.6 在 3 台 Ubuntu 机器上运行 每个 2vCPU 每个 8GB R
我很难理解为什么在下面的代码中直接调用 std::swap() 会导致编译错误,而使用 std::iter_swap 编译却没有任何错误. 来自 iter_swap() versus swap() -
我有一个非常简单的 SELECT *用 WHERE NOT EXISTS 查询条款。 SELECT * FROM "BMAN_TP3"."TT_SPLDR_55E63A28_59358" SELECT
我试图按部分组织我的 .css 文件,我需要从任何文件访问文件组中的任何类。在 Less 中,我可以毫无问题地创建一个包含所有文件导入的主文件,并且每个文件都导入主文件,但在 Sass 中,我收到一个
Microsoft.AspNet.SignalR.Redis 和 StackExchange.Redis.Extensions.Core 在同一个项目中使用。前者需要StackExchange.Red
这个问题在这里已经有了答案: Updating from Rails 4.0 to 4.1 gives sass-rails railties version conflicts (4 个答案) 关
我们有一些使用 Azure DevOps 发布管道部署到的现场服务器。我们已经使用这些发布管道几个月了,没有出现任何问题。今天,我们在下载该项目的工件时开始出现身份验证错误。 部署组中的节点显示在线,
Tip: instead of creating indexes here, run queries in your code – if you're missing any indexes, you
你能解释一下 Elm 下一个声明中的意思吗? (=>) = (,) 我在 Elm architecture tutorial 的例子中找到了它 最佳答案 这是中缀符号。实际上,这定义了一个函数 (=>
我需要一个 .NET 程序集查看器,它可以显示低级详细信息,例如元数据表内容等。 最佳答案 ildasm 是 IL 反汇编程序,具有低级托管元数据 token 信息。安装 Visual Studio
我有两个列表要在 Excel 中进行比较。这是一个很长的列表,我需要一个 excel 函数或 vba 代码来执行此操作。我已经没有想法了,因此转向你: **Old List** A
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想要改善这个问题吗?更新问题,以便将其作为on-topi
我正在学习 xml 和 xml 处理。我无法很好地理解命名空间的存在。 我了解到命名空间帮助我们在 xml 中分离相同命名的元素。我们不能通过具有相同名称的属性来区分元素吗?为什么命名空间很重要或需要
我搜索了 Azure 文档、各种社区论坛和 google,但没有找到关于需要在公司防火墙上打开哪些端口以允许 Azure 所有组件(blob、sql、compute、bus、publish)的简洁声明
我是一名优秀的程序员,十分优秀!