hadoop - 通过 levenshtein 在 Hive 或 Impala 中加入的有效方法-6ren

hadoop - 通过 levenshtein 在 Hive 或 Impala 中加入的有效方法

转载作者：可可西里更新时间：2023-11-01 15:00:15

25

4

我有两个表，一个包含大约 17K (NLIST) 条记录，另一个包含 57K (FNAMES) 条记录。

我想通过使用 levenshtein 公式比较记录来加入两者。

下面是表格内容的例子:

表NLIST:

+------+-------------+
| ID   |   S_NAME    |
+------+-------------+
|  1   |   Avi       |
|  2   |   Moshe     |
|  3   |   David     |
....

表FNAMES:

+------+-------------+
| ID   |   NICKNAMES |
+------+-------------+
|  1   |  Avile      |
|  2   |  Dudi       |
|  3   |  Moshiko    |
|  4   |  Avi        |
|  5   |  DAVE       |
....

以上表格仅为示例。在实际情况下，名称列可以包含多个单词。

要求的结果应该是:

+------+-------------+--------+
| ID   |   NICKNAMES | S_NAME |
+------+-------------+--------+
|  1   |  Avile      | Avi    |
|  2   |  Dudi       | David  |
|  3   |  Moshiko    | Moshe  |
|  4   |  Avi        | Avi    |
|  5   |  DAVE       | David  |
...

这是我使用的代码:

select FNAMES.NICKNAMES, NLIST.S_NAME  
from NICKNAMES
LEFT OUTER JOIN NLIST
ON(true)  
WHERE levenshtein (FNAMES.NICKNAMES, NLIST.S_NAME) <=4

上面的代码运行了很长时间，我停止了它的运行。

如何让它在合理的时间内运行？

另外，我认为 levenshtein 距离取决于单词的长度。我怎样才能找到距离的最佳值(在本例中我任意选择了 4)？

最佳答案

Hive 表性能取决于各个方面。

查询引擎
文件格式
使用 VECTORIZATION set hive.vectorized.execution.enabled = true;set hive.vectorized.execution.reduce.enabled = true;

如果你有好的服务器，你可以试试 Impala，它肯定比 Hive 快。

您可以对 impala 进行微调，这将使您有优势更快地执行此查询。 Tuning Impala for Performance

关于hadoop - 通过 levenshtein 在 Hive 或 Impala 中加入的有效方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42802959/

25

4

0

文章推荐： javascript - 固定位置 : scrolling

文章推荐： python - Beautiful Soup - 获取包含字符串的参数属性

文章推荐： hadoop - 如何将列添加到现有的配置单元外部表？

impala - Impala 中无效元数据和刷新命令之间的区别？
我看到这个链接影响 Impala version 1.1 : Since Impala 1.1, REFRESH statement only works for existing tables. F
impala - 如何访问 Impala 解析器
Impala 是否重用 hive SQL 解析器？我正在尝试编写一个自定义 Java 代码来检查我的应用程序中的查询正确性。我正在寻找一个可以使用 sql 查询的 api，并让我知道它在语法上对于
impala - 使用 Impala JDBC 驱动程序指定非默认数据库
我正在使用 Impala JDBC 驱动程序(或者我猜它实际上是 Hive Server 2 JDBC 驱动程序)。我在另一个数据库中创建了一个 View ——我们称它为“store55”。假设我的
impala - 如果无效元数据可以做同样的事情，为什么需要在 Impala 中刷新
如果我创建一个表，使用 Hive，在其中插入记录并首先在 Impala 中反射(reflect)同一个表，我必须运行 Invalidate Metadata，它反射(reflect)了执行程序上的元数
impala - 列出需要失效/刷新的 Impala 表
我如何以编程方式找到所有需要 INVALIDATE METADATA 语句的 Impala 表(因为它们是在 Hive 中创建的，但 Impala 尚不知道)或 REFRESH(因为列已添加、已添加数
impala - impala 的 view 或 with 子句是否只计算一次并在查询中多次使用？
with core as ( select t1.a, t1.b, t2.c from test_1 t1 join test_2 t2 on t1.a = t
impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么？
对于Presto和Impala的区别，有没有专家能从这些角度给出一些简洁的回答？基础架构设计 SQL 合规性真实世界的延迟任何 SPOF 或容错功能结构化和非结构化数据使用场景表现最佳答案
cloudera - 如何使用 impala-shell 或其他方式复制 cloudera impala 表？
当我显示表格时，我在 Impala 中看到一个表格“测试”；我想复制“test”表，使其完全相同，但命名为“test_copy”。我可以执行 impala 查询来执行此操作吗？如果没有，我该怎么做？
hadoop - Impala:使用load inpath加载数据时出错:AccessControlException:粘滞位拒绝了权限:user = impala
所有，我是新手，很少尝试用例。我在hdfs中有一个文件，想加载到impala表中。 -在hdfs上的文件位置:hdfs:// xxx / user / hive / warehouse / imp
r - 在没有 Impala JDBC 驱动程序的情况下从 R 连接到 Impala
由于未公开的原因，我的 Impala 没有安装 JDBC 驱动程序。这使得 connection from R to Impala具有挑战性的。我能够通过 Putty 连接(和查询)到 Impala
hadoop - 如果在 impala statestore 关闭时执行 DDL，为什么 Impala 查询会失败？
在 impala 的官方文档中 here , statestore 组件有一条语句: If you issue a DDL statement while the statestore is down
hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数？
Impala 确实支持 UDFs written in C++ or Java ，但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容
hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？
我正在处理概念验证任务。任务是使用 Hadoop 技术实现我们产品的一项功能。功能非常简单，我们有一个 UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到 Ora
macos - 在 mac os x 上安装 cloudera impala shell 并连接到 impala 集群
我们在产品上有 impala 服务器，我需要从本地 macbook w/mac os x (10.8) 使用 impala shell 连接到它。我下载了Impala-cdh5.1.0-releas
hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果
我有两个 Java 中的 Hive UDF，它们可以工作在 Hive 中非常好。这两个功能是互补的。 String myUDF(BigInt) BigInt myUDFReverso(String)
impala - 如何检查Impala表中是否存在列？
我在 Impala 中创建了一个外部表。我正在编写一个 shell 脚本，用于检查该表中是否存在特定的列。我们可以使用以下查询在 MySql 中执行此操作。 SELECT * FROM inform
impala - impala是否在查询后缓存一些数据
我是 Impala 的新手，我在 Impala 上做了一些测试用例。当我第二次调用时，我发现类似的 SQL 快得多。例如: table1 = 4B 行 table2 = 5000 万行第一次查询:
cloudera - Impala 数据局部性
我对 impala 中的数据局部性有疑问，假设我有 10 个数据节点的集群(每个数据节点上都有 impalad)，如果我在 impala 中执行查询 SELECT * FROM big_table w
impala - 如何判断一个Impala对象的名字对应一个 View
Impala 中有没有一种方法可以确定 SHOW TABLES 返回的对象名称是否存在？对应于表或 View ，因为: 该语句只返回对象名称，不返回类型 SHOW CREATE VIEW只是 SHOW
hive - Impala:像查询一样显示表
我正在使用 Impala 并使用如下所示的某种模式从数据库中获取表列表。假设我有一个数据库 bank , 该数据库下的表如下所示。 cust_profile cust_quarter1_transa

首页

博学

6Ren·AI

商城

hadoop - 通过 levenshtein 在 Hive 或 Impala 中加入的有效方法