mysql - 获取特定范围/半径内的所有行(文档术语矩阵)-6ren

mysql - 获取特定范围/半径内的所有行(文档术语矩阵)

转载作者：行者123 更新时间：2023-11-29 02:28:00

28

4

我在 mysql 中存储了一个文档术语矩阵，并希望获得如下查询的结果:

示例:获取 token_id '1' 和 token_id '2'(但可能超过 2 个)在 10 个单词范围内的所有行。

我的 table :

dt_matrix_token_id int(11) PK AUTO_INCREMENT,
token_id int(11),
storage_data_id int(11),
position int(11)

所以基本上 token_id 描述了标记，position 描述了标记在原始文本中的位置。

按 token_id 选择行不是问题，问题在于我如何在查询中描述两个词必须在特定的“半径/范围内”。

Select * FROM dt_matrix_token WHERE token_id IN(1,2) AND ???

??? 这就是我卡住的地方，因为我怎么知道它应该查询找到的值？因为当结果包含 position = 12 的行时，所有其他有效行的 position >= 2 & position =< 22

顺便说一句:它可以类似于半径内的地理位置查询吗？

编辑:这是我在样本数据方面的实际进展:http://sqlfiddle.com/#!2/52f48/2

查询工作正常，但还没有完成，所以如果 2x token 1 在文档中匹配，它也是一个“有效”结果，这当然是错误的。只有当所有给定的标记都存在时，它才是正确的。并且解决方案必须可扩展到 3+ 个 token 。

最佳答案

我将从 dt_matrix_token 表中的查询开始，该表与 dt_matrix_token 表的第二个实例相结合，其中两个实例都有一个 token_id在您感兴趣的值范围内，但它们不能具有相同的值。

它们还应具有匹配的 storage_data_id(即它们在同一文档中)，并且第二个标记的位置必须大于或等于第一个。

SELECT mt1.dt_matrix_token_id, mt1.storage_data_id,
  mt1.token_id AS token_id1, mt2.token_id AS token_id2,
  mt1.position AS position1, mt2.position AS position2
FROM dt_matrix_token AS mt1
JOIN dt_matrix_token AS mt2
WHERE mt1.token_id IN (1,2,3) 
  AND mt2.token_id IN (1,2,3)
  AND mt1.token_id <> mt2.token_id
  AND mt1.storage_data_id = mt2.storage_data_id
  AND mt2.position >= mt1.position

这会为您提供您关心的每一对连续的标记。

现在，如果您按第一个表中的 dt_matrix_token_id 与第二个表中的 token_id 组合，您可以将该组结果缩小为每个 < em>token_id 从第二个表中获取第一个中的每个标记。

当对第二个表的结果进行分组时，这是您关心的最小位置。由于第二个标记总是跟在第一个标记之后，因此这会为您提供最接近第一个标记的位置。

SELECT mt1.dt_matrix_token_id, mt1.storage_data_id,
  mt1.token_id AS token_id1, mt2.token_id AS token_id2,
  mt1.position AS position1, MIN(mt2.position) AS position2
FROM dt_matrix_token AS mt1
JOIN dt_matrix_token AS mt2
WHERE mt1.token_id IN (1,2,3) 
  AND mt2.token_id IN (1,2,3)
  AND mt2.token_id <> mt1.token_id
  AND mt2.storage_data_id = mt1.storage_data_id
  AND mt2.position >= mt1.position 
GROUP BY mt1.dt_matrix_token_id, mt2.token_id

现在，对于您关心的标记的每个实例，您在同一文档中拥有最接近它后面的任何标记的位置。

但您真正想要的是从第一个标记到它后面的任何标记的最大距离。因此，您需要再次按 dt_matrix_token_id 分组，并计算到第二个位置的最大值(即每个 token_id 的最小值的最大值)的距离。

SELECT dt_matrix_token_id, storage_data_id,
  MAX(position2)-position1 AS distance
FROM (
  SELECT mt1.dt_matrix_token_id, mt1.storage_data_id,
    mt1.position AS position1, MIN(mt2.position) AS position2
  FROM dt_matrix_token AS mt1
  JOIN dt_matrix_token AS mt2
  WHERE mt1.token_id IN (1,2,3) 
    AND mt2.token_id IN (1,2,3)
    AND mt2.token_id <> mt1.token_id
    AND mt2.storage_data_id = mt1.storage_data_id
    AND mt2.position >= mt1.position 
  GROUP BY mt1.dt_matrix_token_id, mt2.token_id
) AS temp
GROUP BY dt_matrix_token_id

但是，并不是第一个表中的每个标记后面都会跟着您关心的所有其他标记。所以你需要确保每组结果的 COUNT 等于你关心的标记数减去一个(第一个表中有 1 个标记，第二个表中有 n-1 个标记) .

您可以使用 HAVING 子句 - HAVING COUNT(*) = 3-1 - 表达式中的 3 表示您要搜索的标记数为。

现在对于您关心的标记的每个实例，其后是您关心的所有其他标记(在同一文档中)，您有覆盖所有这些标记的最短距离。

但是每个文档很可能会有多个结果，您实际上只需要知道每种情况下最短的一个。所以现在您需要按 storage_data_id 分组并计算组中的最小距离。

SELECT storage_data_id, MIN(distance) AS distance
FROM (
  SELECT dt_matrix_token_id, storage_data_id,
    MAX(position2)-position1 AS distance
  FROM (
    SELECT mt1.dt_matrix_token_id, mt1.storage_data_id,
      mt1.position AS position1, MIN(mt2.position) AS position2
    FROM dt_matrix_token AS mt1
    JOIN dt_matrix_token AS mt2
    WHERE mt1.token_id IN (1,2,3) 
      AND mt2.token_id IN (1,2,3)
      AND mt2.token_id <> mt1.token_id
      AND mt2.storage_data_id = mt1.storage_data_id
      AND mt2.position >= mt1.position 
    GROUP BY mt1.dt_matrix_token_id, mt2.token_id
  ) AS temp
  GROUP BY dt_matrix_token_id
  HAVING COUNT(*) = 3-1
) AS temp
GROUP BY storage_data_id

这会为您提供包含所有您关心的标记的每个文档，以及覆盖所有这些标记的最小距离。要将结果限制在特定范围内的距离，您可以添加另一个 HAVING 子句。

HAVING distance <= 20

然后该查询的结果数应该告诉您有多少文档包含指定范围内您关心的所有标记。

关于mysql - 获取特定范围/半径内的所有行(文档术语矩阵)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17974230/

28

4

0

文章推荐： Android更改默认 "Paste"edittext的弹出文本颜色

文章推荐： iOS UITableView 默认滑动删除按钮在滑动单元格时不显示

文章推荐： ios - 在中心设备屏幕中布局 UIView

c# - 异步任务获取 VS HttpResponseMessage 获取
我需要您在以下方面提供帮助。近一个月来，我一直在阅读有关任务和异步的内容。我想尝试在一个简单的 wep api 项目中实现我新获得的知识。我有以下方法，并且它们都按预期工作: public Htt
java - 无法从 URL 获取 URI，获取 null？
我的可执行 jar 中有一个模板文件 (.xls)。不需要在运行时我需要为这个文件创建 100 多个副本(稍后将唯一地附加)。用于获取 jar 文件中的资源 (template.xls)。我正在使用
javascript - Backbone 的模型原型(prototype)获取 vs backbone 获取
我在查看网站的模型代码时对原型(prototype)有疑问。我知道这对 Javascript 中的继承很有用。在这个例子中... define([], function () { "use
javascript - 获取 scrollTop、获取 offsetHeight 和 getStyle 需要很长时间
影响我性能的前三项操作是: 获取滚动条获取偏移高度 Ext.getStyle 为了解释我的应用程序中发生了什么:我有一个网格，其中有一列在每个单元格中呈现网格。当我几乎对网格的内容做任何事情时，它运
javascript - 获取 URL 参数函数，获取 url 部分的值，或者如果存在但没有值则返回 true？
我正在使用以下函数来获取 URL 参数。 function gup(name, url) { name = name.replace(/[\[]/, '\\\[').replace(/[\]]/,
c - MacOS 使用 sysctl() 获取 HW_MACHINE_ARCH 获取 "no such file or directory"
我最近一直在使用 sysctl 来做很多事情，现在我使用 HW_MACHINE_ARCH 变量。我正在使用以下代码。请注意，当我尝试获取其他变量 HW_MACHINE 时，此代码可以完美运行。我还认为
ios - 将我的 YouTube channel 获取(获取)到我的 iOS 应用程序中
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。关闭 9 年前。要求提供代码的问题必须表现出对所解决问题的最低限度的理解。包括尝试过的解决方案、为什么
javascript - webpack:如何从 "bower_components"获取 JavaScript，而不是从 "node_modules"获取 JavaScript
由于使用 main-bower-files 作为使用 Gulp 的编译任务的一部分，我无法使用 node_modules 中的 webpack 来require 模块code> dir 因为我会弄乱当
Javascript - 从 "Monday"获取 "mon"或从 "Tuesday"获取 "tue"等
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
Java:无法将 Gridlayout 应用于 Jscrollpane。获取获取 java.lang.ClassCastException
我使用 Gridlayout 在一行中放置 4 个元素。首先，我有一个 JPanel，一切正常。对于行数变大并且我必须能够向下滚动的情况，我对其进行了一些更改。现在我的 JPanel 上添加了一个 J
python - 如何从 key BlockDeviceMappings 获取 VolumeId(boto3 获取 ec2 的卷信息)
由于以下原因，我想将 VolumeId 的值保存在变量中: #!/usr/bin/env python import boto3 import json import argparse import
angularjs - 未使用 acquireTokensilent 获取 token ，但使用 acquireTokenpopup Msal-browser 获取 token
我正在将 MSAL 版本 1.x 更新为 MSAL-browser 的 Angular 。所以我正在尝试从版本 1.x 迁移到 2.X.I 能够成功替换代码并且工作正常。但是我遇到了 acquireT
python - 使用 GroupBy 获取 Pandas 的平均值 - 获取 DataError : No numeric types to aggregate -
我知道有很多关于此的问题，例如 Getting daily averages with pandas和 How get monthly mean in pandas using groupby但我遇到
javascript - 无法在 mvc 获取 Controller 方法(来自 Uri())中从 QueryString 获取 DATETIME
This is the query string that I am receiving in URL. Output url: /demo/analysis/test?startDate=Sat+
ubuntu - 从 OpenLayer 3 获取 Geoserver 获取 '500 (Internal Server Error)'
我正在尝试使用 javascript 中的以下代码访问 Geoserver 层 var gkvrtWmsSource =new ol.source.ImageWMS({ u
javascript - 使用 XMLHttpRequest 获取 Ecobee API 信息。获取 500(错误 1 : "Authentication failed. Token is required.")
API 需要一个包含授权代码的 header 。这就是我到目前为止所拥有的: var fullUrl = 'https://api.ecobee.com/1/thermostat?json=\{"s
c# - 获取/删除文件的最后一个字符而不加载到内存中
如何获取文件中的最后一个字符，如果是某个字符，则删除它而不将整个文件加载到内存中？这就是我目前所拥有的。 using (var fileStream = new FileStream("file.t
JSP 获取/设置整个对象的参数
我是这个社区的新手，想出了我的第一个问题。我正在使用 JSP，我成功地创建了 JSP-Sites，它正在使用jsp:setParameter 和 jsp:getParameter 具有单个字符串。
multithreading - 获取/释放语义
在回答 StoreStore reordering happens when compiling C++ for x86 @Peter Cordes 写过 For Acquire/Release se
javascript - 获取 .on 中使用的函数的结果
我有一个函数，我们将其命名为 X1，它返回变量 Y。该函数在操作 .on("focusout", X1) 中使用。如何获取变量Y？执行.on后X1的结果？最佳答案您可以更改 Y 的范围以使其位于函

首页

博学

6Ren·AI

商城

mysql - 获取特定范围/半径内的所有行(文档术语矩阵)