string - 给定一个搜索词列表，我如何知道我的字符串包含哪些？-6ren

string - 给定一个搜索词列表，我如何知道我的字符串包含哪些？

转载作者：行者123 更新时间：2023-12-04 05:51:10

24

4

有很多软件可以使用搜索字符串并在您的数据库中找到包含它的所有文本(MySQL 的 WHERE MATCH('searchterm', string_column) 、Google 等)，但是有没有一种好的算法可以反其道而行之？

假设我有一个搜索词列表:

Toyota Prius, Toyota Tacoma, Honda Civic, Chevy Nova, Chevy Volt

我有一个字符串，例如:

1962 Chevy Nova convertable

有没有一个好的算法可以把列表和字符串放进去，然后得到 Chevy Nova出去？

如果它们都很容易标记，我可以标记它们并进行内部连接，但我对无法判断输入字符串的哪一部分是“重要”部分的情况感兴趣。

最佳答案

如果您对“1962 Chevy Nova 敞篷车”[原文如此] 进行代币化，您最终会得到四个都很重要或足够有趣的代币。如果您要跟踪您的语言中所有可能的单词，您将拥有每个单词的索引。

另一方面，你有你的搜索词。在每种情况下，您都对有趣的词进行了标记和索引。每一个都可以看作是一对两个 token 索引。

那么如果您输入并查找匹配的搜索词，您会问哪些搜索词具有输入的任何单词？

因为我本质上是一个数据库专家，所以我可以想象像这样创建 token 列表:

CREATE TABLE aa_tokens (
  id INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,
  word VARCHAR( 40 ) NOT NULL 
);

insert into aa_tokens (word) values
  ('1962'),           -- 1
  ('Chevy'),          -- 2
  ('Civic'),          -- 3
  ('Honda'),          -- 4
  ('Nova'),           -- 5
  ('Prius'),          -- 6
  ('Tacoma'),         -- 7
  ('Toyota'),         -- 8
  ('Volt'),           -- 9
  ('convertable');    -- 10

和一个搜索表，以便每个都可以有一个 id:

CREATE TABLE aa_search (
  id INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,
  text VARCHAR( 255 ) NOT NULL
);

insert into aa_search (text) values
  ('Toyota Prius'),   -- 1
  ('Toyota Tacoma'),  -- 2
  ('Honda Civic'),    -- 3
  ('Chevy Nova'),     -- 4
  ('Chevy Volt');     -- 5

然后是一个结合了搜索和标记的表格:

CREATE TABLE aa_searchToks (
  search INT NOT NULL,
  token INT NOT NULL
);

insert into aa_searchToks (search, token) values
  (1, 8),
  (1, 6),
  (2, 8),
  (2, 7),
  (3, 4),
  (3, 3),
  (4, 2),
  (4, 5),
  (5, 2),
  (5, 9);

现在，如果我们将输入字符串“1962 Chevy Nova convertable”转换为标记 (1, 2, 5, 10)，我们可以进行查询，查看搜索词的标记:

select search, count(*) from aa_searchToks
  where token in (1, 2, 5, 10) group by search;

其结果是:

+--------+----------+
| search | count(*) |
+--------+----------+
|      4 |        2 |
|      5 |        1 |
+--------+----------+

或查询有点不同:

select search, (select text from aa_search s where st.search = s.id) as text, 
  count(*) from aa_searchToks st where token in (1, 2, 5, 10) group by search;

导致:

+--------+------------+----------+
| search | text       | count(*) |
+--------+------------+----------+
|      4 | Chevy Nova |        2 |
|      5 | Chevy Volt |        1 |
+--------+------------+----------+

我们可以看到“Chevy Nova”匹配两个标记并且是最佳匹配，当然，它是。

关于string - 给定一个搜索词列表，我如何知道我的字符串包含哪些？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10022062/

24

4

0

文章推荐： playframework - Play Framework 处理部分形式

文章推荐： ruby-on-rails - Ruby on Rails 或 Java EE 哪个更适合我？

perl - 给定/当值未定义时
在下面的代码中，我得到一个 uninitialized value警告，但仅限于第二个 given/when例子。为什么是这样？ #!/usr/bin/env perl use warnings; u
perl - 给定/何时的哪些部分是实验性的？
整个“开关”功能是否已成为实验性的？在没有 Perl 的 future 版本破坏我的代码的情况下，我可以依赖其中的某些部分吗？一般来说，将稳定功能更改为实验性的政策是什么？背景use feature
c++ - 条件语句(给定)
有没有办法在一个条件语句中写出如下语句？ a和b不能同时等于5。 (a可以是5，b可以是5，但是a AND b不能是5) 最佳答案正如克里斯指出的那样，您要查找的是逻辑异或，相当于逻辑不等于 !=:
给定 n 条线查找所有线段交点的算法
我正在寻找一种算法来找到给定 n 条线段的所有交点。以下是来自 http://jeffe.cs.illinois.edu/teaching/373/notes/x06-sweepline.pdf 的伪
python - 给定 k 个标记的最大项目
数组中有 N 个元素。我可以选择第一项最多 N 次，第二项最多选择 N-1 次，依此类推。我有 K 个 token 要使用并且需要使用它们以便我可以拥有最大数量的项目。 arr = [3, 4, 8
python - 给定 Spacy 中的引理是否有可能获得单词列表？
我正在尝试修复法语文本中的语法性别，想知道是否有办法从某个词条中获取所有单词的列表，以及是否可以在此类列表中进行查找？最佳答案尝试: import spacy lemma_lookup = spa
winapi - 给定 HWND，如何从所有者绘制的窗口中提取文本信息？
我正在为 Win32 编写一个简单的自动化测试应用程序。它作为一个单独的进程运行，并通过 Windows API 访问目标应用程序。我可以阅读窗口层次结构，查找标签和文本框，并通过发送/发布消息等来单
javascript - 给定 JSON 中的第一行是什么？
在 nodeJs 中使用 Sequelize 时，我从 Sequelize 收到此错误，如下所示: { [SequelizeUniqueConstraintError: Validation erro
python - 给定 CNN 的回归激活映射
本文https://arxiv.org/pdf/1703.10757.pdf使用回归激活映射 (RAM) - 而不是类激活映射 (CAM) 来解决问题。有几篇文章描述了如何实现 CAM。但是我找不到
ios - 给定 mach_header 我如何找到二进制图像名称？
我正在研究 Mach 动态链接器 dyld。这个问题适用于所有 Apple 平台，但很高兴得到特定于平台的答案；我正在使用 ObjC，但如果对你有用的话，我也很乐意翻译 Swift。 The rele
instagram - 给定 user_id，如何找到用户名？
我有一个包含数千个 Instagram 用户 ID 的列表。我如何获得他们的 Instagram 用户名/句柄？最佳答案你必须使用这个 Instagram API: https://api.ins
scala - 给定 Elasticsearch 无效模式
我在下面的代码: def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Spark-Hbase").s
excel - 给定 2 个日期时查找单元格范围
我有一个表格，其中包含从 1 到 10 的数字。(从 D2 到 M2) 假设A1中有03/09/2019 并且在B1中有06/09/2019 并且在C1中有Hello 在A 列中，我有多个系列的单词，
java - 给定 URI 的注释检索
我想在给定服务对应的 URI 的情况下检索服务的注释(特别是 @RolesAllowed )。这是一个例子: 服务: @GET @Path("/example") @RolesAllowed({ "B
oracle - 给定 JDBC 连接上的并发查询？
我看到 OraclePreparedStatementexecuteQuery() 表现出序列化。也就是说，我想使用相同的连接对 Oracle 数据库同时运行两个查询。然而，OraclePrepare
java - 给定 k，使用递归求几何和
import java.util.Scanner; public class GeometricSumFromK { public static int geometricSum(int k,
java - 给定 HttpServletRequest 的网页服务的良好模式是什么？
我创建了一个抽象基类Page，它说明了如何构建动态网页。我正在尝试想出一种基于作为 HttpServletRequest 传入的 GET 请求生成 Page 的好方法。例如... public cla
java - 给定 SMS 字符串的正则表达式是什么
我的字符串是一条短信，采用以下两种格式之一: 潜在客户短信: 您已收到 1 条线索标题:我的领导潜在客户 ID:12345-2365 警报设置 ID:890 短信回复: 您已收到 1 条回复标题
python - 给定 python 中的字符串列表
我在 python 中有以下代码: class CreateMap: def changeme(listOne, lisrTwo, listThree, listFour, listfive):
java - 给定 id 的多个实体的高效缓存感知获取
这是在 Hibernate 上运行的 JPA2。我想检索相同实体类型的多个实例，给定它们的 ID。其中许多已经在持久性上下文和/或二级缓存中。我尝试了几种方法，但似乎都有其缺点: 当我使用 ent

首页

博学

6Ren·AI

商城

string - 给定一个搜索词列表，我如何知道我的字符串包含哪些？