c++ - 在单词词典中获取以片段开头/包含/结尾的单词-6ren

c++ - 在单词词典中获取以片段开头/包含/结尾的单词

转载作者：行者123 更新时间：2023-12-03 12:50:41

28

4

假设我们具有英语词典中所有A-Z词典单词的列表。

我有三种情况要对这些单词列表执行：

1）找出所有以“特定片段”开头的单词

eg: If my fragment is 'car', word 'card' should be returned

2）找出“包含”该片段的所有单词作为子字符串

eg: If my fragment is 'ace', word 'facebook' should be returned

3）找出所有以“特定片段”结尾的单词

eg: If my fragment is 'age', word 'image' should be returned

在互联网上进行一些搜索后，我发现1）可以通过trie /压缩的trie完成，3）可以通过后缀树完成。

我不确定2）如何实现。
再加上是否有可以处理所有这三种情况的更好方案？由于同时维护前缀树和后缀树可能是一项占用大量内存的任务。

请让我知道其他需要注意的地方。

提前致谢。

PS：我将使用C ++实现这一目标

编辑1：目前，在这里，我在巨大的帮助下构建了一个后缀树。

Single Word Suffix Tree Generation in C Language

在这里，我需要为整个英语词典单词构建一个后缀树。所以我应该创建一个

a）每个单词都有单独的后缀树或

b）为所有单词创建一个通用的后缀树。

我不确定在a）情况下子串匹配时如何跟踪每个单词的单个树

有指针吗？

最佳答案

正如我在评论中指出的那样，前缀和后缀大小写由常规子字符串大小写（＃2）覆盖。根据定义，所有前缀和后缀也是子字符串。因此，我们需要解决的只是一般的子字符串问题。

由于您有静态字典，因此可以相对容易地将其预处理为一种可以快速查询子字符串的形式。您可以使用后缀树来执行此操作，但是构造和处理简单排序的平面数据向量要容易得多，所以这就是我将在此处描述的内容。

因此，最终目标是要有一个排序的子词列表，以便可以进行二进制搜索来找到匹配项。

首先，请注意，为了找到与查询片段匹配的最长子串，不必列出每个单词的所有可能子串，而只需列出所有可能的后缀。这是因为所有子字符串都只能视为后缀的前缀。（知道吗？第一次遇到它有点令人费解，但最终很简单，非常有用。）

因此，如果生成每个词典词的所有后缀，然后对它们全部进行排序，则足以在任何词典词中找到任何特定的子字符串：对后缀进行二进制搜索以找到下限（std::lower_bound） -以查询片段开头的第一个后缀。然后找到上限（std::upper_bound）-这将是最后一个以查询片段开头的后缀。 [lower，upper []范围内的所有后缀都必须以查询片段开头，因此，这些后缀最初来自的所有单词都包含查询片段。

现在，很明显，实际上拼出所有后缀会占用大量内存-但您不需要。后缀可以仅视为单词的索引-后缀开始的偏移量。因此，每个可能的后缀只需要一对整数：一个用于（原始）单词索引，一个用于该单词中后缀的索引。（您可以根据字典的大小将两者巧妙地打包在一起，以节省更多空间。）

总而言之，您需要做的是：

生成所有单词的所有单词后缀索引对的数组。
根据它们的语义含义将它们排序为后缀（不是数值）。我建议使用自定义比较器std::stable_sort。这是最长的步骤，但由于字典是静态的，因此可以脱机一次完成。
对于给定的查询片段，在排序的后缀索引中找到上下限。此范围内的每个后缀都对应一个匹配的子字符串（查询长度，从单词索引的单词后缀索引开始）。请注意，某些单词可能不止一次匹配，甚至可能重叠。

为了澄清，这是由单词“臭鼬”和“奶酪”组成的字典的一个小例子。

“臭鼬”的后缀是“臭鼬”，“ kunk”，“ unk”，“ nk”和“ k”。以索引表示，它们是0, 1, 2, 3, 4。 “奶酪”的后缀是“奶酪”，“ heese”，“ eese”，“ ese”，“ se”和“ e”。索引为0, 1, 2, 3, 4, 5。

由于“臭鼬”是我们非常有限的虚构字典中的第一个单词，因此我们将其分配为索引0。“奶酪”位于索引1。因此，最后的后缀为：0:0, 0:1, 0:2, 0:3, 0:4, 1:0, 1:1, 1:2, 1:3, 1:4, 1:5。

对这些后缀进行排序将产生以下后缀字典（我添加了实际对应的文本子字符串，仅用于说明）：

0  | 0:0 | cheese
1  | 0:5 | e
2  | 0:2 | eese
3  | 0:3 | ese
4  | 0:1 | heese
5  | 1:4 | k
6  | 1:1 | kunk
7  | 1:3 | nk
8  | 0:4 | se
9  | 1:0 | skunk
10 | 1:2 | unk

考虑查询片段“ e”。下限为1，因为“ e”是大于或等于查询“ e”的第一个后缀。上限是4，因为4（“ heese”）是大于“ e”的第一个后缀。因此，后缀1、2和3均以查询开头，因此，它们全部来自的单词都将查询作为子字符串包含（在后缀索引处，表示查询的长度）。在这种情况下，所有这三个后缀都以不同的偏移量属于“奶酪”。

请注意，对于不是任何单词的子字符串（例如本例中的“ a”）的查询片段，都没有匹配项；在这种情况下，上下限将相等。

关于c++ - 在单词词典中获取以片段开头/包含/结尾的单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29298148/

28

4

0

文章推荐： c++ - 使用 cv::FileStorage 从文本文件加载多维 Mat

文章推荐： c++ - CUDA 缺少 host_defines.h centos 7

文章推荐： c++ - 如何将labview图像类型转换为opencv图像类型(或Mat)？

文章推荐： c++ - 将 OpenGL 与 Visual Studio 2013 Express 结合使用

swift 词典
我正在尝试这样做: var myBeacons: [NSUUID: [Int]] = [NSUUID(UUIDString:"74278BDA-B644-4520-8F0C-720EAF059935"
VBA 词典 - 添加项目会覆盖所有项目
我的字典有问题。如果我将一个对象添加到字典中，它会用添加的项目覆盖整个包含项目。添加所有元素后，Dictionary 包含正确数量的项目，但项目都是最后添加的项目。 For Each shp In
c# - 词典<>性能
我使用字典，我将有大约一百万个条目，我将定期添加、删除、编辑和轮询..我想知道所有条目的上/下边是什么，如果有一种更高效的方式。最佳答案这取决于你想做什么。如果您想要一个具有快速插入、查找和删除功
类里面的 Swift 词典
我在 Swift 类中的字典数组方面遇到问题。我的代码无法在类或结构中运行，但可以在外部运行。 var data = [Dictionary]() data.append([123: "test"])
c# - 词典 - 添加注释以驱动智能感知
有没有一种方法可以添加注释来记录 Dictionary 或 ConcurrentDictionary 以了解键/值的含义？例如: Dictionary _users; 这个例子有一个用户字典。 gu
Android LatinIME 词典
我正在基于 Android AOSP LatinIME 项目创建自己的输入法应用。我设法找到了一些用于自动更正和预测的字典文件(main_en.dict、main_fr.dict 等)。但对于许多其
perl - 如何在我的应用程序中动态更改 Maketext 词典？
我已经通过 Locale::Maketext 使我的网站支持多种语言(或更具体地说是 CatalystX::I18N::Model::Maketext )。我的 maketext 类在编译时通过从数
language-agnostic - 非母语人士的程序员词典/词典
我不会说英语，而且我的英语也不是很好。我自以为是。我没有和其他人一起在一个共同的代码库上工作过。我没有任何编程的 friend 。我不与其他程序员一起工作(至少没有人关心这些事情)。我想这可能解释了
.net - 查找键的索引？词典.NET
我需要做 currentKey+1。所以我想找到键值的索引并获取下一个键(如果在末尾则为第一个)。我如何找到 key 的当前索引？我正在使用 Dictionary我用 Linq 查找 .Find 或
c# - 设置私有(private)词典
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 9 年前。 Improve t
python - 是否有可能检测到损坏的 Python 词典
我使用 python 2.7 中的 shelve 模块保存了一个数据文件，该文件不知何故已损坏。我可以用 db = shelve.open('file.db') 加载它，但是当我调用 len(db)
python - 词典/抽认卡问题。从值而不是键开始
我想试试这个抽认卡的想法，为即将到来的测试尝试学习关键字及其含义。我想在 python 上创建一个字典，我可以用它来帮助解决这个问题。这个想法是向我显示定义，然后我必须猜测已定义的词。我在下面展示了如
python - 尝试格式化和打印列表中的多个(动态)词典
当尝试 .format() 一次列表中的多个词典时，控制台会给我一个 AttributeError:'list' object has no attribute 'items'。我尝试滚动浏览提示的
c# - 防止添加到公共(public)词典
我在公共(public)类(class)中有一个公共(public)词典如下: namespace ApiAssembly { public static class TypeStore
.net - 查找键的索引？词典.NET
我需要做 currentKey+1。所以我想找到键值的索引并获取下一个键(如果在末尾则为第一个)。我如何找到 key 的当前索引？我正在使用 Dictionary我用 Linq 查找 .Find 或
ios - 零 swift 词典
我的字典总是零，想了解为什么会这样。我的代码: var dic = [NSDate : MCACalendar]?() dic?[currentDate!] = calendar 最佳答案 @Kirs
c# - 替换 .net 词典
给定(简化描述) 我们的一项服务在内存中有很多实例。大约 85% 是独一无二的。我们需要对这些项目进行非常快速的基于键的访问，因为它们在单个堆栈/调用中被非常频繁查询。这个单一上下文的性能得到了极大的
speech-recognition - 构建新的声学模型、词典、用于罕见语言语音识别的语言模型
我想为“Sinhala Language speech recognition”僧伽罗语建立新的声学模型、新词典、新语言模型字符是基于 Unicode 的。例如 A=අ,I=ඉ,U=උ,KA=ක,BA
nlp - 情感分析 - wordNet , sentiWordNet 词典
我需要一个带有的正面和负面词的列表重量根据单词的强度和周数分配单词。我有 : 1.) WordNet - 它为每个单词提供 + 或 - 分数。 2.) SentiWordNet - 在 [0,1]
merge - 如何修改/合并 Jinja2 词典？
我有一个 Jinja2 字典，我想要一个可以修改它的表达式 - 通过更改其内容或与另一个字典合并。 >>> import jinja2 >>> e = jinja2.Environment() 修改字

首页

博学

6Ren·AI

商城

c++ - 在单词词典中获取以片段开头/包含/结尾的单词