- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试实现未排序的 bool 检索。为此,我需要构造一棵树并执行 DFS 来检索文档。我有叶节点,但我很难构建树。
例如:query = OR ( AND (maria sharapova) tennis)
结果:
OR | | AND tennis | | maria sharapova
我使用 DFS 遍历树并计算某些文档 ID 的 bool 等效值,以从语料库中识别所需的文档。有人可以帮我用 python 设计这个吗?我现在已经解析了查询并检索了叶节点。
编辑:我是新来的,很抱歉不清楚。我基本上是在尝试构建一个非常简单的搜索引擎。因此,用户输入任何 bool 查询,例如:OR ( AND (maria sharapova) tennis)。我有一个维基百科文档语料库,它根据您键入的查询显示给用户。
到目前为止,我已经解析了查询以检索单个运算符(如 OR、AND 等)。以及个人搜索词(玛丽亚、网球等)。解析代码只是一个函数,它基本上将所有运算符和查询术语按类型分组。即(玛丽亚莎拉波娃),(网球),或,和。我以这种方式解析这个函数,以便创建一个自下而上的树。现在,使用对应关键字(如网球、玛丽亚、莎拉波娃等)的倒排列表,我对倒排列表执行 bool 运算以获得某个“documentid”。然后将此 documentid 传递给 API,该 API 将检索正确的维基百科页面。
只是为了更详细地解释主题,请参阅此文档以获取有关我手头问题的更多信息: http://www.ccs.neu.edu/home/jaa/CSG339.06F/Lectures/boolean.pdf
最佳答案
首先,如果您想要一种奇特的查询语言语法来支持许多运算符、范围查询或通配符,您绝对应该引用 Joran 指出的 lex/yacc 解决方案。
其次,从您发布的讲座幻灯片来看,我认为您更关心如何实现 bool 查询模型,而不是在 python 中构建树。那么您无需担心查询本身。假设查询的格式如下:
"OR ( AND ( maria sharapova ) tennis )"
也就是说,运算符 (AND/OR) 和关键字/括号之间有空格。然后你只需要两个堆栈(不在树数据结构上使用 DFS)来解析查询并从中获得组合的搜索结果。
第一个堆栈包含运算符 (AND/OR) 和操作数(例如,maria、tennis)。您将括号视为打开/关闭条件以处理堆栈顶部的当前操作数。只有在看到右括号 )
时才处理搜索操作。
第二个堆栈保存当前搜索结果。
让我们使用上面的例子做一个循序渐进的演示。您从左到右扫描查询。
第 1 步。将“或”运算符压入堆栈。
+ +
+ +
+ OR +
+ + + + + + + + +
第 2 步。您会看到一个左括号 (
,请跳过它。
第 3 步。将“AND”运算符压入堆栈。现在堆栈如下所示:
+ +
+ AND +
+ OR +
+ + + + + + + + +
第 4 步。您跳过另一个 (
。
第 5 步。将“maria”插入堆栈。
第 6 步。将“莎拉波娃”插入堆栈。现在堆栈如下所示:
+ sharapova +
+ maria +
+ AND +
+ OR +
+ + + + + + + + +
第 7 步。您会看到一个右括号 )
。现在是时候进行第一次手术了。您将所有项目弹出堆栈顶部,直到看到运算符。弹出运算符以及获取当前运算符。现在,您分别处理“sharapova”和“maria”的搜索,并使用运算符“AND”合并搜索结果。假设对于“maria”,您获得 3 个文档 ID:[1, 2, 3]
。对于“莎拉波娃”,您会得到另外 5 个文档 ID:[2, 3, 8, 9, 10]
。在将结果与“AND”组合后,[2,3]
在
保存当前搜索结果的第二个堆栈。当前情况如下所示:右侧是结果缓冲区。
+ + + +
+ + + +
+ + + +
+ OR + + [2,3] +
+ + + + + + + + + + + + + + +
第 8 步。将网球插入堆栈。
+ + + +
+ + + +
+ tennis + + +
+ OR + + [2,3] +
+ + + + + + + + + + + + + + +
第 9 步。您会看到另一个右括号 )
。同样,您将所有项目弹出堆栈顶部,直到看到“OR”。您开始使用“tennis”进行搜索,并假设您得到了结果文档 ID:[3, 5, 7]
。此时,您将此结果与缓冲区中的先前结果使用运算符“或”结合起来,以便最终得到文档 ID:[2,3,5,7]
。
我的示例代码是 here .请注意,我通过随机采样 len(word)
整数来模拟搜索和返回文档 ID。
代码的打印输出一步一步地显示了系统在处理当前查询项(第 1 列)之前的样子,结果缓冲区的状态(第 2 列),堆栈中的项(第 3 列)和即时搜索结果(第 4 列)。
关于python - 使用 Python 构建树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12327787/
我在使用 gradle 构建一个特定应用程序时遇到问题。该应用程序可以用 eclipse 编译和构建,它在平板电脑上运行良好。当我尝试使用 Gradle 构建它时,“compileDebugJava”
我有一个 C 程序,是一位离开的开发人员留给我的。我试图弄清楚他到底在做什么,并将软件重新安排成更合乎逻辑的东西,这样我就可以更轻松地构建它。我正在使用 CMake 构建,而他使用的是 Make。 有
我刚开始阅读“Pro Spring MVC with web flow”,它附带了一个我想遵循的代码示例。 我要什么 - 我想像书中那样构建应用程序,使用 Gradle 有什么问题 - 我没用过 Gr
我希望有人已经这样做了。我正在尝试为我的一个 angular 2 项目在 teamcity 中建立一个连续的构建。在做了一些研究之后,我按照以下步骤操作: 构建步骤 1:为 teamcity 安装 j
我有一个旧的 ASP.Net 网站解决方案,看起来像: 当我在 Visual Studio 中构建解决方案时,我得到以下输出: ------ Build started: Project: C:\..
我使用 gulp-usref、gulp-if、gulp-uglify、gulp-csso 和 gulp-file-include 来构建我的应用程序。除了 HTML 保持原样外,构建中的一切都运行良好
我正在使用 ionic2 开发内部移动应用程序。我可以通过以下方式成功构建 ios: ionic build ios and ionic build ios --prod 但当我这样做时,它一直失败
我是一位经验丰富的 .NET/C# 开发人员,但对这里的几乎所有技术/库(包括 SQL/DB 工作)都是新手。 我正在开发一个具有 Azure/Entity Framework .NET 后端和可移植
我正在使用 VS 2008。我可以使用 IDE 成功编译我的解决方案。但是,当我尝试使用 devenv.com 构建它时,它失败并提示“错误:找不到项目输出组'(无法确定名称)的输出”。该组、其配置或
版本: ember.js 2.7,ember-data 2.7 ember-cli 2.9.1//同样适用于 ember-cli 2.7 node 6.9.1, npm 3.10.9//也适用于 no
我第一次修补 AzureDevops,设置一些 CI 任务。 我有一个公共(public)存储库(开源)和一个包含 3 个 F# 项目的解决方案(.sln)。该解决方案在 Windows/Mac/Li
目前 5.1.5 版本或 STLPort CVS 存储库似乎仍不支持 VS2008。如果有人已经完成了这项工作,那么如果可能的话,分享会很有用:) 同样,了解 VS2005 或 2008 x64 构建
我有一个 Python 2.7 项目,到目前为止一直使用 gfortran 和 MinGW 来构建扩展。我使用 MinGW,因为它似乎支持 Fortran 代码中的写入语句和可分配数组,而 MSVC
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
我想知道为什么在 Zimbra Wiki 中只列出了构建过程的特定平台。这意味着不可能在其他 Linux 发行版上构建 Zimbra? Zimbra 社区选择一个特殊的 Linux 发行版来构建 Zi
我将在 Swift 中构建一个 CLI 工具。我用这个命令创建了项目 swift package init --type executable当我构建我的项目并解析 时读取别名 Xcode 中的参数并
我想为添加到 docker 镜像的文件设置文件权限。我有这个简单的 Dockerfile: FROM ubuntu:utopic WORKDIR /app RUN groupadd -g 1000 b
当我使用 clBuildProgram在我的 OpenCl 代码中,它失败并显示错误代码 -11,没有任何日志信息。 这是我的代码的样子: ret = clBuildProgram(program
我有一个底部导航栏,它有一个列表页面,该页面使用状态块。 class _MainPageState extends State { int _index = 0; @override Wi
我在本地计算机上使用Jenkins(Jenkins URL未通过Internet公开,但该计算机上已启用Internet。) 我进行了以下配置更改: 在Jenkins工具上安装了Git和Github插
我是一名优秀的程序员,十分优秀!