sql-server-2008 - 如何使用 Lucene.NET 帮助在 Stack Overflow 等网站上实现搜索？-6ren

sql-server-2008 - 如何使用 Lucene.NET 帮助在 Stack Overflow 等网站上实现搜索？

转载作者：行者123 更新时间：2023-12-03 05:39:51

我有 asked a simlar question on Meta Stack Overflow ，但这专门涉及是否 Lucene.NET 用于堆栈溢出。
这里问题的目的更多是假设，如果他们使用 Lucene.NET 作为站点内搜索的基础以及 StackOverflow [SO] 等站点中的其他因素，他们会采用什么方法。
根据 Stack Overflow 博客上题为“SQL 2008 Full-Text Search Problems”的条目，有一个强表明 Lucene.NET 正在考虑在某个时候，但看起来这绝对不是 2124 2010年:

Lucene.NET is not being used for StackOverflow - we are using SQL ServerFull Text indexing. Search is an areawhere we continue to make minortweaks.

所以我的问题是，如何将 Lucene.NET 用于具有相同堆栈溢出语义的站点？
这是一些背景以及到目前为止我所做的/想到的(是的，我一直在实现其中的大部分内容，而搜索是我必须完成的最后一个方面):
技术:

当然，还有节目的主角 Lucene.NET。
其目的还在于尽快迁移到 .NET/C# 4.0。虽然我不认为它会改变游戏规则，但应该注意。
在进入 Lucene.NET 的各个方面之前，重要的是指出它的 SQL Server 2008 方面以及所涉及的模型。
型号
与 Stack Overflow 相比，该系统具有不止一种主要模型类型。这些模型的一些例子是:

问题:这些是人们可以提出的问题。人们可以回复问题，就像在 StackOverflow 上一样。

注意:这些是单向预测，因此与问题相反，您正在对内容进行陈述。人们无法对此发表回复。

事件:这是关于实时事件的数据。它具有位置信息、日期/时间信息。

关于这些模型需要注意的重要事项:

它们都有一个名称/标题(文本)属性和一个正文(HTML)属性(格式无关，因为内容将被适本地解析以进行分析)。

模型的每个实例在站点上都有一个唯一的 URL

然后是 StackOverflow 提供的 IMO，是模型的装饰器。这些装饰器可以有不同的基数，可以是一对一或一对多:

投票:锁定用户

回复:可选，例如，见上面

的Notes案例

收藏夹:模型是否被列为用户的收藏夹？

评论:(可选)

标签关联:标签在单独的表中，以免为每个模型复制标签。模型和标签关联表之间有一个链接，然后从标签关联表到标签表。

并且有支持标签，它们本身是模型的一对一装饰器，这些模型以相同的方式(通常通过模型 ID 类型和模型 ID):

投票数:总赞成票，反对票，C# 3.0(这很重要，它将根据条目的投票确定置信度，在大多数情况下，假设威尔逊区间的下限)。

回复(答案)是具有大多数模型拥有的大部分装饰器的模型，它们只是没有标题或网址，并且模型是否有回复是可选的。如果允许回复，那当然是一对多的关系。
SQL Server 2008
这些表几乎遵循上述模型的布局，为装饰器提供单独的表，以及一些支持表和 View 、存储过程等。
应该注意的是，决定不使用全文搜索主要是因为它不像 Lucene.NET 那样对分数进行标准化。我愿意接受有关如何利用基于文本的搜索的建议，但我必须跨多种模型类型执行搜索，因此请记住，我需要以某种方式对分数进行标准化。
Lucene.NET
这是最大的问号所在。以下是我目前对 StackOverflow 功能的想法，以及我已经完成的工作和方法。
索引
问题/模型
我相信每个模型都应该有一个包含唯一 id 的索引，以便根据该 id 的 Term 实例(已索引，未分析)快速查找它。
在这方面，我考虑过让 Lucene.NET 单独分析每个问题/模型和每个回复。因此，如果有 1 个问题和 5 个答案，则该问题和每个答案将分别作为一个单元编入索引。
这里的想法是 Lucene.NET 返回的相关性分数将更容易在以不同方式投影的模型之间进行比较(例如，没有回复的东西)。
例如，一个问题设置主题，然后答案详细说明主题。
对于没有回复的便条，它处理呈现主题然后对其进行详细说明的问题。
我相信这将有助于使相关性分数彼此更相关。
标签
最初，我认为这些应该保存在具有多个字段的单独索引中，这些字段具有适当模型索引中文档的 id。或者，如果它太大，则有一个仅包含标签的索引和另一个维护标签索引与其所应用的问题之间关系的索引。这样，当你点击一个标签(或使用 URL 结构)时，很容易以渐进的方式看到，如果你成功了，你只需要“买入”:

如果标签存在

哪些问题标签与

相关联

问题本身

然而，在实践中，使用 SQL Server 2008 根据标签查询所有项目(例如在 StackOverflow 中点击标签)非常容易。基于上面的模型，它只需要一个查询，例如:

select
     m.Name, m.Body
from
    Models as m
        left outer join TagAssociations as ta on
            ta.ModelTypeId = <fixed model type id> and
            ta.ModelId = m.Id
        left outer join Tags as t on t.Id = ta.TagId
where
    t.Name = <tag>

由于某些属性在所有模型之间共享，因此在不同模型类型/表之间执行 UNION 并产生一组一致的结果很容易。
这将类似于 Lucene.NET 中的 Wilson Score interval(我指的是 TermQuery ，因为它是全面的，而 Lucene.NET 是 0x2518122423341 的逐行翻译)。
在这里使用 Lucene.NET 出现的问题是排序顺序。当涉及到标签时，TermQuery 的相关性分数是无关紧要的。它是 1 或 0(它要么有，要么没有)。
此时，置信度分数(威尔逊分数区间)开始对结果进行排序。
这个分数可以存储在 Lucene.NET 中，但为了对这个字段的结果进行排序，它会依赖于存储在字段缓存中的值，这是我非常非常想要避免的事情。对于大量文档，字段缓存可能会变得非常大(Wilson 分数是一个 double 值，您需要为每个文档添加一个 double 值，这可以是一个大数组)。
鉴于我可以将 SQL 语句更改为基于 Wilson 分数区间的顺序，如下所示:

select
     m.Name, m.Body
from
    Models as m
        left outer join TagAssociations as ta on
            ta.ModelTypeId = <fixed model type id> and
            ta.ModelId = m.Id
        left outer join Tags as t on t.Id = ta.TagId
        left outer join VoteTallyStatistics as s on
            s.ModelTypeId = ta.ModelTypeId and
            s.ModelId = ta.ModelId
where
    t.Name = <tag>
order by
    --- Use Id to break ties.
    s.WilsonIntervalLowerBound desc, m.Id

使用它来处理 StackOverflow 功能“获取所有带有标记的项目”似乎是一个简单的选择。
回复
本来，我以为这是在它自己的一个单独的索引中，用一个键回到问题索引中。
我认为应该将每个模型和每个回复(如果有的话)结合起来，以便不同模型之间的相关性得分在相互比较时更加“平等”。
这当然会使索引膨胀。我现在对此感到有些自在。
或者，有没有办法在 Lucene.NET 中将模型和回复存储为单独的文档，然后将两者都存储并能够获得将两个文档视为一个的查询的相关性分数？如果是这样，那么这将是 理想的 。
当然还有一个问题是哪些字段将被存储、索引、分析(所有操作可以是单独的操作，也可以是混合匹配)？一个指数会是多少？
使用特殊的词干分析器/搬运工来解决拼写错误(使用 Metaphone)以及同义词(我将服务的社区中有术语，对于某些具有多种表示形式的事物有自己的俚语/术语)？
升压
这当然与索引有关，但我认为它值得它自己的部分。
您是提升字段和/或文档吗？如果是这样，你如何提升它们？某些领域的提升是否恒定？或者是否为投票/查看/收藏/外部数据适用的字段重新计算。
例如，在文档中，标题是否比正文得到了提升？如果是这样，您认为哪些促进因素有效？标签呢？
这里的想法与 StackOverflow 的思路相同。文档中的术语具有相关性，但如果文档带有术语标记，或者在标题中，则应该提升它。
Java documentation 建议文档结构如下:

标题

问题

接受的答案(如果没有接受的答案，则为高票答案)

所有答案合并

然后使用 boost 但不是基于原始投票值。我相信我已经涵盖了威尔逊分数区间。
问题是，提升是否应该应用于整个文档？我倾向于否定这个，因为这意味着每次用户对模型进行投票时我都必须重新索引文档。
搜索标记为 的项目
我最初认为在查询标签时(通过专门单击一个或使用 URL 结构查找标签内容)，这是针对标签的标签索引的简单 TermQuery，然后在关联索引中(如果需要)然后返回对于问题，Lucene.NET 处理得非常快。
但是，鉴于上面关于在 SQL Server 中执行此操作是多么容易的说明，我在搜索标记项时选择了该路线。
一般搜索
所以现在，最突出的问题是在对内容进行一般短语或术语搜索时，您如何以及如何整合其他信息(例如投票)以便以正确的顺序确定结果？例如，在 Lucene 上执行此搜索时，这些是前五个结果的计数(使用相关性选项卡时):

    q votes answers accepted answer votes asp.net highlights mvc highlights
    ------- ------- --------------------- ------------------ --------------
         21      26                    51                  2              2
         58      23                    70                  2              5
         29      24                    40                  3              4
         37      15                    25                  1              2
         59      23                    47                  2              2

请注意，突出显示仅在结果页面的标题和摘要中，并且只是关于文档、标题、标签、回复中真正术语频率的次要指标(但它们被应用，这是另一个好问题)。
所有这些是如何结合在一起的？
在这一点上，我知道 Lucene.NET 会返回一个标准化的相关性分数，投票数据会给我一个威尔逊分数区间，我可以用它来确定置信度分数。
我应该如何看待结合这两个分数来指示基于相关性和置信度的结果集的排序顺序？
对我来说，这两者之间应该存在某种关系是显而易见的，但这种关系应该是什么，我在这一点上回避了。我知道随着时间的推移我必须改进它，但我真的迷失在这部分。
我最初的想法是，如果相关性得分介于 0 和 1 之间并且置信度得分介于 0 和 1 之间，那么我可以执行以下操作:

1 / ((e ^ cs) * (e ^ rs))

通过这种方式，一个归一化的值越接近 0，结果越相关和可信，并且可以对其进行排序。
主要问题是，如果在标签和/或标题字段上执行提升，那么相关性得分超出 0 到 1 的范围(然后上限变得无界，我不知道如何处理) )。
此外，我相信我将不得不调整置信度分数以解释完全为负的投票数。由于完全否定的投票结果导致威尔逊分数区间的下限为 0，因此具有 -500 票的事物与具有 -1 票或 0 票的事物具有相同的置信度分数。
幸运的是，随着反对票数的增加，上限从 1 减少到 0。我可以将置信度分数更改为 -1 到 1 的范围，如下所示:

confidence score = votetally < 0 ? 
    -(1 - wilson score interval upper bound) :
    wilson score interval lower bound

这样做的问题是，将 0 代入等式将使所有零票数的项目排名低于负票数的项目。
为此，我在考虑是否将置信度分数用于上述倒数方程(我显然担心溢出)，那么它需要重新设计以始终为正值。实现这一目标的一种方法是:

confidence score = 0.5 + 
    (votetally < 0 ? 
        -(1 - wilson score interval upper bound) :
        wilson score interval lower bound) / 2

我的其他问题是如何实际执行给定 Lucene.NET 和 SQL Server 的计算。我犹豫是否将置信度分数放在 Lucene 索引中，因为它需要使用字段缓存，这会对内存消耗产生巨大影响(如前所述)。
我的一个想法是从 Lucene.NET 获取相关性分数，然后使用 Shashikant Kore 将分数传输到 SQL Server(以及要选择的项目的 id)，此时我会充满信心地执行计算得分，然后返回正确排序的数据。
如前所述，我对此还有很多其他问题，这些答案已经开始形成框架，并将随着问题和答案的发展而继续扩展。

最佳答案

单独使用 lucene 确实无法找到您正在寻找的答案。您需要排名和分组算法来过滤和理解数据及其关联方式。 Lucene 可以帮助您获取规范化数据，但之后您需要正确的算法。

我建议您查看以下一本书或所有书，它们将帮助您进行数学运算并让您指明正确的方向:

Algorithms of the Intelligent Web

Collective Intelligence in Action

Programming Collective Intelligence

关于sql-server-2008 - 如何使用 Lucene.NET 帮助在 Stack Overflow 等网站上实现搜索？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2297794/

文章推荐： javascript - 函数中的服务器变量

文章推荐： gradle - 依赖同一依赖项的多个配置

文章推荐： javascript - 重复键对大型列表中的 React 子项的性能影响

文章推荐： gradle - 如何在多项目 Gradle 构建中指定通用模块版本

java - 自定义 JPA 实现//现有的无 SQL JPA 实现
背景: 我最近一直在使用 JPA，我为相当大的关系数据库项目生成持久层的轻松程度给我留下了深刻的印象。我们公司使用大量非 SQL 数据库，特别是面向列的数据库。我对可能对这些数据库使用 JPA 有一
java - 未由 S3FileSystem FileSystem 实现 Hadoop Jar 实现
我已经在我的 maven pom 中添加了这些构建配置，因为我希望将 Apache Solr 依赖项与 Jar 捆绑在一起。否则我得到了 SolarServerException: ClassNotF
c# - 实现 "Inherit"(实现)通用接口(interface)的接口(interface)？
interface ITurtle { void Fight(); void EatPizza(); } interface ILeonardo : ITurtle {
java - 任何 JPA 实现(或更广泛的 Java ORM 实现)是否支持可更新游标
我希望可用于 Java 的对象/关系映射 (ORM) 工具之一能够满足这些要求: 使用 JPA 或 native SQL 查询获取大量行并将其作为实体对象返回。允许在行(实体)中进行迭代，并在对当前
generics - 如果我为 B 实现 From ，是否也会为 Vec 实现 From>？
好像没有，因为我有实现From for 的代码, 我可以转换 A到 B与 .into() , 但同样的事情不适用于 Vec .into()一个Vec . 要么我搞砸了阻止实现派生的事情，要么这不应该发

c# - 在 C# 中，如果 A 实现 IX 并且 B 继承自 A ，是否必然遵循 B 实现 IX？
在 C# 中，如果 A 实现 IX 并且 B 继承自 A ，是否必然遵循 B 实现 IX？如果是，是因为 LSP 吗？之间有什么区别吗: 1. Interface IX; Class A : IX;

OpenVG 实现？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the

performance - 实现 (^)
我正在阅读标准haskell库的(^)的实现代码: (^) :: (Num a, Integral b) => a -> b -> a x0 ^ y0 | y0 a -> b ->a expo x0

博弈树的C++实现
我将把国际象棋游戏表示为 C++ 结构。我认为，最好的选择是树结构(因为在每个深度我们都有几个可能的移动)。这是一个好的方法吗？ struct TreeElement{ SomeMoveType

字符串匹配alg的c++实现
我正在为用户名数据库实现字符串匹配算法。我的方法采用现有的用户名数据库和用户想要的新用户名，然后检查用户名是否已被占用。如果采用该方法，则该方法应该返回带有数据库中未采用的数字的用户名。例子: “贾

图算法的C++实现
我正在尝试实现 Breadth-first search algorithm , 为了找到两个顶点之间的最短距离。我开发了一个 Queue 对象来保存和检索对象，并且我有一个二维数组来保存两个给定顶点

Python A* 实现
我目前正在 ika 中开发我的 Python 游戏，它使用 python 2.5 我决定为 AI 使用 A* 寻路。然而，我发现它对我的需要来说太慢了(3-4 个敌人可能会落后于游戏，但我想供应 4-

DHT的C++实现
我正在寻找 Kademlia 的开源实现C/C++ 中的分布式哈希表。它必须是轻量级和跨平台的(win/linux/mac)。它必须能够将信息发布到 DHT 并检索它。最佳答案 OpenDHT是

C++实现
我在一本书中读到这一行:-“当我们要求 C++ 实现运行程序时，它会通过调用此函数来实现。” 而且我想知道“C++ 实现”是什么意思或具体是什么。帮忙!？最佳答案 “C++ 实现”是指编译器加上链接

背包分支定界的C++实现
我正在尝试使用分支定界的 C++ 实现这个背包问题。此网站上有一个 Java 版本:Implementing branch and bound for knapsack 我试图让我的 C++ 版本打印

FNV哈希的C#实现
在很多情况下，我需要在 C# 中访问合适的哈希算法，从重写 GetHashCode 到对数据执行快速比较/查找。我发现 FNV 哈希是一种非常简单/好/快速的哈希算法。但是，我从未见过 C# 实现的

LRU缓存替换策略及C#实现
目录 LRU缓存替换策略核心思想不适用场景算法基本实现算法优化

大角度非迭代的空间坐标旋转C#实现
1. 绪论在前面文章中提到空间直角坐标系相互转换，测绘坐标转换时，一般涉及到的情况是：两个直角坐标系的小角度转换。这个就是我们经常在测绘数据处理中，WGS-84坐标系、54北京坐标系

实现.Net7下的数据库定时检查
在软件开发过程中，有时候我们需要定时地检查数据库中的数据，并在发现新增数据时触发一个动作。为了实现这个需求，我们在 .Net 7 下进行一次简单的演示. PeriodicTimer .

查找算法之二分查找的C++实现
二分查找二分查找算法，说白了就是在有序的数组里面给予一个存在数组里面的值key，然后将其先和数组中间的比较，如果key大于中间值，进行下一次mid后面的比较，直到找到相等的，就可以得到它的位置。

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

抛物流线参数化方程推导——从几何性质到代码实现

【C语言学习】——命令行编译运行C语言程序的完整流程

让LLM来评判|基础概念

Pulsar客户端如何控制内存使用

G1原理—4.G1垃圾回收的过程之YoungGC

利用mybatis拦截器记录sql，辅助我们建立索引(一)

C#实现Winform程序在系统托盘显示图标&开机自启动

《痞子衡嵌入式半月刊》第116期

k8s列出所有未配置探针的deployment

unityassetbundle加载图集的所有sprite图片

首页

博学

6Ren·AI

商城

sql-server-2008 - 如何使用 Lucene.NET 帮助在 Stack Overflow 等网站上实现搜索？