.net - 使用 .NET 实现全文搜索的理想功能语言-6ren

.net - 使用 .NET 实现全文搜索的理想功能语言

转载作者：行者123 更新时间：2023-12-04 09:26:17

24

4

就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the help center为指导。

8年前关闭。

在我学习计算机科学的过程中，我接触了一些函数式语言，比如 Prolog，但现在我在过去 10 年里只做命令式的东西，比如 C#、Ruby JavaScript 和 Java。目前，我正在为一家在线商店创建一个全文搜索引擎，而且我已经走得很远了。但是在偶然接触了一些函数式语言(如 Clojure 的 Haskell)之后，很明显函数式范式更适合，而且命令式方法并不是完成这项工作的正确工具。

所以我们有大约 1000 万条记录的全文索引。每条记录基本上都包含一个单词出现，以及它源自的记录的 id 和文本位置。

当用户输入搜索字符串时，它会被解析为表达式树。例如，搜索字符串“transformer 100 W”的结果类似于

AND('transformer%', OR(NEAR('100', 'W'), NEAR('100', 'watts'), '100W', '0.1kW'))

这里有一些额外的“智能”，但这与这个问题无关。

然后对表达式树进行递归评估，并生成几个 sql 查询，这些查询可能以 .NET-DataTables 的形式返回多达 100,000 行。然后将它们读入集合或字典，并根据谓词应用交集和并集，以找到与整个搜索表达式匹配的所有结果。对于 NEAR 评估，还比较了所发现事件的位置索引。但这一切都是命令式完成的，有很多 for 循环。

此外，还有一个排名功能，可以将找到的单词出现的分数相加。仅作为前缀或模糊匹配(由数据库服务器完成)找到的单词的得分低于精确匹配。

对于每个结果项目，我还需要获取所有匹配的单词出现的列表，以便在结果页面中突出显示这些单词。

所以粗略的评估算法是一个函数

expression tree, full text index -> 
resulting items that match the expressin tree, 
each with a ranking sum 
and a list of all found word occurrences for this item

我只是在这里给出一个粗略的概述，但我希望你得到足够的图片。

现在“现实世界”的约束:

整个应用程序(到目前为止)都是用 C# 编写的，因此与 .NET 的轻松集成至关重要。

大量数据被读入 .NET-DataTables，然后需要进行评估和转换。结果应包含在 .NET 类型(字典、集合、数组，等等)中。

性能非常重要。目前我的算法搜索通常需要两秒钟(不包括sql)，这还可以，但应该改进。我们的服务器有 16 个处理器，因此欢迎并行处理。由于我们每秒收到大约一个搜索请求，并且当前的实现是单线程的，因此处理器时间仍然可用。

语言(和编译器)应该是成熟的。

由于我需要继续使用 .NET，我正在研究用于 .NET 的 Clojure-CLR、F# 和 Scala。

我非常喜欢 Clojure 的概念，但现在我无法评估它是否适合这份工作。阅读 F# 给我带来了复杂的感觉，因为它似乎希望能够做几乎所有的事情，而我倾向于对给定的任务采用更“纯”的数学方法。但也许这对 F# 也是可能的，我还没有意识到这一点。我还没有深入研究 Scala，但它似乎已经很成熟了。

欢迎任何见解!

最佳答案

The whole application (up to now) is written in C#, so an easy integration with .NET is paramount.

Loads of data is read into .NET-DataTables and will then need to be evaluated and transformed. The results should be contained in .NET types (Dictionaries, Sets, Arrays, whatever...).

F# 应该是一个更好的选择。作为 Visual Studio 中的一流语言，F# 与 C# 的互操作性非常好。

Performance is of great importance. At present my algorithm often takes two seconds for a search (not counting the sql), which is kind of ok, but should be improved. Our server has 16 processors, so parallel processing would be welcome. Since we get about one search request per second and the current implementation is single threaded, processor time is still available.

假设您从功能优先且不可变的实现开始，那么并行化您的应用程序应该很容易。此外， asynchronous workflow对于像您这样的 IO 绑定(bind)应用程序来说是一种祝福。

The language (and the compiler) should be mature.

我不会将 F# 与 JVM 上的 Clojure 和 Scala 进行比较，但 F# 比 .NET 上的 Clojure CLR 和 Scala 成熟得多。在选择 F# 时，您肯定会得到 Microsoft 的长期 promise 和不断增长的 F# 社区的帮助。

When the user enters a search string it is parsed into an expression tree.

您可以使用 discriminated unions 表示表达式树.随着 query expressions的介绍在 F# 3.0 中，您可以轻松地将逻辑转换为 SQL 查询。您甚至可以通过为您的域定义类似的查询语言来进一步插入它。

Reading about F# gave me mixed feelings, since it seems to want to be able to do just about everything, whereas I would tend to a more "pure" mathematical approach for the given task. But maybe that is possible with F# as well and I am not yet aware of it.

F# 3.0 引入 type providers允许用户以类型安全的方式访问非结构化数据；你可能想看看 this "F# 3.0 - Information Rich Programming" video了解更多信息。如果你想使用 F# 作为数据挖掘的编程语言，我已经问了一个相关的问题并且得到了很好的回答 here .

也就是说，您对 F# 的第一感觉可能不正确。根据我的经验，您可以随时随心所欲地接近功能性和不可变的一面。鉴于您已经有一个有趣的应用程序，我建议您亲自动手，了解 F# 是否适合您的目的。

更新:

这是一个 F# 原型(prototype)，它演示了这个想法:

/// You start by modeling your domain with a set of types.
/// FullText is a sequence of Records, which is processed on demand.
type Word = string
and Freq = int
and Record = {Occurrences: (Word * Freq) list; Id: string}
and FullText = Record seq

/// Model your expression tree by following the grammar closely.
type Expression =
    | Occur of Word
    | Near of Word * Word
    | And of Expression * Expression 
    | Or of Expression * Expression

/// Find wether a word w occurs in the occurrence list.
let occur w {Occurrences = xs} = xs |> Seq.map fst |> Seq.exists ((=) w)

/// Check whether two words are near each other.
/// Note that type annotation is only needed for the stub implementation.
let near (w1: Word) (w2: Word) (r: Record): bool = failwith "Not implemented yet"

/// Evaluate an expression tree.
/// The code is succinct and clear thanks to pattern matching. 
let rec eval expr r = 
    match expr with
    | Occur w -> occur w r
    | Near(w1, w2) -> near w1 w2 r
    | And(e1, e2) -> eval e1 r && eval e2 r
    | Or(e1, e2) -> eval e1 r || eval e2 r

/// Utility function which returns second element in a 3-tuple
let inline snd3 (_, x, _) = x

/// Get the rank of the record by adding up frequencies on the whole database.
let rank (r: Record) (ft: FullText): Freq = failwith "Not implemented yet"

/// Retrieve all records which match the expression tree.
let retrieve expr fullText =
    fullText |> Seq.filter (eval expr)
             |> Seq.map (fun r -> r, rank r fullText, r.Occurrences)
             |> Seq.sortBy snd3

/// An example query
let query = 
    And (Occur "transformer%", 
         Or (Or (Near ("100", "W"), Near ("100", "watts")), 
             Or (Occur "100W", Occur "0.1kW")))

关于.net - 使用 .NET 实现全文搜索的理想功能语言，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13233814/

24

4

0

文章推荐： r - 是否有更好的语法来子集 R 中的数据框？

文章推荐： c - 格式化此语句的惯用 C 方式是什么

文章推荐： java - 为什么windows桌面不广播UDP？

文章推荐： image - .ico 文件的 TPicture 宽度和高度报告不正确 (Delphi 7)

java - 多字段子集合中的 Hibernate 搜索/lucene 搜索
我在我的应用程序中使用 Hibernate Search。其中一个子集合被映射为 IndexedEmbedded。子对象有两个字段，一个是 id，另一个是日期(使用日期分辨率到毫秒)。当我搜索 id=
java - App Engine 搜索 api GeoPoint 搜索
The App Engine Search API有一个 GeoPoint 字段。可以用它来进行半径搜索吗？例如，给定一个 GeoPoint，查找位于特定半径内的所有文档。截至目前，它看起来像 Ge
mysql - Laravel MySQL 搜索。允许用户进行自定义 bool 搜索
客户对我正在做的员工管理项目提出了这个新要求，以允许他们的用户进行自定义 bool 搜索。基本上允许他们使用:AND、OR、NOT、括号和引号。实现它的最佳方法是什么？我检查了 mysql，它们使
php - 搜索 PHP 数组比从 MySQL 搜索/检索更快
很想知道哪个更快 - 如果我有一个包含 25000 个键值对的数组和一个包含相同信息的 MySQL 数据库，搜索哪个会更快？非常感谢大家! 最佳答案回答这个问题的最好方法是执行基准测试。关于ph
Vim - 如何使用 smartcase 进行/搜索，而使用 noic 进行 * 搜索？
我喜欢 smartcase，也喜欢 * 和 # 搜索命令。但我更希望 * 和 # 搜索命令区分大小写，而/和 ?搜索命令遵循 smartcase 启发式。是否有隐藏在某个地方我还没有找到的设置？我宁
java - 使用 Marklogic 的 Java 搜索 API 与 XQuery/XSLT API 进行文档 XPath 搜索
我有以下 Marklogic 查询，当在查询控制台中运行时，它允许我检索具有管理员权限的系统用户: xquery version "1.0-ml"; import schema namespace b
PHP:搜索 "a.."
我希望当您搜索例如“A”时，所有以“A”开头的全名都会出现。因此，如果名为“Andreas blabla”的用户将显示我现在有这个: $query = "SELECT full_name, id,
Javascript 搜索
我想在我的网站上添加对人名的搜索。好友列表已经显示在页面上。我喜欢 Facebook 这样做的方式，您开始输入姓名，Facebook 只会显示与查询匹配的好友。 http://cl.ly/2t2V0
PHP错误问题(搜索)
您好，我在我的网站上进行搜索时遇到此错误。 Fatal error: Uncaught Error: Call to undefined function mysql_connect() in /ho
算法总结--搜索
声明( 叠甲 )：鄙人水平有限，本文为作者的学习总结，仅供参考。 1. 搜索介绍搜索算法包括深度优先搜索（DFS）和广度优先搜索（BFS）这两种，从起点开始，逐渐扩大
Flutter - FutureBuilder - 搜索
我正在为用户列表使用 FuturBuilder。我通过 futur: fetchpost() 通过 API 获取用户。在专栏的开头，我实现了一个搜索栏。那么我该如何实现我的搜索栏正在搜索呢？ Cont
搜索 mvc 保持同一页面
我正在使用 MVC5，我想搜索结果并停留在同一页面，这是我在 Controller (LiaisonsProjetsPPController) 中执行搜索操作的方法: public ActionRes
Azure 搜索 - 上传与合并或上传之间的区别
Azure 搜索中的两种方法 Upload 与 MergeOrUpload 之间有什么区别。他们都做完全相同的事情。即，如果文档不存在，它们都会上传文档；如果文档已经存在，则替换该文档。由于这两种
audio - 声音匹配/搜索
实际上，声音匹配/搜索的当前状态是什么？我目前正在远程参与规划一个 Web 应用程序，该应用程序将包含和公开记录的短音频剪辑(最多 3-5 秒，人名)的数据库。已经提出了一个问题，是否可以实现基于用户
azure 搜索。如果我有很多面怎么办
在商业应用程序中，具有数百个面并不罕见。当然，并非所有产品都带有所有这些标记。但是在搜索时，我需要添加一个方面查询字符串参数，其中列出了我想要返回的所有方面。由于我事先不知道相关列表，因此我必须在查
cuda - 搜索-lcudart时跳过不兼容的libcudart.so
当我使用nvcc 5.0编译.cu文件时，编译器会为我提供以下信息。 /usr/bin/ld: skipping incompatible /usr/local/cuda-5.0/lib/libcud
Azure 搜索 - 作为第一个或单个结果完全匹配
我正在使用基于丰富的 Lucene 查询解析器语法的 Azure 搜索。我将“~1”定义为距离符号的附加参数)。但我面临的问题是，即使存在完全匹配，实体也没有排序。 (例如，“blue~1”将返回“b
java - 搜索 ArrayList
我目前有 3 个类，一个包含 GUI 的主类，我在其中调用此方法，一个包含数据的客户类，以及一个从客户类收集数据并将其放入数组列表的 customerList 类，以及还包含搜索数组列表方法。我正在
部分列的 SQL 搜索
假设我有多个 6 字符的字母数字字符串。 abc123、abc231、abc456、cba123、bac231 和 bac123 。基本上我想要一个可以搜索和列出所有 abc 实例的选择语句。我只
SQL 不区分大小写的 IN 搜索
我有这个表 "Table"内容: +--------+ | Serial | +--------+ | d100m | <- expected result | D100M | <- expect

首页

博学

6Ren·AI

商城

.net - 使用 .NET 实现全文搜索的理想功能语言