- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在为一家小型在线文档管理公司编写一个 Web 脚本,该公司希望允许用户快速在线搜索其文件的内容。虽然许多帐户都非常小(少于 100 个 2MB 文件),但也有少数帐户拥有 1,000,000 个或更多文件。需要对 PDF 和 DOC/DOCX 的支持。二进制文件不会被索引。
我们正在寻找一种提供基本搜索结果的简单解决方案。没什么太花哨的。每个用户都有一个主文件夹(搜索只会搜索他的子文件夹),因此请记住,搜索系统应该是最佳的。举例来说,如果一个拥有 100 MB 帐户的人搜索他的主文件夹,那么感觉不搜索其他 4 TB 文件。
你有什么建议?
这是我正在考虑的一些选项:
1) 我正在考虑使用 Windows Search 来实现此目的 - 无论是命令行工具还是使用 API。但是每个服务器实际上可以有 10 亿个文件,并且应该立即交付前 3 个结果。 Windows 搜索可以吗?或者这会产生挫败感?
2)自定义:制作一个简单的开源MySQL数据库程序来保存索引信息。英语中有大约 100,000 个单词...然后还有自定义单词和首字母缩写词...因此,为了快速查找,基于单词和用户帐户进行索引是有意义的。我将进行预处理,使“慢跑”变成“慢跑”,“摆弄”变成“ fiddle ”,以降低数据库大小。考虑到每台服务器有 150 个客户帐户,拥有一个大数据库是否有意义,或者是否可以消除 UserID 字段并为每个用户提供一个数据库?
Tables:
Table WorldTable
EnglishWord (pk) | WordID (fk)
Table FileTable
FileID (pk) | FilePath
Table WordIndex
WordID (pk) | FileID (fk) | UserID | SettingsPatternID
Table Settings
SettingsPatternID | Top (bool) | IsWordForm (bool)
IsWordForm = 表示它不是完全匹配,而是单词的一种形式。例如:文件中的单词最初在文档中是“jogging”或“dancing”,但以缩写形式“jog”或“dance”归档。 (如果查询也是单词形式,那么它有助于提高相关性。)IsWordForm 的可能性很高。Top = 单词位于文档的前 50 个单词(表示标题)
我想要 5-15% 的小存储开销。 CPU很珍贵...但是,对于每个文件来说,这会产生大量开销,因为每个文件都会在 WordIndex 中生成数千条记录。即:
WordID, FileID, UserID, SettingsPatternID
WordID, FileID, UserID, SettingsPatternID
WordID, FileID, UserID, SettingsPatternID
...这是最长的表,WordID 不必要地重复。
3) 散列,使用 MySQL因为我们知道这将是单词搜索,所以纯关系数据库可能不是最好的模型......
将每个单词“散列”到匹配文件列表可能会更有效。例如:对于每个单词,制作一个 2 列表。您不需要在表格中“查找”该单词,因为我们知道它是什么。该列表可以是每个单词的 2 列表:
Table *The Word*
FileID | UserID | SettingsPatternID
(There would be 100,000 of these. One for each unique word.)
Table Settings
SettingsPatternID | Top (bool) | IsWordForm (bool)
4)我也研究过 SolR,但我认为它太过分了。这是一个糟糕的假设吗?虽然它支持 PDF 和 DOC,但集成起来也需要相当多的工作……我几乎觉得自己做同样的工作量,但当然,作为一名编码员,我知道这种假设经常是错误的。 .
请思考!
最佳答案
4) I've also looked at SolR but I think it's overkill. Is that a bad assumption? While it supports PDF and DOC, it's also a fair bit of work to integrate... I almost feel it will be the same amount of work to do it myself, but of course as a coder I know that assumption's wrong too often...
绝对选择 SolR:集成成本更高,但设置更容易,维护也更容易。
此外,它已经具有许多您必须自己实现(以及调试和维护...)的功能。
但是,我建议审查 SolR 的功能,围绕这些功能设计一个基本界面,并以书面形式批准。 “文本搜索”常常变成不言而喻的“我希望系统能够读懂我的想法”。另外,解释一下高效的文本搜索不是一个“简单的脚本”;实际上有数千名博士学位。论文涉及语义、词干、相关性、邻近性等。其中许多论文已进入 SolR/Lucene。
如果您假设用户可能对 grep
感到满意,无论是性能方面、可扩展性方面还是结果方面,SolR 都是“杀伤力过大”。相信我,他们不会。
您可以尝试建议 Google Machine 。它还将有助于建立相对于成本的基准:即“如果您想要 Google 的性能,这就是 Google 的价格。任何其他没有 Google 规模经济的临时实现都将花费远来实现相同水平的性能”。
关于mysql - 搜索文档内容的建议 - Windows Search 好用吗?简单的MySQL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12970979/
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
在 Vim 中,我可以:set wrapscan,这样当我进行增量搜索时,无论第一个匹配项位于光标上方还是下方,光标都会跳转到第一个匹配项。 在 Emacs 中,如果我通过 C-s 开始搜索,如果第一
Elasticsearch 中的页面排名是如何工作的。一旦我们创建了一个索引,就会有一个底层智能层创建一个元数据存储库并提供结果以根据相关性进行查询。我已经创建了几个索引,我想知道在提供查询后结果是如
我们在单个节点上使用 Elasticsearch 对数据进行了索引。我们在后台运行了一个线程,用于使用最近的更改更新索引。 现在我们使用 Elasticsearch API 来运行搜索查询。 {
这突然停止工作,正在工作,但现在却没有: 如果我使用Twitter UI并转到: https://twitter.com/#!/search/%22social%20snap%22%20OR%20%
我在基类中声明了某些字段,并且我想仅为某些子类(实体)注册这些字段。 因此,我不想通过 @Field 注释基类中的这些字段,尽管只需以编程方式注册某些实体就足够了。 但是在基本实体中声明的字段未注册/
我的全文搜索索引有问题。我有一个字符字段大小为 30 的表。我在这个字段上创建了一个全文搜索索引,以便在这个不区分大小写的字段上进行快速搜索操作。现在,当我执行以下查询时:SELECT fieldna
我对SandCaSTLe的输出感到非常满意,但我也想在HTML输出中包含一些搜索功能,这可能吗? 最佳答案 SandCaSTLe帮助文件生成器的网站输出包含 index.aspx 和 index.ht
有没有人遇到过Apache Lucene的功能?我听说它甚至可以与Google Search Appliance(GSA)相提并论。我正在寻找两者之间的明确比较,如果可能的话? 在线上进行的比较非常模
在构建应用程序时,“查找”与“搜索”之间有什么有意义的区别吗?您是否将它们视为同义词? 我在询问应用程序UI和API设计的标签方面。 最佳答案 查找是搜索的完成。 如果您可能无法成功找到某些东西,则将
我想编写一个移动应用程序,它可以拍照并在谷歌图像中搜索类似的图片,然后显示结果。 但是,使用谷歌图像搜索我只能搜索文本字符串,而使用搜索 API 似乎无法搜索相似图片;此功能似乎只能通过网络界面使用。
当我从 Many2one 列表框中选择一个项目时,我想要进行高级搜索。例如,此功能是针对“res.groups”对象实现的。我在/addons 中找不到此功能。 更准确地说,我定义了我的对象 clas
我正在使用 Amazon CloudSearch 存储大量地点。每个地方在一周中的每一天都有开放时间和关闭时间。 我需要按当前时间检索地点。您如何建议对索引进行建模?我想通过创建 7 个文本索引来解决
我见过一些网站,当您执行搜索时会列出相关搜索,即它们会建议您可能感兴趣的其他搜索查询。 我想知道在中型网站中对此进行建模的最佳方法(没有足够的流量来依赖访问者统计数据来推断关系)。我最初的想法是存储每
如何从 Sitecore Lucene 搜索中获取格式化的 url?我创建了一个自定义索引,并在根目录下将其更新为/sitecore/content/websitename/home。 检索到搜索结果
我一直在努力寻找这个并且无法找到我想要的东西。 在我的状态行上,我想要计算当前文件中出现的匹配数。下面的 vim 命令返回我想要的。我需要返回的号码显示在我的状态行中。 :%s/^I^I//n vim
我们有自己的服务器与应用程序一起工作。我们开始使用不同的提供商进行托管,现在我们遇到了上述错误。 关于 同 页面,这有效: 但是这个不 我们无法弄清楚为什么会这样。您
题目地址:https://leetcode.com/problems/search-in-a-binary-search-tree/description/ 题目描述 Given the root
我正在使用很棒的插件 Leaflet.Control.Search为了在我的 map 上搜索标记(来自 geoJson 标记组)——效果很好。 我现在只有一个简单的问题:如何打开搜索结果标记的弹出窗口
我开发了一个允许创建新记录的扩展。 在列表模块中,在记录列表下,有搜索表单。 例如,它适用于 fe 用户,但不适用于我的自定义记录。 是否必须在我的 tca 中添加任何特殊配置才能使此表单与我的自定义
我是一名优秀的程序员,十分优秀!