gpt4 book ai didi

ruby - 模糊文档匹配/文本指纹识别的最佳库

转载 作者:数据小太阳 更新时间:2023-10-29 06:46:52 25 4
gpt4 key购买 nike

<分区>

我正在考虑构建一个 API,让程序可以提交学术出版物的“指纹”,将其与开放获取期刊的文章数据库进行匹配,如果找到,则向用户发送规范的引文信息。最初这将针对一个特定的小型研究领域,因此不一定需要处理 2000 万篇论文才能成功(即使涵盖了该领域 1000 篇最常被引用的论文,这对生产力来说也是一个巨大的福音和协作)。

我想知道哪个库(理想情况下能够与 Ruby 交互)最适合执行此“指纹识别”。我见过 Lucene 的模糊匹配,但这似乎在单词级别上有效,而在这种情况下,我们可能希望提交更大的文档子集。进行模糊匹配的原因是有些人可能有 Word.doc 预印本,有些人可能有最终的 PDF 等。

我真的很欣赏这里的一些想法。谷歌搜索“感知散列”让我进入了一堆新 Material 。我试图总结我的许多发现 here .

好像SimHash ,例如 the C implementation将是要走的路,但我仍然需要进行更多实验。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com