gpt4 book ai didi

用于索引 Blob 的 Azure 搜索替代方案

转载 作者:行者123 更新时间:2023-12-03 03:04:43 25 4
gpt4 key购买 nike

是否有任何基于云的 Azure 搜索替代方案可以索引 Azure Blob 的内容? (主要是基于办公的文件)?

我有一个公开全文搜索的应用程序,但很少使用。 Azure 搜索非常适合 documentdb 等,基本层涵盖了这种用法。

但是,当对每天可能搜索几次的 blob 应用索引时,与堆栈中使用的其他功能相比,成本非常高。

我们还达到了 2GB 存储限制,但文档限制低于 20%。理想情况下,我们希望增加存储空间,但这不是一个选择,除非更新到 S1,仅存储成本就会增加 3 倍。

到目前为止发现的替代方案是运行 solr 虚拟机或构建我们自己的功能,这可能仍然需要虚拟机,因此在这种情况下 solr 会更好。

其他人似乎遇到了与成本相关的扩展问题,但通常是因为 QPS。我们的 QPS 非常低,因为 24 小时内只有几次搜索。

::希望将其保留在 Azure 中。 AWS CloudSearch 计费似乎很适合我们的使用案例

最佳答案

我是 Azure 搜索工程团队的成员。很遗憾得知该定价不适合您。正如您所提到的,在 Azure 中运行您自己的 SOLR 或 ElasticSearch 实现当然是一种选择,但我怀疑您寻求 Azure 搜索的原因之一是您不希望在解决方案中添加搜索管理。

如果不明确您想要做什么,就很难进入特定选项(例如,您只是对此内容进行全文搜索,还是执行更多操作,例如分面、过滤等)。让我放弃一个选项。

可以减小内容大小吗?例如,您是否确实需要在 Azure 搜索中包含所有这些内容,或者您​​是否可以说只索引此内容中的关键术语和短语,以便您可以识别包含您要查找的术语的文档?有很多伟大的技术(例如 Word2Vec)非常适合提取术语和短语。

这样做的另一个优点是,这些术语还可以用于分面和过滤,然后您可以根据需要从其他商店加载完整内容。

术语提取的缺点可能不包括您认为重要的一些术语。

还有很多其他选择,但如果我更多地了解您想要做什么,也许我可以提供更多帮助。

利亚姆

关于用于索引 Blob 的 Azure 搜索替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45671182/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com