gpt4 book ai didi

lucene - 从 Azure 辅助角色向 Azure Web 角色发送通知 - 最佳实践

转载 作者:行者123 更新时间:2023-12-04 06:15:58 25 4
gpt4 key购买 nike

情况

用户可以上传文档,队列消息将被放入带有文档 ID 的队列中。 worker 角色将选择此并获取文档。用Lucene彻底解析它。解析完成后,Webrole 上的 Lucene IndexSearcher 应该被更新。

在 Web 角色上,我保留一个静态 Lucene IndexSearcher,因为否则您必须为每个搜索请求创建一个新的 IndexSearch,这会产生大量开销等。

我想要做的是从工作角色向 Web 角色发送通知,告知他需要更新他的 IndexSearcher。

可能的解决方案

  • 创建某种通知队列。 Web 角色启动一个无休止的任务,不断检查通知队列。如果他找到一条消息,那么他应该更新 IndexSearch。
  • 在辅助角色上启动 WCF 服务并与 Web 角色连接。从辅助角色进行回调,并通过服务告诉 Web 角色他需要更新他的 IndexSearcher。
  • 定期更新即可

最好的解决方案是什么,或者还有其他解决方案吗?

非常感谢!

最佳答案

如果您的辅助角色使用诸如 (DateTime.MaxValue - DateTime.UtcNow).Ticks.ToString("d19") 之类的 PK 将每个已完成作业的详细信息写入表中,您将拥有已处理的最新作业的排序列表。将您的网络角色设置为轮询表,如下所示:

var q = ctx.CreateQuery<LatestJobs>("jobstable")
.Where(j => j.PartitionKey.CompareTo(LastIndexTime.GetReverseTicks()) < 0)
.Take(1)
.AsTableServiceQuery()

if (q.Count() > 0)
{
//new jobs exist since last check... re-index.
}

对于执行索引工作的辅助角色来说,这非常好,因为他们可以不加区别地写入表,而不必担心冲突。对于您来说,您还拥有他们正在处理的作业的审核日志(假设您在其中添加了一些详细信息)。

但是,您还有一个问题:听起来您有 1 个更新索引的 Web 角色。当然,这个 Web 角色可以以您选择的任何频率轮询该表(只需跟踪 LastIndexTime 以便稍后搜索)。您的问题是,如果您有多个 Web 角色,如何控制 Web 角色的并发性。每个 Web 角色是否维护其自己的索引,或者是否为所有人都存储了一个索引?抱歉,如果这是显而易见的话,我不是 Lucene 的专家。

无论如何,如果您的 WebRole 中有多个实例以及所有人都可以看到的单个索引,则需要防止多个角色反复更新索引。您可以通过租用索引(如果存储在 Blob 存储中)来实现此目的。

根据评论更新:

如果每个WebRole实例都有自己的索引,那么你就不必担心租赁问题。仅当它们一起共享 blob 资源时才会出现这种情况。因此,这种技术应该按原样工作正常,您唯一的潜在障碍是网络角色的轮询间隔可能会稍微不同步,导致在所有更新之前出现一些不同的结果(取决于您点击的实例)。每 30 秒在桌面上轮询一次,这将是您的最大不同步时间。每个 Web 角色实例只需跟踪其上次更新时间并从该点开始进行增量搜索。

关于lucene - 从 Azure 辅助角色向 Azure Web 角色发送通知 - 最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7241194/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com