tags - 热门话题 : 1-word terms vs composed terms-6ren

tags - 热门话题 : 1-word terms vs composed terms

转载作者：行者123 更新时间：2023-12-04 02:00:37

27

4

With your perfect help here我已经了解了如何计算热门话题(标准分数 + float 平均值)。

我的下一个问题:我的数据库中的术语(由 1-3 个单词组成)与它们被提及的时间相关联。但热门话题总是只有 1 个单词的术语，因为一个术语的一部分总是比完整的术语更频繁地被提及。示例:昨天有 3 篇新闻文章是关于“巴拉克·奥巴马”的，今天有 148 篇。然后“巴拉克·奥巴马”当然正在上升。但“巴拉克”也在崛起，因此成为热门话题。

在计算热门话题时如何包含术语长度？我不想使用其他算法，我对上面的算法非常满意。我可以将所有两个词项的分数乘以 1.5 左右吗？

详细示例:我的主要趋势是:微软、中国、希拉里·克林顿、达拉斯小牛队。我想说“希拉里·克林顿”和“达拉斯小牛队”从来没有排名第一或第二，因为它们是两个词。 “微软”和“中国”是一个词，所以总是排名靠前。有没有可能解决这个问题？

我希望你能帮助我。提前致谢!

最佳答案

谈到奥巴马，是的，你可以。 :)

也许您可以在输出之前测试您的高趋势是否包含在低趋势中。我会尝试这样的事情:

示例:你有

奥巴马

法国航空

巴拉克

A330

巴拉克奥巴马

...

如果你想输出的列表不太长(比如你只取 100 个最好的分数)，你只选择那些不包含在其他列表中的列表，可能会给包含其他列表的列表添加 50% 的奖励。 (您可能必须先取 150 个值，然后进行处理以消除冗余，这可能会达到 110 之类的值，然后修剪最后 10 个值以恢复您的 100 个值。)

“Barack Obama”同时包含“Barack”和“Obama”，所以你可以给它 100% 的奖励，你的列表可能变成:

法国航空

巴拉克奥巴马

A330

...

希望它不会改变你的算法太多，但实际上你可以在输出之前插入这个处理。

编辑 :

或者，如果你真的没有列出最好的分数而只是一个一个地计算，你可以拆分你的趋势来计算其组成部分的思考总和(比如“巴拉克奥巴马”的趋势是“巴拉克奥巴马”的+ 0.5*“巴拉克”+ 0.5*“奥巴马”)。

关于tags - 热门话题 : 1-word terms vs composed terms，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/939938/

27

4