gpt4 book ai didi

tags - 热门话题 : 1-word terms vs composed terms

转载 作者:行者123 更新时间:2023-12-04 02:00:37 27 4
gpt4 key购买 nike

With your perfect help here我已经了解了如何计算热门话题(标准分数 + float 平均值)。

我的下一个问题:我的数据库中的术语(由 1-3 个单词组成)与它们被提及的时间相关联。但热门话题总是只有 1 个单词的术语,因为一个术语的一部分总是比完整的术语更频繁地被提及。示例:昨天有 3 篇新闻文章是关于“巴拉克·奥巴马”的,今天有 148 篇。然后“巴拉克·奥巴马”当然正在上升。但“巴拉克”也在崛起,因此成为热门话题。

在计算热门话题时如何包含术语长度?我不想使用其他算法,我对上面的算法非常满意。我可以将所有两个词项的分数乘以 1.5 左右吗?

详细示例:我的主要趋势是:微软、中国、希拉里·克林顿、达拉斯小牛队。我想说“希拉里·克林顿”和“达拉斯小牛队”从来没有排名第一或第二,因为它们是两个词。 “微软”和“中国”是一个词,所以总是排名靠前。有没有可能解决这个问题?

我希望你能帮助我。提前致谢!

最佳答案

谈到奥巴马,是的,你可以。 :)

也许您可以在输出之前测试您的高趋势是否包含在低趋势中。我会尝试这样的事情:

示例:你有

  • 奥巴马
  • 法国航空
  • 巴拉克
  • A330
  • 巴拉克奥巴马
  • ...

  • 如果你想输出的列表不太长(比如你只取 100 个最好的分数),你只选择那些不包含在其他列表中的列表,可能会给包含其他列表的列表添加 50% 的奖励。 (您可能必须先取 150 个值,然后进行处理以消除冗余,这可能会达到 110 之类的值,然后修剪最后 10 个值以恢复您的 100 个值。)

    “Barack Obama”同时包含“Barack”和“Obama”,所以你可以给它 100% 的奖励,你的列表可能变成:
  • 法国航空
  • 巴拉克奥巴马
  • A330
  • ...

  • 希望它不会改变你的算法太多,但实际上你可以在输出之前插入这个处理。

    编辑 :

    或者,如果你真的没有列出最好的分数而只是一个一个地计算,你可以拆分你的趋势来计算其组成部分的思考总和(比如“巴拉克奥巴马”的趋势是“巴拉克奥巴马”的+ 0.5*“巴拉克”+ 0.5*“奥巴马”)。

    关于tags - 热门话题 : 1-word terms vs composed terms,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/939938/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com