gpt4 book ai didi

java - 如何从文本文档中预测连续值(时间)?

转载 作者:搜寻专家 更新时间:2023-10-31 20:13:19 25 4
gpt4 key购买 nike

<分区>

我有大约 3000 个文本文档,这些文档与文档“有趣”的持续时间有关。所以假设文档 1 有 300 行文本内容,这导致了 5.5 天的兴趣持续时间,而另一个有 40 行文本的文档导致了 6.7 天的“有趣”持续时间,等等。

现在的任务是根据文本内容预测感兴趣的持续时间(这是一个连续值)。

我有两个想法来解决这个问题:

  1. 使用类似 http://radimrehurek.com/gensim/simserver.html 的技术构建相似文档的模型.当一份新文档到达时,您可以尝试找到过去 10 个最相似的文档,并简单地计算它们的平均持续时间,并将该值作为对新文档感兴趣持续时间的预测。
  2. 将文档按持续时间分类(例如 1 天、2 天、3-5 天、6-10 天……)。然后训练分类器根据文本内容预测持续时间的类别。

想法 #1 的优点是我还可以计算我的预测的标准偏差,而对于想法 #2 我不太清楚,我如何计算我的预测的类似不确定性度量。我也不清楚选择哪些类别才能从分类器中获得最佳结果。

那么,是否有经验法则可以构建一个系统来最好地从文本文档中预测像时间这样的连续值?应该使用分类器还是应该使用一种在类似文档上使用平均值的方法?我在该领域没有真正的经验,并且想知道您认为哪种方法可能会产生最好的结果。如果您知道可用于解决此问题的简单现有技术(基于 Java 或 Python),则会获得加分。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com