gpt4 book ai didi

python - 测量文本 "relevancy"到主题的概念?

转载 作者:行者123 更新时间:2023-11-30 08:51:55 26 4
gpt4 key购买 nike

我的副业是为一些政治科学家编写/改进一个研究项目网络应用程序。该应用程序收集与美国最高法院相关的文章并对它们进行分析,经过近一年半的时间,我们拥有了一个包含大约 10,000 篇文章(并且还在不断增加)的数据库可供使用。

该项目的主要挑战之一是能够确定一篇文章的“相关性” - 也就是说,主要焦点是美国联邦最高法院(和/或其法官),而不是本地或外国法院最高法院。从一开始,我们解决这个问题的方式就是主要解析标题中对联邦法院的各种明确引用,并验证“最高法院”和“法院”是否是从文章文本中收集的关键词。基本且草率,但实际上效果相当好。话虽这么说,不相关的文章可能会进入数据库 - 通常是那些标题没有明确提及某个州或外国的文章(印度最高法院是最常见的罪犯)。

我已经达到了开发阶段,可以更多地关注项目的这方面,但我不太确定从哪里开始。我所知道的是,我正在寻找一种分析文章文本的方法,以确定其与联邦法院的相关性,除此之外别无其他。我想这将需要一些机器学习,但我基本上没有该领域的经验。我已经阅读了一些诸如 tf-idf 加权、向量空间建模和 word2vec(+ CBOW 和 Skip-Gram 模型)之类的内容,但我还没有完全看到“大局”,但它向我展示了如何如何应用这些概念可以解决我的问题。谁能指出我正确的方向?

最佳答案

提出问题

当开始像这样的新颖的机器学习项目时,需要思考一些基本问题,这些问题可以帮助您完善问题并更有效地进行审查和实验。

  1. 您有正确的数据来构建模型吗?您有大约 10,000 篇文章将作为您的模型输入,但是,要使用监督学习方法,您需要为模型训练中使用的所有文章提供值得信赖的标签。听起来你已经这样做了。

  2. 使用什么指标来量化成功。如何衡量你的模型是否符合你的要求?在您的具体情况下,这听起来像是一个二元分类问题 - 您希望能够将文章标记为相关或不相关。您可以使用标准二元分类指标来衡量您的成功,例如 area under the ROC 。或者,由于您有误报的特定问题,您可以选择类似 Precision 的指标。 。

  3. 使用随机或幼稚的方法可以做得如何。一旦建立了数据集和指标,您就可以使用基本方法来量化您在任务上的表现。这可能很简单,就像计算随机选择的模型的指标一样,但在您的情况下,您拥有关键字解析器模型,这是设置基准的完美方法。量化关键字解析方法对数据集的效果,以便您可以确定机器学习模型何时表现良好。

很抱歉,如果这对您来说是显而易见且基本的,但我想确保它包含在答案中。在像这样的创新开放式项目中,如果不考虑这些基础知识就直接进行机器学习实验,效率可能会很低。

机器学习方法

正如 Evan Mata 和 Stefan G 所建议的,最好的方法是首先将文章简化为专题。这可以在没有机器学习(例如向量空间模型)或机器学习(word2vec 和您引用的其他示例)的情况下完成。对于你的问题,我认为像 BOW 这样的东西作为起点是有意义的。

一旦你有了文章的特征表示,你就差不多完成了,并且有许多二元分类模型可以做得很好。从这里进行实验以找到最佳解决方案。

维基百科有a nice example在垃圾邮件过滤中使用这种两步方法的简单方法,这是一个类似的问题(请参阅本文的示例用法部分)。

祝你好运,听起来是一个有趣的项目!

关于python - 测量文本 "relevancy"到主题的概念?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55403920/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com