- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的副业是为一些政治科学家编写/改进一个研究项目网络应用程序。该应用程序收集与美国最高法院相关的文章并对它们进行分析,经过近一年半的时间,我们拥有了一个包含大约 10,000 篇文章(并且还在不断增加)的数据库可供使用。
该项目的主要挑战之一是能够确定一篇文章的“相关性” - 也就是说,主要焦点是美国联邦最高法院(和/或其法官),而不是本地或外国法院最高法院。从一开始,我们解决这个问题的方式就是主要解析标题中对联邦法院的各种明确引用,并验证“最高法院”和“法院”是否是从文章文本中收集的关键词。基本且草率,但实际上效果相当好。话虽这么说,不相关的文章可能会进入数据库 - 通常是那些标题没有明确提及某个州或外国的文章(印度最高法院是最常见的罪犯)。
我已经达到了开发阶段,可以更多地关注项目的这方面,但我不太确定从哪里开始。我所知道的是,我正在寻找一种分析文章文本的方法,以确定其与联邦法院的相关性,除此之外别无其他。我想这将需要一些机器学习,但我基本上没有该领域的经验。我已经阅读了一些诸如 tf-idf 加权、向量空间建模和 word2vec(+ CBOW 和 Skip-Gram 模型)之类的内容,但我还没有完全看到“大局”,但它向我展示了如何如何应用这些概念可以解决我的问题。谁能指出我正确的方向?
最佳答案
提出问题
当开始像这样的新颖的机器学习项目时,需要思考一些基本问题,这些问题可以帮助您完善问题并更有效地进行审查和实验。
您有正确的数据来构建模型吗?您有大约 10,000 篇文章将作为您的模型输入,但是,要使用监督学习方法,您需要为模型训练中使用的所有文章提供值得信赖的标签。听起来你已经这样做了。
使用什么指标来量化成功。如何衡量你的模型是否符合你的要求?在您的具体情况下,这听起来像是一个二元分类问题 - 您希望能够将文章标记为相关或不相关。您可以使用标准二元分类指标来衡量您的成功,例如 area under the ROC 。或者,由于您有误报的特定问题,您可以选择类似 Precision 的指标。 。
使用随机或幼稚的方法可以做得如何。一旦建立了数据集和指标,您就可以使用基本方法来量化您在任务上的表现。这可能很简单,就像计算随机选择的模型的指标一样,但在您的情况下,您拥有关键字解析器模型,这是设置基准的完美方法。量化关键字解析方法对数据集的效果,以便您可以确定机器学习模型何时表现良好。
很抱歉,如果这对您来说是显而易见且基本的,但我想确保它包含在答案中。在像这样的创新开放式项目中,如果不考虑这些基础知识就直接进行机器学习实验,效率可能会很低。
机器学习方法
正如 Evan Mata 和 Stefan G 所建议的,最好的方法是首先将文章简化为专题。这可以在没有机器学习(例如向量空间模型)或机器学习(word2vec 和您引用的其他示例)的情况下完成。对于你的问题,我认为像 BOW 这样的东西作为起点是有意义的。
一旦你有了文章的特征表示,你就差不多完成了,并且有许多二元分类模型可以做得很好。从这里进行实验以找到最佳解决方案。
维基百科有a nice example在垃圾邮件过滤中使用这种两步方法的简单方法,这是一个类似的问题(请参阅本文的示例用法部分)。
祝你好运,听起来是一个有趣的项目!
关于python - 测量文本 "relevancy"到主题的概念?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55403920/
根据 http://msdn.microsoft.com/en-us/library/ms733025.aspx XmlWriterTraceListener 不是线程安全的。 (我知道 Micros
我的副业是为一些政治科学家编写/改进一个研究项目网络应用程序。该应用程序收集与美国最高法院相关的文章并对它们进行分析,经过近一年半的时间,我们拥有了一个包含大约 10,000 篇文章(并且还在不断增加
我正在具有 16G RAM 的 Debian 9 云服务器上运行程序。我担心该程序可能会增加内存压力,因此我让它在循环中运行“free -h”命令。当内存消耗最大时,我在程序结束时得到以下输出:
我正在尝试编写一个搜索方法,用于搜索文章的全文,并按搜索词在全文中出现的次数对结果进行排序。像这样的事情: def search term = params[:term] @articles
在我的应用程序 (PHP/MySQL/JS) 中,我有一个内置的搜索功能。其中一个搜索条件包含各种选项的复选框,因此,一些结果会比其他结果更相关,如果它们包含更多或更少的每个选项。 i.e. Opti
我有一个要从中搜索的表。该表位于 InnoDB 中。我用过LIKE '%$keyword%' 用于搜索,但我想根据匹配的相关性缩短它们。 喜欢关键字“xyz” 应该显示结果作为 (1) xyz abc
为了节省带宽并避免自己生成图片/图表,我计划使用 Google 的图表 API: http://code.google.com/apis/chart/ 它的工作原理是简单地发出(可能很长)GET(或
在输入几个词的情况下,我想要一个实用程序来返回一组不同的相关术语、短语或概念。需要注意的是,它需要有一个大的术语图才能开始,否则该功能将不会很有用。 例如,提交“棒球”将返回 ["shortstop"
我有一张餐厅的 opening_hours 表: SELECT * FROM opening_hours; +----+---------------+------------+----------+
尝试在我的本地主机中查看页面时出现此错误。网站以前工作过。代码文件未预编译。我已经清理了 asp.net 临时文件夹,并为 wwwroot 和 Temporary ASP.NET Files 文件夹授
我正在处理 Windows 窗体应用程序。我想在 ListView 上应用过滤器。要求是在搜索文件夹中具有给定名称的文件时在 Windows 中实现搜索功能。 原来Windows使用的是Relevan
据我了解,为了Elasticsearch要执行涉及“相关性分数”的“模糊”查询,它必须遍历并计算所有可能匹配项(可能包括数千或数百万行)的相关性,即使查询的“限制”仅为“10”。 Elasticsea
Thinking sphinx 文档说它会根据相关性自动对结果进行排序。它的相关性指标是什么?我们如何为系统定义我们自己的相关性指标? 示例:我有一个数据库,其中一个条目是 Windows XP,它包
我刚刚通过 android studio 创建了一个 apk,它让我可以选择创建我自己的 key ,我做了但随后问我它是什么类型的构建,即调试或发布。还列出了不存在的口味。 这个信息设置在哪里,在 g
我正在使用 C#。在许多情况下,我编写的代码可以受益于位于“不相关”dll 中的非常简单的类/方法。例如,我正在编写一些没有 UI 的算法,但它可以从 System.Drawing 中的 Point
我有一个 Rails View ,允许将多个 PanelItem 添加到页面上的多个面板中。 型号 class Page 'append', class: 'btn
我正在 Firebase/firestore 上开发一个 Web 应用,用户可以在其中登录并撰写自己的帖子。数据存储方式如下: -用户信息存储在collection('user').doc('uid'
我从 flickr api 获得了一些不相关且低(主观)图像质量。我注意到 haiku Deck 等网站使用 flickr api 并且获得了相关结果 我正在使用flickrnet API。下面是我正
在 ElasticSearch 5.5.0 中,我正在浏览“more_like_this”子句但无法找到相关文档。我在 ElasticSearch 中有以下数据,“描述”字段有大量大小超过 100 万
我的 IOS 应用被拒绝,提供的原因是- From Apple 3 PERFORMANCE: ACCURATE METADATA DESIGN: PREAMBLE Performance - 2.3
我是一名优秀的程序员,十分优秀!