- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的副业是为一些政治科学家编写/改进一个研究项目网络应用程序。该应用程序收集与美国最高法院相关的文章并对它们进行分析,经过近一年半的时间,我们拥有了一个包含大约 10,000 篇文章(并且还在不断增加)的数据库可供使用。
该项目的主要挑战之一是能够确定一篇文章的“相关性” - 也就是说,主要焦点是美国联邦最高法院(和/或其法官),而不是本地或外国法院最高法院。从一开始,我们解决这个问题的方式就是主要解析标题中对联邦法院的各种明确引用,并验证“最高法院”和“法院”是否是从文章文本中收集的关键词。基本且草率,但实际上效果相当好。话虽这么说,不相关的文章可能会进入数据库 - 通常是那些标题没有明确提及某个州或外国的文章(印度最高法院是最常见的罪犯)。
我已经达到了开发阶段,可以更多地关注项目的这方面,但我不太确定从哪里开始。我所知道的是,我正在寻找一种分析文章文本的方法,以确定其与联邦法院的相关性,除此之外别无其他。我想这将需要一些机器学习,但我基本上没有该领域的经验。我已经阅读了一些诸如 tf-idf 加权、向量空间建模和 word2vec(+ CBOW 和 Skip-Gram 模型)之类的内容,但我还没有完全看到“大局”,但它向我展示了如何如何应用这些概念可以解决我的问题。谁能指出我正确的方向?
最佳答案
提出问题
当开始像这样的新颖的机器学习项目时,需要思考一些基本问题,这些问题可以帮助您完善问题并更有效地进行审查和实验。
您有正确的数据来构建模型吗?您有大约 10,000 篇文章将作为您的模型输入,但是,要使用监督学习方法,您需要为模型训练中使用的所有文章提供值得信赖的标签。听起来你已经这样做了。
使用什么指标来量化成功。如何衡量你的模型是否符合你的要求?在您的具体情况下,这听起来像是一个二元分类问题 - 您希望能够将文章标记为相关或不相关。您可以使用标准二元分类指标来衡量您的成功,例如 area under the ROC 。或者,由于您有误报的特定问题,您可以选择类似 Precision 的指标。 。
使用随机或幼稚的方法可以做得如何。一旦建立了数据集和指标,您就可以使用基本方法来量化您在任务上的表现。这可能很简单,就像计算随机选择的模型的指标一样,但在您的情况下,您拥有关键字解析器模型,这是设置基准的完美方法。量化关键字解析方法对数据集的效果,以便您可以确定机器学习模型何时表现良好。
很抱歉,如果这对您来说是显而易见且基本的,但我想确保它包含在答案中。在像这样的创新开放式项目中,如果不考虑这些基础知识就直接进行机器学习实验,效率可能会很低。
机器学习方法
正如 Evan Mata 和 Stefan G 所建议的,最好的方法是首先将文章简化为专题。这可以在没有机器学习(例如向量空间模型)或机器学习(word2vec 和您引用的其他示例)的情况下完成。对于你的问题,我认为像 BOW 这样的东西作为起点是有意义的。
一旦你有了文章的特征表示,你就差不多完成了,并且有许多二元分类模型可以做得很好。从这里进行实验以找到最佳解决方案。
维基百科有a nice example在垃圾邮件过滤中使用这种两步方法的简单方法,这是一个类似的问题(请参阅本文的示例用法部分)。
祝你好运,听起来是一个有趣的项目!
关于python - 测量文本 "relevancy"到主题的概念?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55403920/
性能优化的重要性不言而喻,Google 的 研究表明 ,当网站达到核心 Web 指标(Core Web Vitals)阈值时,用户放弃加载网页的可能性会降低 24%。 如何
我正在创建一个横幅设计创建器(这样人们就可以使用自己的文本、背景、图像、形状等来制作自己的设计)。我的产品有各种尺寸,例如:800x2000 mm、A4(210 x 297mm)、3300x2200m
我不确定如何使用测量来获取单位的全名。例如“公里”而不是“公里”。 let measurement = Measurement(value: 50, unit: UnitLength.meters)
我有一个自定义 ViewGroup,它有一个子 ViewPager。 ViewPager 由 PagerAdapter 提供,该 LinearLayout 向 ViewPager 提供 LayoutP
我想测量一个大型软件项目在 Linux (make) 中构建过程中的内存消耗是多少内存。理想情况下,消耗会按操作(即编译、链接)拆分,但一开始绘制随时间变化的图表可能就足够了。 我有哪些选择? 最佳答
我正在运行一个 SSIS 包来从一个平面文件加载一百万行,它使用一个脚本任务进行复杂的转换和一个 SQL Server 表目标。我试图找出在数据流处理期间将行数(可能是 1000 的倍数以提高效率)写
我正在尝试检查 Keras 模型不同层的执行速度(使用来自 tensorflow 2.3.0 v 的 keras) 我从这个 repo 中获取了代码并修改它,使用 timer() from from
我有一个旧的应用程序,一个 JAR 文件,它经过了一些增强。基本上必须修改代码的某些部分以及修改一些逻辑。 将旧版本与新版本进行比较,新版本比旧版本慢约 2 倍。 我试图缩小导致速度变慢的原因,但我发
我正在尝试测量不同 Silverlight 图表库(例如 Silverlight Control Toolkit、Visifire、Telerik)在屏幕上加载所需的时间。 我的问题是我只能测量加载控
由于 TTFB 会因每个请求而异,因此我想对其进行统计并获取平均值。有谁知道我如何通过 PHP 进行测量?bytecheck.com 网站能够分析这些数据:这是 example.com 的示例:htt
我正在使用 .NET 4.0 C# 编写应用程序。我将对象放在 .net httpruntime 缓存中,并希望在其上生成一些统计信息。我想知道对象在放入缓存之前的大小以及它在缓存中的大小。我该如何衡
我正在寻找某种方法来测量应用程序的启动时间。从点击应用程序图标的那一刻到用户可以看到例如登录页面的那一刻。 最佳答案 跑 flutter run --trace-startup --profile 跟
我正在优化 iPhone 应用程序以实现非常短的加载时间,我想知道: 是否有一种方法可以测量 iPhone 应用程序从用户点击图标到应用程序可用(或至少 –viewDidLoad 被调用)的加载时间?
我无法理解 中的一件事谷歌分析 .我的应用中需要一个功能,例如 一个 用户将我的应用转至 乙用户然后他得到了一些奖励,但我想跟踪 一个 时通过链接的用户 ID乙用户点击该链接然后我可以得到一个 中的用
有没有办法用 DUnit 来衡量代码覆盖率?或者有没有免费的工具可以实现这一点?你用它做什么?您通常追求什么代码覆盖率? Jim McKeeth:感谢您的详细回答。我谈论的是 TDD 方法意义上的单元
当我执行Makefile时,是否可以递归地回荡在make all的每个目标中花费的(系统,用户,实际)时间? 我想以比time make all更细粒度的方式对项目的编译进行基准测试。理想情况下,它将
R 中有衡量函数执行时间的标准化方法吗? 显然我可以在执行之前和之后获取system.time,然后取它们的差异,但我想知道是否有一些标准化的方法或功能(不想发明轮)。 我似乎记得我曾经使用过如下的东
我最近为了好玩而开始学习 Fortran,我想知道是否有任何简单的方法来显示执行我的代码所花费的时间。这只是一个数到一百万的简单循环,我想看看完成这个需要多长时间。 如果有帮助,这是我正在使用的代码:
我正在开发一个 Shiny 的应用程序。 我对计算执行某些代码块(例如 ggplot 等)所需的时间很感兴趣。 出于某种原因,使用通常的时钟方法似乎在响应式(Reactive)调用中不起作用,例如:
我想测量 jpeg 的白色/黄色量(在可调整的容差范围内)。 我正在尝试开发一种质量控制工具来测量杏仁的缺陷。缺陷是棕色杏仁皮上的划痕(见下图)。由于这些缺陷是白色/黄色的,我想要一种简单地将图像加载
我是一名优秀的程序员,十分优秀!