python - 超越关键字依赖的文本分类并推断实际含义-6ren

python - 超越关键字依赖的文本分类并推断实际含义

转载作者：太空狗更新时间：2023-10-29 20:28:48

24

4

我正在尝试开发一个文本分类器，它将一段文本分类为私有(private) 或公共(public)。以医疗或健康信息为例。我能想到的典型分类器将关键字视为主要区分器，对吗？像下面这样的场景怎么样？如果两段文本都包含相似的关键字但含义不同怎么办？

以下一段文字揭示了某人的私有(private)(健康)情况(患者患有癌症):

我去过两个诊所和我的pcp。我进行了一次超声检查，结果却被告知这是正在消退的囊肿 或血肿，但它越来越大，开始让我的腿变形疼痛。 PCP 说它不可能是囊肿，因为它开始时太大了，我发誓我的腿从未受伤，甚至没有凸起。我现在很害怕癌症。大约 9 个月前，我在蹲下时才注意到有点不舒服的感觉。 3 个月前，我蹲下来收拾衣物，感觉有点疼。 疼痛 促使我检查我的腿，那时我注意到小腿肌肉底部有一个肿 block > 弯曲只会让它更引人注目。最终在四次诊所就诊、一次超声波和一次pcp之后，结果似乎呈阳性并且肿 block 越来越大。
[私有(private)](正确分类)

以下一段文字是一位医生的评论，绝对不会透露健康状况。它介绍了典型分类器模型的弱点:

不要害怕，也不要将任何坏事假设为癌症。我在我的 clinic 经历过几个案例，这些案例对我来说似乎很熟悉。正如您提到的，它可能是一个囊肿或一个血肿，而且它越来越大，它必须需要一些额外的诊断，例如活检。在该区域有疼痛或肿 block 的大小并不能真正说明任何不好。您应该多去几次专门的诊所，并进行一些特定的检查，例如biopsy、CT scan、pcp和超声波之前肿 block 变得更大。
[Private](分类错误，应该是[Public])

由于显而易见的原因，第二段被我当前所有的分类器归类为私有(private)。相似的关键字、有效的词序列、主题的存在似乎使分类器非常困惑。甚至，这两个内容都包含 I、You(名词、代词)等主题。我考虑过从 Word2Vec 到 Doc2Vec，从 Inferring meaning 到 semantic embeddings 但不能'不要考虑最适合这个问题的解决方法。

知道我应该用哪种方式处理分类问题吗？提前致谢。

到目前为止的进展:
这些数据是我从公共(public)来源收集的，患者/受害者通常会发布他们自己的情况，而医生/祝福者会回复这些信息。我在爬行时假设 - 帖子属于我的私有(private)类(class)，评论属于公共(public)类(class)。总而言之，我从 5K+5K 的帖子/评论开始，并在没有任何主要预处理的情况下使用朴素贝叶斯分类器获得了大约 60% 的结果。我很快就会尝试神经网络。但在输入任何分类器之前，我只想知道如何更好地进行预处理，以便为任一类赋予合理的权重以实现更好的区分。

最佳答案

如果您发布的数据代表您要区分的类别，则基于关键字的功能可能不是最有效的。看起来一些有时被视为停用词的术语将是关于什么是私有(private)的，什么是公共(public)的很好的线索。

你提到代词，我认为这可能仍然是一个很好的前进方向。如果您使用的是 unigram/bag-of-words 类型的功能，请确保您的矢量化器没有删除它们。

计算第一人称代词的实例(I、my、I've、mine ) 为 Private 案例给出 13，为 Public 案例给出 2。

Public 示例有第二人称代词(例如 you)，而第一个示例没有。因此，关于第一人称代词和第二人称代词的计数或平滑比率的特征可能会有效。

如果您具有句法结构或通过 n-gram 或类似表示跟踪位置信息，那么涉及第一人称代词和关键字的功能可能会有效。

此外，动词首句结构(Don't be ..., Having an...)是第二人称定向语言的特征，可能显示在公共(public)文本中比私有(private)文本更多。

最后一个推测性想法:这两段话的情绪非常不同，因此如果您可以进行情绪分析，那可能会提供额外的线索。我希望 Public 类比 Private 类更中立。

将您的公共(public)示例插入 Watson Tone Analyzer演示给出了这个显着的结果:

{
  "sentence_id": 3,
  "text": "I am now scared and afraid of cancer.",
  "tones": [
    {
      "score": 0.991397,
      "tone_id": "fear",
      "tone_name": "Fear"
    }
  ]
},

公共(public)声明也包含一个带有恐惧标签的句子，但它的得分不高，伴随着其他注释，并且在句子中包含一个明确的否定。因此，也可能值得利用这些功能。

"sentences_tone": [
    {
      "sentence_id": 0,
      "text": "Don’t be scared and do not assume anything bad as cancer.",
      "tones": [
        {
          "score": 0.874498,
          "tone_id": "fear",
          "tone_name": "Fear"
        },
        {
          "score": 0.786991,
          "tone_id": "tentative",
          "tone_name": "Tentative"
        },
        {
          "score": 0.653099,
          "tone_id": "analytical",
          "tone_name": "Analytical"
        }
      ]
    },

关于python - 超越关键字依赖的文本分类并推断实际含义，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54992220/

24

4

0

文章推荐： c++ - 为什么 CopyFile2 会替换 CopyFile 和 CopyFileEx？

dependencies - gobject 依赖 glib 还是 glib 依赖 gobject？
我在 gobject 上阅读了一个维基百科页面，上面写着， Depending only on GLib and libc, GObject is a cornerstone of GNOME and
wpf - 依赖属性依赖于另一个
如何注册一个依赖属性，其值是使用另一个依赖属性的值计算的？由于 .NET 属性包装器在运行时被 WPF 绕过，因此不应在 getter 和 setter 中包含逻辑。解决方案通常是使用 Proper
ActionBarSherlock maven 依赖
我一直在尝试将 ActionbarSherlock maven 依赖项添加到我的项目中 com.actionbarsherlock library 4.2.0 在我的 po
oop - 依赖/依赖是什么意思？
http://tutorials.jenkov.com/ood/understanding-dependencies.html#whatis说(强调我的): Whenever a class A us
wpf - 依赖/附加属性如何在内部工作以及值存储在哪里？
我对所有这些魔法有点不清楚。据我了解，依赖属性是从 DependencyObject 继承的，因此存储值: 如果分配了值(在本地字典中)，则在实例本身中或者如果未指定值，则从指向父元素的链接中获取
Twilio RestSharp 依赖
我刚刚更新了在 ASP.NET Framework 4.5.2 版上运行的 MVC Web 应用程序。我正在使用 Twilio 发送 SMS 消息: var twilio = new TwilioRe
java - Spring 依赖
我刚刚发现了一件令人生畏的事情。 spring 依赖坐标有两个版本。项目依赖于 spring mvc 和 spring flow。有两组并行的依赖项。 Spring MVC 具有以下方案的依赖项
Maven 依赖 picocontainer
我正在尝试包含的 maven 依赖项 org.jacorb jacorb 2.3.1 依赖已解决，但它导致另一个依赖 picocontainer 出现问题: [ERROR
Haskell 依赖 hell
我正在尝试在 Haskell 项目中包含特定版本的库。该库是住宿加早餐型的(用于 martix 操作)，但我需要特定的 0.4.3 版本，该版本修复了乘法实现的错误。所以，我的 stack.yaml
iphone - 依赖 UIPickerView
有谁知道如何制作依赖的 UIPickerView.例如，当我选择组件一的第 2 行时，组件二的标题会发生变化吗？我在互联网上查找过，没有真正的答案，我尝试过使用 if 和 switch 语句，但它们
Maven WAR 依赖
我正在编写一个用于验收测试的项目，由于各种原因，这依赖于另一个打包为 WAR 的项目。我已成功使用 maven-dependency-plugin 解压 WAR，但无法让我的项目包含解压的 WEB-I
Django，依赖 session
或多或少我在 session 上大量构建我的网站(特别是重定向用户等)，我很好奇这是否是一种危险的做法。禁用浏览器 cookie 保存的用户的大致比例是多少？我愿意接受任何建议:) 谢谢最佳答案 s
scala - 依赖 future
开始玩 Scala futures，我被依赖的 futures 困住了。让我们举个例子。我搜索地点并获得 Future[Seq[Place]]。对于这些地点中的每一个，我搜索最近的地铁站(该服务返回
Django，依赖 session
或多或少我在 session 上大量构建我的网站(特别是重定向用户等)，我很好奇这是否是一种危险的做法。禁用浏览器 cookie 保存的用户的大致比例是多少？我愿意接受任何建议:) 谢谢最佳答案 s
c - GLIBC 依赖
我有一个二进制文件，需要一些 *.so 文件才能执行。现在，当我尝试在一些旧机器上执行它时，它会显示 /lib/libc.so.6: version `GLIBC_2.4' not found 如何将
javascript - DyGraph 依赖
我尝试使用 Dygraph 来表示图表，我在 https://github.com/danvk/dygraphs 中找到了代码，但是它有太多的依赖文件，我觉得很烦人。是否有一个文件可以容纳所有必需的
javascript - Jasmine 依赖
我正在处理一个 javascript 文件，该文件 a) 声明一个具有函数的对象，并且 b) 使用它期望在外部声明的散列调用该对象的 init 函数。我的 Jasmine 规范提示它找不到哈希，因为它
javascript - Angular 依赖
最近我一直在学习 Angular 并且进展顺利，但是关于依赖注入(inject)的一些事情我仍然不清楚。是否有任何理由在我的 app.js 文件中声明我的应用程序的其他部分(服务、 Controll
php - 依赖 "mysql_insert_id"
考虑一个名为 foo 的表，它有 id (PRIMARY & AUTO_INCREMENT) 列。我正在向该表中插入一行，挑战从此时开始。 $db->query("INSERT INTO `foo`
javascript - 依赖/级联下拉菜单
我正在使用级联下拉 jquery 插件。 (https://github.com/dnasir/jquery-cascading-dropdown) 我有两个下拉菜单。 “客户端”和“站点”。根据您

首页

博学

6Ren·AI

商城

python - 超越关键字依赖的文本分类并推断实际含义