- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我用独立类别标记了一个文本数据集。在 Keras 中运行 CNN 分类器时,我得到的准确率 > 90%。
我的短信是客户评论“我真的很喜欢这款手机的摄像头。”类(class)例如“手机摄像头”、“内存”等
我正在寻找的是,当分类器标记指示类别的实体时,我是否可以用其中出现的类别来标记句子。或者更具体地说:如何提取输入句子中在 Keras 中为 1、2 或更多类别选择(即分类)CNN 网络的部分?
最佳答案
我的 pipilene(一般)执行类似的任务。
首先,我不直接使用神经网络来标记单独的实体,例如“相机”、“屏幕”等。有一些可能有用的好方法,例如 pointer networks或者只是attention ,但它对我来说并不适用。
我想,这种架构不能很好地工作,因为在我的数据集中有很多噪音,也就是“我很高兴我买了这台电视”等等。大约。总体来说75%,其余的数据就不太干净了。
因此,我做了一些额外的操作:
如何“识别”实体
我只是使用正则表达式和词性标签来分割我的数据。但我使用俄语数据集,因此没有好的免费俄语语法解析器/库。如果您使用英语或其他语言(在 spacy 或 nltk 库中得到了很好的呈现),您可以使用它来解析单独的实体。此外,与俄语相比,英语语法非常严格 - 这可能会让您的任务变得更容易。
不管怎样,尝试从正则表达式和解析开始。
包含“相机”、“电池”等主题的关键字的词汇也非常有帮助。
识别实体的另一种方法是主题模型 - PLSA/LDA(gensim岩石),但在我看来很难调整,因为文本中有很多噪音。您将获得很多主题{"happy", "glad", "bought", "family", ...}
等等 - 但您无论如何都可以尝试主题建模。
您还可以为每个文本创建一个包含实体标签的数据集,并用注意力训练神经网络,这样您就可以通过高度注意力来识别它,但创建这个数据集非常繁琐。
创建数据集并训练神经网络
仅当我获得了可接受的“命名实体”质量时,我才开始创建数据集 - 因为如果您稍后更改此(基础)部分,您可能会丢弃数据集并重新从头开始。
最好决定哪些标签将使用一次,然后不要更改它们 - 这是工作的关键部分。
在此类数据上训练神经网络可能是工作中最简单的部分 - 对于整个文本来说,任何好的分类器都是如此。即使不是神经网络,但更简单的分类器可能会有用 - 使用混合、装袋等。
可能出现的问题
这里有一个陷阱——一些评论/特征对于神经网络分类器甚至对于人类来说并不那么明显,比如“大声”或“变得非常热”。它们通常取决于上下文。因此,我利用我们团队的一点帮助来标记数据集 - 因此,每个条目都由一组人标记以获得更好的质量。此外,我还使用上下文标签 - 产品类别 - 为每个实体添加上下文:因此,音频系统和清洗捣碎的“响亮的声音”会引发争议情绪,并且模型可以学习它。大多数案例类别标签可以通过数据库/网络解析轻松访问。
希望它有所帮助,也希望有人知道更好的方法。
关于python - 是否可以让神经网络根据分类文档对实体进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53829938/
都是整数,但一直报错 "Only assignment, call, increment, decrement, await, and new object expressions can be us
我有以下情况:一个“对话”实体/表,它有多个关联的标签。Tag 也是一个实体/表 - key/id 是 tagName(一个字符串)。 在客户端 (javascript),我在处理标签时使用字符串数组
我想通过 maven java 源代码生成器自动生成 java 源代码。我想通过查看一个大实体 xml 文件来创建实体类,该文件将包含系统中的所有实体和实体关系。据我搜索,目前maven中没有这样的插
我有一段时间有这个疑问,有人说 EJB 3.0 中没有所谓的实体 bean。有没有可能这样说,EJB 3.0 使用 JPA 来持久化数据并且没有对以前版本(EJB 2.1)中的实体 bean 进行增强
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
实体(entites) 用于定义引用普通文本或特殊字符的快捷方式的变量,可在内部或外部进行声明 实体引用是对实体的引用 声明一个内部实体 语法: <!ENTITY 实体名称 "
This page建议 !ENTITY: If you want to avoid duplication, consider using XML entities (for example, [ ]
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)? : 他们都有 ID 它们都是由实体或值对象组成 也许如果我需要引用其他 AR 中的实体,那么我需要将其设为
我使用 Symfony2 和 Doctrine,我有一个关于实体的问题。 出于性能方面的考虑,我想知道是否可以在不进行所有关联的情况下使用实体? 目前,我还没有找到另一种方法来创建继承带有关联的类的模
我已经尝试在 HTML 中包含以下代码,用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体? 如果没有,我们可以手动创建
我在 grails 中有一个域类......我如何让 gorm 在创建数据库时忽略这个实体?就别管它了。 最佳答案 如果我理解,你不想从域类创建表?如果是,请在域类中使用此代码: static map
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)? : 他们都有 ID 它们都是由实体或值对象组成 也许如果我需要引用其他 AR 中的实体,那么我需要将其设为
我已经尝试在 HTML 中包含以下代码,用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体? 如果没有,我们可以手动创建
如何在我的实体中以 14-04-2017 格式存储日期? 但我必须从字符串中解析它。 SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-
我需要从两个连接表中获取数据。数据集是什么类型?我是否需要创建一个包含这两个表中的属性的类以用于数据集类型,或者我可以使用实体模式中的类型。我如何修改我的方法才能正常工作? public static
好的,我们正在尝试建立一个中央站点来查看来自销售我们产品的多个供应商的数据。这些多个供应商使用不同的销售系统(确切地说是两个不同的系统),因此每个数据库看起来完全不同。我们与他们的数据库同步,因此数据
我是 backbone 的新手。但是当我研究模型实体时,我不明白一些事情。如果我们可以像 java 或 C# 这样的标准语言一样定义模型属性,那就太好了。有没有可能是这样的。所以我的想法是这样的: M
我想获取存储在可绘制的 xml 文件中的形状的颜色。 我来到了将 Drawable 存储在 Drawable 变量中的步骤,所以,现在我想获取形状的颜色(纯色标签)。 有什么建议吗? 最佳答案 Gra
实体是直接映射到我们的数据库(我们用于 Hibernate)的类。 在调用 DAO 之前,我们的服务类包含这些实体的业务逻辑。 我们还有命令对象,它们是与特定 View 相关的 POJO。有人告诉我实
在我的应用程序中,我需要显示不同存储过程返回的记录列表。每个存储过程返回不同类型的记录(即列数和列类型不同)。 我最初的想法是为每种类型的记录创建一个类,并创建一个函数来执行相应的存储过程并返回 Li
我是一名优秀的程序员,十分优秀!