gpt4 book ai didi

machine-learning - 方面提取的监督学习方法

转载 作者:行者123 更新时间:2023-11-30 08:54:51 25 4
gpt4 key购买 nike

我正在开发一个方面级情感分析项目,用于旅游领域的在线旅游评论。

我有一个人工注释的数据集,其中标记了方面术语、方面类别及其情感极性。

例如;

Sentence:

This beach was a wonderful time for a day party it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.

上面的句子有以下方面术语标签;

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}

以及以下方面类别

{entertainment#positive C} {accommodation#positive C}

我想尝试一种监督学习方法来训练模型来对句子中的方面术语进行分类。

我正在使用 Stanford CORENLP 库。但对于训练数据格式应该如何感到困惑?以及采取的最佳方法是什么。

我见过人们使用IOB notation来格式化训练数据来训练NER系统。我可以使用类似的方法来完成此任务吗?例如,如何格式化我的训练数据文件以从输入句子中获取上述方面术语?

如果有人能给我指出正确的方向,我将非常感激。

最佳答案

这个问题可以通过将其分解为更小的子任务来解决。可能的管道方法可能是:

  1. 第一阶段是方面术语提取,它将识别原始文本中的方面术语。这也可以分为两个子任务。首先,您的系统需要在文本中标记方面术语的标记。我们将这些标记的标记称为方面术语提及。这称为命名实体识别 (NER)。接下来,如果您有一组预定义的方面术语类,系统将需要将上一个任务中找到的方面术语提及链接到这些类。这称为实体链接。值得注意的是,从您提供的标记数据集的示例来看,由于标签未锚定在文本中,因此尚不适合上述任务。您可以通过猜测给定标签对应于文本中的哪些标记来创建合适的数据集。这与远程监督工作类似。

  2. 下一个任务是方面术语情感分类。 卷积神经网络已用于句子和文档情感分类,但如果您在输入处提供要对其进行分类的标记,则它们可能可以适应您的目的。这在这项工作中称为位置嵌入:http://www.cs.nyu.edu/~thien/pubs/vector15.pdf

关于machine-learning - 方面提取的监督学习方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35602043/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com