python - 哪些特征可以帮助对句尾进行分类？序列分类

转载作者：行者123 更新时间：2023-11-30 09:04:42

25

4

问题:

我有几对句子，它们之间缺少句号和大写字母。需要将它们彼此分割。我正在寻求一些帮助来选择好的特征来改进模型。

背景:

我使用 pycrfsuite 执行序列分类并找到第一个句子的结尾，如下所示:

从棕色语料库中，我将每两个句子连接在一起并获取它们的 pos 标签。然后，如果句子中后面有空格，则用 'S' 标记句子中的每个标记；如果句子中后面有句号，则用 'P' 标记。然后我删除句子之间的句点，并降低以下标记。我得到这样的东西:

输入:

data = ['I love Harry Potter.', 'It is my favorite book.']

输出:

sent = [('I', 'PRP'), ('love', 'VBP'), ('Harry', 'NNP'), ('Potter', 'NNP'), ('it', 'PRP'), ('is', 'VBZ'), ('my', 'PRP$'), ('favorite', 'JJ'), ('book', 'NN')]
labels = ['S', 'S', 'S', 'P', 'S', 'S', 'S', 'S', 'S']

目前，我提取了这些一般特征:

def word2features2(sent, i):
    word = sent[i][0]
    postag = sent[i][1]

    # Common features for all words
    features = [
        'bias',
        'word.lower=' + word.lower(),
        'word[-3:]=' + word[-3:],
        'word[-2:]=' + word[-2:],
        'word.isupper=%s' % word.isupper(),
        'word.isdigit=%s' % word.isdigit(),
        'postag=' + postag
    ]

    # Features for words that are not
    # at the beginning of a document
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.extend([
            '-1:word.lower=' + word1.lower(),
            '-1:word.isupper=%s' % word1.isupper(),
            '-1:word.isdigit=%s' % word1.isdigit(),
            '-1:postag=' + postag1
        ])
    else:
        # Indicate that it is the 'beginning of a sentence'
        features.append('BOS')

    # Features for words that are not
    # at the end of a document
    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.extend([
            '+1:word.lower=' + word1.lower(),
            '+1:word.isupper=%s' % word1.isupper(),
            '+1:word.isdigit=%s' % word1.isdigit(),
            '+1:postag=' + postag1
        ])
    else:
        # Indicate that it is the 'end of a sentence'
        features.append('EOS')

并使用这些参数训练 crf:

    trainer = pycrfsuite.Trainer(verbose=True)

    # Submit training data to the trainer
    for xseq, yseq in zip(X_train, y_train):
        trainer.append(xseq, yseq)

    # Set the parameters of the model
    trainer.set_params({
        # coefficient for L1 penalty
        'c1': 0.1,

        # coefficient for L2 penalty
        'c2': 0.01,

        # maximum number of iterations
        'max_iterations': 200,

        # whether to include transitions that
        # are possible, but not observed
        'feature.possible_transitions': True
    })

    trainer.train('crf.model')

结果:

准确度报告显示:

              precision    recall  f1-score   support

           S       0.99      1.00      0.99    214627
           P       0.81      0.57      0.67      5734

   micro avg       0.99      0.99      0.99    220361
   macro avg       0.90      0.79      0.83    220361
weighted avg       0.98      0.99      0.98    220361

我可以通过哪些方式编辑 word2features2() 以改进模型？(或任何其他部分)

这是link到今天的完整代码。

此外，我只是 nlp 的初学者，因此我非常非常感谢任何总体反馈、相关或有用资源的链接以及相当简单的解释。非常非常感谢!

最佳答案

由于问题的性质，您的类别非常不平衡，因此我建议使用加权损失，其中 P 标签的损失被赋予比 S 类别更高的值。我认为问题可能在于，由于两个类的权重相等，分类器没有对那些 P 标签给予足够的关注，因为它们对损失的影响很小。

您可以尝试的另一件事是超参数调整，然后确保针对宏 f1 分数进行优化，因为无论支持实例的数量如何，它都会为两个类提供相同的权重。

关于python - 哪些特征可以帮助对句尾进行分类？序列分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55682051/

25

4

0

文章推荐： javascript - HTML 加粗不呈现

文章推荐：控制台控制的Java程序？

文章推荐： javascript - 在页面刷新时循环三个 div

文章推荐： java - hazelcast部署实现

帮助! float
我有这个问题: 我们声称对 float 使用相等测试是不安全的，因为算术运算会引入舍入错误，这意味着两个应该相等的数字实际上并不相等。对于这个程序，您应该选择一个数字 N，并编写一个程序来显示 1
Javascript++ -- 帮助
为什么这个脚本的输出是 5 而不是 8 ？我认为 -- 意味着 -1 两次。 var x = 0; var y = 10; while ( x
vb6 - 帮助 ffmpeg
我现在可以从 cmd 窗口中执行的 FFmpeg 过程中读取最后一行。使用脚本主机模型对象引用此源。 Private Sub Command1_Click() Dim oExec
Excel vlookup 帮助
使用 vlookup，当匹配发生时，我想从匹配发生的同一行显示工作表 2 中 C 列的值。我想出的公式从 C 列表 2 中获取值，但它从公式粘贴在表 3 上的行中获取，而不是从匹配发生的位置获取。这
WCF 跟踪日志分析 - 帮助
我在破译 WCF 跟踪文件时遇到了问题，我希望有人能帮助我确定管道中的哪个位置发生了延迟。 “Processing Message XX”的跟踪如下所示，在事件边界和传输到“Process Actio
带有条件连接查询的 Hibernate 帮助
我有四个表，USER、CONTACT、CONACT_TYPE 和 USER_CONTACT USER_CONTACT 存储用户具有填充虚拟数据的表的所有联系人如下用户表 USER_ID(int)|
php 帮助 - 实例化函数
以下有什么作用？ public static function find_by_sql($sql="") { global $database; $result_set = $data
Javabat 帮助 : alarmClock
我正在解决 JavaBat 问题并且对我的逻辑感到困惑。这是任务: Given a day of the week encoded as 0=Sun, 1=Mon, 2=Tue, ...6=Sat,
Scala "match"帮助
我正在研究一些 Scala 代码，发现这种方法让我感到困惑。在匹配语句中，sublist@ 是什么？构造？它包含什么样的值(value)？当我打印它时，它与 tail 没有区别，但如果我用尾部替换它，
iphone - 缩放图像非常慢 - 帮助
我正在使用以下代码自行缩放图像。代码很好，图像缩放也没有问题。 UIImage *originImg = img; size = newSize; if (originImg.size.width >
iphone - 帮助!仪器无法启动
Instruments 无法在我的 iPad 和 iPhone 上启动。两者都已正确配置，我可以毫无问题地从 xcode 调试它们上的代码，但 Instruments 无法启动。我听到的只是一声嘟嘟
iphone - NSRegularExpression 帮助
我想用 iPhone 的 NSRegularExpression 类解析此文本: Uploaded652.81 GB 用于摘录上传和652.81文本。最佳答案虽然我确实认为 xml 解析器更适合解
下拉过滤器的 Javascript 帮助
我找到了 solution在 Stackoverflow 上，根据过滤器显示 HTML“li”元素(请参阅附件)。本质上基于 HTML 元素中定义的 css 类，它填充您可以从中选择的下拉列表。我想
SQL FOR XML 帮助
这是一个简单的问题，但我是在 SQL 2005 中形成 XML 的新手，但是用于形成如下所示表中的 XML 的最佳 FOR XML SQL 语句是什么？ Column1 Column2 -
Flash 文件比它在网站中的背景声音加载得多!帮助
我在 www.enigmafest.com 有一个网站!您可以尝试打开它!我面临的问题是，在预加载器完成后，主页会出现，但其他菜单仍然需要很长时间才能加载，而且声音也至少需要 5 分钟! :( 我怎样
Haskell Curl 帮助
好吧，我正在尝试用 Haskell 来理解 IO，我想我应该编写一个处理网页的简短小应用程序来完成它。我被绊倒的代码片段是(向 bobince 表示歉意，但公平地说，我并不想在这里解析 HTML，只是
javascript - 谷歌浏览器背景页建议/帮助
如何使用背景页面来突出显示网站上的某个关键字，无论网站是什么(谷歌浏览器扩展)？没有弹出窗口或任何东西，它只是在某人正在查看的网站上编辑关键字。我以前见过这样的，就是不明白怎么做!谢谢你的帮助。最佳
JavaScript 帮助、表格和单选按钮
我是 Javascript 新手，需要一些帮助。先看图片: . 积分预测器应用程序。基本上当用户通过单选按钮选择获胜团队时它应该在积分栏中为获胜队添加 10 分，并且并根据得分高的球队自动对表格进
javascript - 从电子邮件到灯箱 - 帮助!
这是我的情况 - 我要发送一份时事通讯，我试图做的是，当用户单击电子邮件中的链接时，它会重定向到我的网页，然后会弹出一个灯箱，显示视频。我无法在页面加载时触发灯箱，因为您可以在查看灯箱之前转到同一页面
Javascript 帮助，获取输入
我有这个代码。 ¿Cuanto es ? Ir 我想获取用户输入的“验证码”值。我尝试这个但行不通。有什么帮助吗？ var campo = d

首页

博学

6Ren·AI

商城

python - 哪些特征可以帮助对句尾进行分类？序列分类

问题:

背景:

结果: