gpt4 book ai didi

python - 如何从词序中区分句子型和非句子型?

转载 作者:行者123 更新时间:2023-11-30 09:53:03 25 4
gpt4 key购买 nike

我有很多行,它们可以分为两种类型。

单词序列的类型:

  1. 这是一个有效的英语句子:

    经验:- 作为一名忠诚的软件工程师,拥有超过 5 年的经验拥有 Microsoft 技术和商业智能方面的经验工具。

  2. 不是一个有效的英语句子(只是单词序列):
    示例:

    • 客户:PMP 汽车零部件

    • HTML、层叠样式表、Java 脚本、JSP

    • 组织:Satyam Computer Services Ltd.,| ? |职称: 软件工程师 | ? |持续时间 : 03/2006 03/2010 | ? |
    • SLC - STC 优异认证 - 2006 年 Satyam Computer Services Ltd.

我正在使用 python 进行机器学习任务。我可以使用 POS 标签作为 NLTK 分类的特征。该问题可以应用哪种算法?

更新:
应该利用哪些特征来预测它是否是一个句子?

最佳答案

您可以使用树标记包装器: Reathedocs of TreetaggerWrapper

从文档来看它应该很容易使用:

import pprint   # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))

检查句子是否包含名词(标签 NN)、动词(标签 VBZ)和正确的句子标点符号(标签 SENT) )

关于python - 如何从词序中区分句子型和非句子型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41185050/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com