gpt4 book ai didi

python - 使用 SVM 的命名实体特征选择

转载 作者:行者123 更新时间:2023-11-28 19:20:10 27 4
gpt4 key购买 nike

我有一些用户评论数据,我想从中找到消费电子品牌的名称。例如,考虑这些谈论“PS4”、“nokia 720 lumia”、“apple ipad”、“sony bravia”的 ne_chinked 例句:-

In [52]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('When is the PS4 releasing')))
Out[52]: Tree('S', [('When', 'WRB'), ('is', 'VBZ'), ('the', 'DT'), Tree('ORGANIZATION', [('PS4', 'NNP')]), ('releasing', 'NN')])

In [53]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I couldnt find the nokia 720 lumia in stores')))
Out[53]: Tree('S', [('I', 'PRP'), ('couldnt', 'VBP'), ('find', 'JJ'), ('the', 'DT'), ('nokia', 'NN'), ('720', 'CD'), ('lumia', 'NN'), ('in', 'IN'), ('stores', 'NNS')])

In [54]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I just bought apple ipad and its really awesome')))
Out[54]: Tree('S', [('I', 'PRP'), ('just', 'RB'), ('bought', 'VBD'), ('apple', 'JJ'), ('ipad', 'NN'), ('and', 'CC'), ('its', 'PRP$'), ('really', 'RB'), ('awesome', 'JJ')])

In [55]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I would like to buy 1 Sony bravia led television')))
Out[55]: Tree('S', [('I', 'PRP'), ('would', 'MD'), ('like', 'VB'), ('to', 'TO'), ('buy', 'VB'), ('1', 'CD'), ('Sony', 'NNP'), ('bravia', 'IN'), ('led', 'VBN'), ('television', 'NN')])

问题是我如何表示供 svm 学习的数据。我阅读了数十篇研究论文,但没有一篇披露过它们如何将特征数据表示给支持向量机。任何人都可以帮忙

最佳答案

我会做的是将您关心的所有电子品牌条目添加到一个列表中,然后为了使每个条目都是唯一的,我会使用它在列表中的条目索引作为一个特征。

例如 [‘诺基亚’、‘苹果’、‘微软’]

然后: 诺基亚 => 1 微软 => 2 等

这可能有助于为每个品牌提供独特的代表,作为 SVM 的一项功能,我强调。

关于python - 使用 SVM 的命名实体特征选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27201418/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com