- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
抱歉,我是 Pandas 和 NLTK 的新手。我正在尝试构建一组自定义返回的 POS。我的数据内容:
comment
0 [(have, VERB), (you, PRON), (pahae, VERB)]
1 [(radio, NOUN), (television, NOUN), (lid, NOUN)]
2 [(yes, ADV), (you're, ADJ)]
3 [(ooi, ADJ), (work, NOUN), (barisan, ADJ)]
4 [(national, ADJ), (debt, NOUN), (increased, VERB)]
知道如何才能只获得与所选标签(VERB
或 NOUN
)匹配的单词,如下所示吗?如果没有匹配则返回 NaN
。
comment
0 [(have), (pahae)]
1 [(radio), (television), (lid)]
2 [NaN]
3 [(work)]
4 [(debt), (increased)]
最佳答案
您可以使用list comprehension
,然后将空的list
替换为[NaN]
:
df = pd.DataFrame({'comment': [
[('have', 'VERB'), ('you', 'PRON'), ('pahae', 'VERB')],
[('radio', 'NOUN'), ('television', 'NOUN'), ('lid', 'NOUN')],
[('yes', 'ADV'), ("you're", 'ADJ')],
[('ooi', 'ADJ'), ('work', 'NOUN'), ('barisan', 'ADJ')],
[('national', 'ADJ'), ('debt', 'NOUN'), ('increased', 'VERB')]
]})
print (df)
comment
0 [(have, VERB), (you, PRON), (pahae, VERB)]
1 [(radio, NOUN), (television, NOUN), (lid, NOUN)]
2 [(yes, ADV), (you're, ADJ)]
3 [(ooi, ADJ), (work, NOUN), (barisan, ADJ)]
4 [(national, ADJ), (debt, NOUN), (increased, VE...
df.comment = df.comment.apply(lambda x: [(t[0],) for t in x if t[1]=='VERB' or t[1]=='NOUN'])
df.ix[df.comment.apply(len) == 0, 'comment'] = [[np.nan]]
print (df)
comment
0 [(have,), (pahae,)]
1 [(radio,), (television,), (lid,)]
2 [nan]
3 [(work,)]
4 [(debt,), (increased,)]
关于python - 如何在 NLTK 词性 (POS) 标记中只获取所选标记的词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39483108/
我正在使用 SpaCy 进行文本分析,但我无法理解词性 (POS) 和句法依赖分析之间的区别。两者都根据单词的作用在句子中标记单词。但它们究竟有何不同? 最佳答案 我们使用词性标注来标记句子中的标记,
我正在使用 SpaCy 进行文本分析,但我无法理解词性 (POS) 和句法依赖分析之间的区别。两者都根据单词的作用在句子中标记单词。但它们究竟有何不同? 最佳答案 我们使用词性标注来标记句子中的标记,
我正在使用 openNLP 来标记 POS(词性)。 InputStream inputStream = new FileInputStream("C:/en-pos-max
抱歉,我是 Pandas 和 NLTK 的新手。我正在尝试构建一组自定义返回的 POS。我的数据内容: comment 0 [(have, VERB), (you, PRO
我正在尝试执行词性标记,并且我对任何基于 Java 的标记器持开放态度(当前使用 OpenNLP)。有没有办法“强制”标记器将特定术语(或单词组合)识别为特定标签,并据此对其他术语进行分类?有点允许标
我想将 nltk.pos_tag 返回的词性 (POS) 用于 sklearn 分类器,如何将它们转换为向量并使用它?例如 sent = "这是 POS 示例" tok=nltk.tokenize.w
我是一名优秀的程序员,十分优秀!