作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
所以我有一些被乱七八糟解析的文本数据,因此我将名称与实际数据混合在一起。是否有任何类型的包/库可以帮助识别单词是否是名称? (在这种情况下,我将假设以美国/西方/欧洲为中心的名称)
否则,什么是标记它的好方法?也许在名称语料库上训练模型并为数据集中的每个单词分配一个分类?只是不确定解决这个问题的最佳方法/哪种模型适合,或者是否已经存在解决方案
最佳答案
import nltk
from nltk.tag.stanford import NERTagger
st = NERTagger('stanford-ner/all.3class.distsim.crf.ser.gz', 'stanford-ner/stanford-ner.jar')
text = """YOUR TEXT GOES HERE"""
for sent in nltk.sent_tokenize(text):
tokens = nltk.tokenize.word_tokenize(sent)
tags = st.tag(tokens)
for tag in tags:
if tag[1]=='PERSON': print tag
通过
Improving the extraction of human names with nltk
关于python - 如何识别字符串是否是人名?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64109483/
我有一个 TextView 对象,其目的是输入一个人的名字。我看了here并看到 textPersonName 是一种输入类型。所以我选择了那个输入类型,认为它会做我想要的。 但是,这种输入类型不将首
我有一个 PHP 脚本,应该检查“有效”的人名,但最近破解了带有空格的名称,因此我们向验证器添加了空格。 除了这样做之外,有没有办法向 CakePHP 的验证器添加黑名单以阻止所有“无效”字符,而不是
我有很多字符串,如下所示, 伊斯兰堡:首席大法官 Iftikhar Muhammad Chaudhry 说国民账户 卡拉奇,7 月 24 日 -- 警方声称已分别逮捕数名嫌疑人 ALUM KULAM,
我是一名优秀的程序员,十分优秀!