gpt4 book ai didi

python - 通过 NLTK 从字符串中解析位置、人名、日期

转载 作者:太空狗 更新时间:2023-10-29 21:57:08 24 4
gpt4 key购买 nike

我有很多字符串,如下所示,

  1. 伊斯兰堡:首席大法官 Iftikhar Muhammad Chaudhry 说国民账户
  2. 卡拉奇,7 月 24 日 -- 警方声称已分别逮捕数名嫌疑人
  3. ALUM KULAM,斯里兰卡 -- 随着灰腹云层开始遮盖焦黄

我正在使用 NLTK 删除日期线部分并识别日期、位置和人名?

使用 pos 标记我可以找到词性。但我需要确定位置日期人名。我该怎么做?

更新:

注意:我不想执行另一个 http 请求。我需要使用我自己的代码来解析它。如果有图书馆,可以使用它。

更新:

我使用 ne_chunk。但运气不好。

import nltk

def pchunk(t):
w_tokens = nltk.word_tokenize(t)
pt = nltk.pos_tag(w_tokens)
ne = nltk.ne_chunk(pt)
print ne

# txts is a list of those 3 sentences.
for t in txts:
print t
pchunk(t)

输出如下,

ISLAMABAD: Chief Justice Iftikhar Muhammad Chaudhry said that National Accountab

(S
ISLAMABAD/NNP
:/:
Chief/NNP
Justice/NNP
(PERSON Iftikhar/NNP Muhammad/NNP Chaudhry/NNP)
said/VBD
that/IN
(ORGANIZATION National/NNP Accountab/NNP))

KARACHI, July 24 -- Police claimed to have arrested several suspects in separate

(S
(GPE KARACHI/NNP)
,/,
July/NNP
24/CD
--/:
Police/NNP
claimed/VBD
to/TO
have/VB
arrested/VBN
several/JJ
suspects/NNS
in/IN
separate/JJ)

ALUM KULAM, Sri Lanka -- As gray-bellied clouds started to blot out the scorchin

(S
(GPE ALUM/NN)
(ORGANIZATION KULAM/NN)
,/,
(PERSON Sri/NNP Lanka/NNP)
--/:
As/IN
gray-bellied/JJ
clouds/NNS
started/VBN
to/TO
blot/VB
out/RP
the/DT
scorchin/NN)

仔细检查。甚至 KARACHI 也被很好地识别,但是 Sri Lanka 被识别为 Person,ISLAMABAD 被识别为 NNP 而不是 GPE。

最佳答案

如果使用 API 与您自己的代码可以满足您的要求,这就是 Wit API可以轻松地为您做。

enter image description here

Wit 还将把日期/时间标记解析为标准化日期。

首先,您只需提供几个示例。

关于python - 通过 NLTK 从字符串中解析位置、人名、日期,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21548504/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com