IN `` NP-TTL""") `` 是有效的 Penn Treebank POS 标签-6ren">
gpt4 book ai didi

python - 如何解析上下文无关语法中的特殊字符?

转载 作者:太空宇宙 更新时间:2023-11-04 06:10:36 24 4
gpt4 key购买 nike

我有一个涉及标点符号的上下文无关语法 (CFG)。例如nltk.parse_cfg("""PP-CLR -> IN `` NP-TTL""")

`` 是有效的 Penn Treebank POS 标签。但是nltk无法识别。事实上,nltk.parse_cfg 无法识别字母数字和破折号以外的任何字符。而 Penn Treebank POS 标签有几个标点符号,例如 $ # : 。 (

那么,我应该在我的数据集中保留标点符号吗?或者有没有办法解析这些字符?

谢谢

最佳答案

您可能需要专门将它们指定为终端注释,例如:

>>> import nltk
>>> grammar = nltk.parse_cfg("""
... S -> NP VP
... VP -> V PUNCT
... PUNCT -> '.'
... V -> 'eat'
... NP -> 'I'
... """)
>>>
>>> sentence = "I eat .".split()
>>> cp = nltk.ChartParser(grammar)
>>> for tree in cp.nbest_parse(sentence):
... print tree
...
(S (NP I) (VP (V eat) (PUNCT .)))

关于python - 如何解析上下文无关语法中的特殊字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18984722/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com