gpt4 book ai didi

python - 如何使用 NLTK 和 Python 从文本中删除自定义单词模式

转载 作者:太空宇宙 更新时间:2023-11-04 10:23:48 25 4
gpt4 key购买 nike

我目前正在做一个分析质量试卷问题的项目。在这里我使用 Python 3.4 和 NLTK。
所以首先我想把每道题从课文中单独拿出来,试卷格式如下。

 (Q1). What is web 3.0?
(Q2). Explain about blogs.
(Q3). What is mean by semantic web?
and so on ........

所以现在我想在没有题号的情况下一个一个地提取问题(题号格式始终与上面给出的相同)。所以我的结果应该是这样的。

 What is web 3.0?
Explain about blogs.
What is mean by semantic web?

那么如何使用 NLTK 解决 python 3.4 的这个问题呢?
谢谢

最佳答案

您可能需要检测包含问题的行,然后提取问题并删除问题编号。用于检测问题标签的正则表达式是

qnum_pattern = r"^\s*\(Q\d+\)\.\s+"

你可以用它来提取这样的问题:

questions = [ re.sub(qnum_pattern, "", line) for line in text if 
re.search(qnum_pattern, line) ]

显然,text 必须是一个行列表或一个打开供阅读的文件。

但是,如果您不知道如何处理这个问题,那么剩下的作业就已经为您完成了。我建议花一些时间阅读 Python 教程或其他介绍性 Material 。

关于python - 如何使用 NLTK 和 Python 从文本中删除自定义单词模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30693651/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com