gpt4 book ai didi

python - 自然语言处理 - 初学者项目的想法

转载 作者:太空狗 更新时间:2023-10-29 17:16:47 24 4
gpt4 key购买 nike

我是NLP和NLTK的初学者。我对NLP很感兴趣,因此
在当地某机构参加了一个关于人工智能的周末课程,这需要我
为了完成课程做一个项目,我决定在NLP中做。问题是,老师对这门课一点也不擅长(据我说,她
只是个江湖骗子)(或者可能对教学不太感兴趣
这是她在这里的最后一批货,在这之后研究所将派
她出去了)。所以我陷入了一个我必须完成的境地
这个项目在一个月到一个半月的时间内,但作为一个幼稚的
在场的人我觉得很难理解
决定项目所需的东西。(同时,当我全力以赴工作时
时间,我找不到足够的时间来做这件事)。
我考虑在项目中使用Python中的NLTK工具包,原因如下。
(1)Python以易用性、快速原型和非常活跃的社区而闻名(考虑到我的时间跨度非常短,而且由于我是一名专业的C程序员,我需要一种我可以快速学习且易于使用的语言)。
(2)NLTK具有良好的审查、广泛的文档和非常活跃的社区。
所以问题是我应该从事什么项目,这样我才能学到一些东西,并且能够及时完成项目。
(我对NLP几乎一无所知,甚至不知道语料库到底是什么…(:)
所以,请给我一些我应该为这个项目考虑的主题。
当做,
微内核:)

最佳答案

大多数“初学者”项目的目标是重新实现众所周知的算法,因此初学者可以通过验证已知解决方案的结果来学习。为此,我推荐一些简单的东西,比如电子邮件垃圾邮件过滤器。您首先要创建一个培训文件,即将几个真实电子邮件的文本复制到一个csv文件中,然后手动将其标记为垃圾邮件或非垃圾邮件,例如:

text|is_spam
hi bob! how are you?|0
what time are you coming over|0
how to buy viagra now!|1

接下来,您将创建一个与培训文件格式相同的测试文件,但显然使用了不同的示例。
然后,您将创建分类器/垃圾邮件过滤器。有许多不同的方法来实现垃圾邮件过滤器,但最基本的方法是简单地计算一个单词出现的频率,即“垃圾邮件=0”和“垃圾邮件=1”。例如,基于上面的培训文件,“伟哥”一词与1个垃圾邮件分类相关联,但0个非垃圾邮件分类,因此很可能未来包含“伟哥”一词的电子邮件也会被归类为垃圾邮件。类似地,单词“how”出现在1封垃圾邮件和1封非垃圾邮件中,因此它不太可能表示明确的分类。
然后在训练文件上训练分类器,并通过在测试文件上运行来计算它的准确性。
如果上面的方法太简单,你可以通过计算n-gram(单词组)来增加它的复杂性,甚至可以通过首先标记语音部分来增加语法结构(例如,很多垃圾邮件通常是随机的垃圾,里面填充了关键字,而非垃圾邮件通常是有意义的)。您可以实现几个不同的分类器,并比较它们的准确性。
当然,它还有更多的内容,但是这些方法在互联网上有很好的文档记录,这是你的项目,所以你需要做进一步的研究。祝你好运。

关于python - 自然语言处理 - 初学者项目的想法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2572301/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com