gpt4 book ai didi

python - NLTK - 使用上下文区分颜色和单词

转载 作者:太空宇宙 更新时间:2023-11-04 04:08:24 26 4
gpt4 key购买 nike

我正在编写一个程序来分析文本中颜色的使用情况。我想搜索颜色词,例如“杏色”或“橙色”。例如,作者可能会写“风中飘扬的杏色太阳裙”。但是,我只想计算实际描述颜色的杏子/橙子,而不是像“我吃了一个杏子”或“我喝了橙汁”这样的东西。

有没有办法做到这一点,也许在 NLTK 中使用 context()?

最佳答案

欢迎来到同音异义词、多义词和 WSD 的广阔领域。在语料库语言学中,这是一种搭配的方法,例如并用于确定果汁具有“橙色”颜色或由相应水果制成的概率。两种概率都很高,但“夹克”由各自的水果制成的概率应该低得多。有不同的方法可以使用。您可以要求语料库注释者(专家、众包等)在文本中注释数据,您可以使用它来训练您的(机器学习)模型,在本例中是一个简单的分类器。否则,您可以结合 Wordnet 使用大文本数据来收集搭配计数,这可能会为您提供语义信息,说明夹克是否通常由水果制成。一个幸运的细节是很少有人在文本中使用刻板的颜色,所以你不必关心像“黄色香蕉”这样的情况。浅层解析也可能有帮助,因为颜色形容词应该优先用于定语位置。一种不同的方法是使用单词相似性度量(向量空间语义)或用于词义消歧(WSD)的嵌入。也许这有助于: https://web.stanford.edu/~jurafsky/slp3/slides/Chapter18.wsd.pdf https://towardsdatascience.com/a-simple-word-sense-disambiguation-application-3ca645c56357

关于python - NLTK - 使用上下文区分颜色和单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56821957/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com