gpt4 book ai didi

twitter - 如何处理推文中的俚语和简短形式,如 luv 、 kool 和 brb ?

转载 作者:行者123 更新时间:2023-12-01 16:37:49 25 4
gpt4 key购买 nike

我正在使用 Python 对推文进行预处理。然而,使用的很多单词都是其他单词的缩写形式,如 luv、kool 等。此外,还有缩写,如 brb 、 ttyl 等。

现在,我只能想到有一个巨大的 HashMap ,其中单词作为键,实际单词或扩展作为值。有没有其他更好的方法使用 NLP 来解决这个问题?

注意:我知道问题似乎太模糊了。但请不要举报。我问这个问题是为了让业余爱好者能够从这些知识中受益

PS:是否有一个格式良好的文本列表可供我下载和使用?放置的链接很好,但是当我复制并粘贴它时 - 它们不是易于解析的格式

最佳答案

破译缩写的唯一方法是使用外部资源。这就是为什么有许多人类缩写词典。虽然人类可以利用常识知识和已知的缩写来预测含义,但即使他们做得很糟糕,所以目前 NLP 没有希望。

有时也可以在同一文本中找到缩写词的定义,但 twitter 或(不是和)俚语则不然。

所以,是的,您必须存储从首字母缩略词到其扩展名的映射。为了获得它们,请搜索首字母缩略词词典,例如this slang dictionary ,或that ,或that ,或that - seems to be the easiest for parsing .

至于“kool”等其他俚语,您可以尝试拼写纠正算法,参见related question .

关于twitter - 如何处理推文中的俚语和简短形式,如 luv 、 kool 和 brb ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28769577/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com