gpt4 book ai didi

java - 谁能帮我从我的 mysql 推文数据库中删除停用词

转载 作者:行者123 更新时间:2023-11-29 11:59:09 24 4
gpt4 key购买 nike

对于一个java项目,我正在从twitter收集推文,到目前为止我已经收集了大约30,000条推文,并且还将收集更多,我想从这些推文中删除停用词,并通过删除停用词将它们过滤到另一个镜像数据库,任何人都可以吗?帮我解决这个问题,谢谢。如果我下载一些停用词列表,并检查每条推文,这将花费太多时间,如果有其他有效的方法来做到这一点,而且我没有找到停用词列表的 .txt,请帮助我。

最佳答案

制作停用词列表,然后阅读 This Page来自mysql手册。

To override the default stopword list, set the ft_stopword_file system variable. (See Section 5.1.4, “Server System Variables”.) The variable value should be the path name of the file containing the stopword list, or the empty string to disable stopword filtering. The server looks for the file in the data directory unless an absolute path name is given to specify a different directory. After changing the value of this variable or the contents of the stopword file, restart the server and rebuild your FULLTEXT indexes.

您提到的 36 个单词是指在编译 mysql 守护进程时嵌入的那些停用词,并且可能代表 This Page 上描述的主题。在手册中。

关于java - 谁能帮我从我的 mysql 推文数据库中删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32665050/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com