gpt4 book ai didi

stop-words - Mallet - 主题建模 - 停用词错误

转载 作者:行者123 更新时间:2023-12-03 16:59:31 26 4
gpt4 key购买 nike

虽然我在使用 MALLET 进行主题建模时添加了额外的停用词列表和默认停用词列表,但一些停用词出现在主题模型中。例如“ın”、“ıf”、“ıt”。我如何确保此停用词不会出现在主题模型中?主题模型如下。

0 5 ı ıt time room door house people eyes thing night woman day make girl face mother voice car home

1 5 ıt ın fact sense point experience order form human action common general religious law part change number case evidence

2 5 时间地点工作水长制作切割 ın 方形大型顶屋侧建机器建筑粘土 block 设计

3 5 名学校人员 ın 发展美国国民社会计划系统经济团体问题教育类(class)学生工作政策 child

4 5 年纽约周家庭音乐美国城市众议院主席走读学校俱乐部威廉秀白 ın 天家庭之夜

5 5 ıt time fire feet river long road side miles game land run hit war gun big ball beginning arms

6 5 手水白手 ın 黑色食物眼睛脸慢慢太阳寒冷 ıt 生活红头热长身

7 5 ın 数字系统数据表面温度高低类型信息 Material 压力进料形式小结果显示方法

8 5 世界生活教会上帝 war 时代伟大的死亡书英语 ın 世纪历史英国法国西方苏联爱情精神

9 5 州年联合政府一般业务联邦部门法院税收成本百万公司秘书法案公共(public) ın 服务行业

多谢指教

最佳答案

检查停用词的拼写。默认情况下,Mallet 会小写您的语料库,但不会小写您的停用词!

还要检查停用词文件的格式:Mallet 期望它是每行一个词。

并且不要忘记将选项 --stoplist-file yourstopwordfile.txt 添加到命令 mallet import-dir

编辑:当心输入文件中的 OCR 错误:我看到在主题中,像“ın”这样的词拼写为 dotless i(在土耳其拼写法中使用),而不是通常的点缀岛因此,要么在主题建模之前应用一些 OCR 校正,要么使拼写错误的 ın 带有无点 i 附加停用词。

EDIT2:dotless-i“ın”、“ıf”、“ıt”还有另一个可能的来源:Mallet 将语料库中的所有单词小写。当您的语言环境设置为土耳其语时,Java 会将大写字母 I 小写为无点 i。检查您的 JAVA 语言设置并从头开始重新创建主题模型。

关于stop-words - Mallet - 主题建模 - 停用词错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27640825/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com