- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
虽然我在使用 MALLET 进行主题建模时添加了额外的停用词列表和默认停用词列表,但一些停用词出现在主题模型中。例如“ın”、“ıf”、“ıt”。我如何确保此停用词不会出现在主题模型中?主题模型如下。
0 5 ı ıt time room door house people eyes thing night woman day make girl face mother voice car home
1 5 ıt ın fact sense point experience order form human action common general religious law part change number case evidence
2 5 时间地点工作水长制作切割 ın 方形大型顶屋侧建机器建筑粘土 block 设计
3 5 名学校人员 ın 发展美国国民社会计划系统经济团体问题教育类(class)学生工作政策 child
4 5 年纽约周家庭音乐美国城市众议院主席走读学校俱乐部威廉秀白 ın 天家庭之夜
5 5 ıt time fire feet river long road side miles game land run hit war gun big ball beginning arms
6 5 手水白手 ın 黑色食物眼睛脸慢慢太阳寒冷 ıt 生活红头热长身
7 5 ın 数字系统数据表面温度高低类型信息 Material 压力进料形式小结果显示方法
8 5 世界生活教会上帝 war 时代伟大的死亡书英语 ın 世纪历史英国法国西方苏联爱情精神
9 5 州年联合政府一般业务联邦部门法院税收成本百万公司秘书法案公共(public) ın 服务行业
多谢指教
最佳答案
检查停用词的拼写。默认情况下,Mallet 会小写您的语料库,但不会小写您的停用词!
还要检查停用词文件的格式:Mallet 期望它是每行一个词。
并且不要忘记将选项 --stoplist-file yourstopwordfile.txt
添加到命令 mallet import-dir
。
编辑:当心输入文件中的 OCR 错误:我看到在主题中,像“ın”这样的词拼写为 dotless i(在土耳其拼写法中使用),而不是通常的点缀岛因此,要么在主题建模之前应用一些 OCR 校正,要么使拼写错误的 ın 带有无点 i 附加停用词。
EDIT2:dotless-i“ın”、“ıf”、“ıt”还有另一个可能的来源:Mallet 将语料库中的所有单词小写。当您的语言环境设置为土耳其语时,Java 会将大写字母 I 小写为无点 i。检查您的 JAVA 语言设置并从头开始重新创建主题模型。
关于stop-words - Mallet - 主题建模 - 停用词错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27640825/
我经常使用stop Fortran 中固有的因各种原因停止执行(主要是在测试失败后)。 program test1 stop end program 除了停止程序执行之外什么都不做。 prog
我想编写一个函数,用字符 e 替换所有出现的字符 c。这些功能似乎正在发挥作用。然而,主要是,我希望能够重复输入一个字符串,扫描要替换的字符,扫描要替换的字符,并打印之前和之后的内容,直到输入的字符串
在 powershell 中,我看到了多种停止服务的方法 更现代的方式 Stop-Service wuauserv 而更传统的方式 NET STOP WUAUSERV 遗留方式 is much mor
所以问题是我需要一个正则表达式,只有当它的 stop 也意味着 stopp 或 sstoooppp 时,它才会匹配第二个单词> 后跟一个空格。我需要得到这个词,我找不到任何正则表达式来做到这一点,因为
我正在做这样的事情 http://jsfiddle.net/8ErSL/2/ 当您将鼠标悬停在任何文本框 (div) 上时,其中会出现一个小图标。 我想阻止图标的淡入淡出效果在我不小心将鼠标悬停在 d
这段代码在 Debug模式下工作得很好,但当不是 Debug模式时它总是抛出运行时异常。 mMediaRecorder.stop(); 根据 Java 文档: Stops recordin
这是我的full code ,这里是my project ,当我在 #onCreate 中使用 MediaRecorder#stop 时,它会引发 java.lang.RuntimeException
我使用 C# 编写了一个库并在 PowerShell 脚本中使用它。 C# 库将大量数据加载到数据库中。我正在使用 Start-Job 来启动该过程,并且我正在监视一个文件是否有错误。 但是,我发现即
我正在尝试编写以下问题的代码: 在 a0, a1, ..., an 处有 n 个酒店,使得 0 dp(k)+(ai-ak)^2) dp(i) = dp(k)+(ai-ak)^2)
我有一个简单的测试,我使用 run_forever 方法运行 Python asyncio 事件循环,然后立即在另一个线程中停止它。但是,事件循环似乎并没有终止。我有以下测试用例: import as
我有以下情况: 专用租赁 m4.large 运行 RHEL6 的 EC2 实例 使用 AWS 控制台手动启动它效果很好 尝试启动它的 Lambda 函数(用 Java 编写)失败,因为实例状态为:已停
我正在使用 Yajsw 将我的应用程序作为守护进程运行。 对于状态调用,我希望看到“正在运行”或“已停止”,但我收到的消息如下所示 SW043305-SRV01:/etc/init.d # ./tes
在 Tomcat 或 TomEE 中,service tomcat start/stop 和 ./catalina.sh run/stop 有什么区别? 他们做的事情完全一样吗? 最佳答案 catal
我正在尝试使用 C++ 和 OpenGL/GLUT 制作一个 Snake 克隆。然而,我一直在编程允许输入 Action 之间的短时间间隔时遇到问题。我已经尝试了一些计时方法,最后我为它创建了一个类(
问题: org.apache.catalina.loader.WebappClassLoader - The web application [/…] appears to have started
我正在尝试以下实验: 我有两个QpushButtons,比如PushA 和PushB。现在 PushA 在 QHBoxLayout 中,PushB 也在它自己的 QHBoxLayout 中。这两个水平
我已经在我的 windows 10 机器上安装了 Docker for Windows。当我尝试从“windows 容器”“切换到 linux 容器”时,出现错误。 Unable to start:
我在我的应用程序中集成了摄像头。当用户单击捕获按钮时,我隐藏了工具栏,以便摄像头预览屏幕尺寸增加。这会导致应用程序在停止在线录制时崩溃 - mMediaRecorder.stop(); 。 java.
运行功能时 stop("m Sys.setenv(LANG = "fr") > 2 + x Erreur : objet 'x' introuvable > Sys.setenv(LANG = "en
我有一个 Windows 10 内部版本,我正在尝试安装 cpriego/valet-linux使用 wsl2 我已经安装了 composer、php 和所有其他的要求。 现在当我做 valet st
我是一名优秀的程序员,十分优秀!