python - 无论上下文如何，NLTK 的 NgramModel 始终为单词给出相同的概率-6ren

python - 无论上下文如何，NLTK 的 NgramModel 始终为单词给出相同的概率

转载作者：太空宇宙更新时间：2023-11-04 08:10:40

27

4

我正在使用 nltk 中的 NgramModel 来计算在句子中找到特定单词的概率。我的问题是，无论上下文如何，每个词每次都给出完全相同的概率!下面是一些示例代码，可以说明我的问题。

from nltk.corpus import brown
from nltk.probability import LidstoneProbDist, WittenBellProbDist
from nltk.model import NgramModel

estimator = lambda fdist, bins: LidstoneProbDist(fdist, 0.2)

lm = NgramModel(3, brown.words(categories='news'), estimator=estimator)
>>> print lm.prob("word", ["This is a context which generates a word"])
0.00493261081006
>>> print lm.prob("word", ["This is a context of a word"])
0.00493261081006
>>> print lm.prob("word", ["This word"])
0.00493261081006
>>> print lm.prob("word", ["word"])
0.00493261081006
>>> print lm.prob("word", ["adnga"])
0.00493261081006

最佳答案

单词的上下文不应该包含单词本身，除非你有一个重复的单词。棕色语料库很小，所以除非你命中的是数据中实际观察到的卦，否则你会得到相同的答案。在我的示例中，我改用二元语法，这样我就不会经常使用平滑模型。在您的示例中，您每次都在使用平滑模型。第三，在实践中，LidstoneProbDist 非常糟糕，它是平滑时可能起作用的最简单的东西，而不是你想在实践中使用的东西。 SimpleGoodTuringProbDist 要好得多。

from nltk.corpus import brown
from nltk.probability import LidstoneProbDist
from nltk.model import NgramModel

estimator = lambda fdist, bins: LidstoneProbDist(fdist, 0.2)

lm = NgramModel(2, brown.words(categories='news'), estimator=estimator)

lm.prob("good", ["very"])          # 0.0024521936223426436
lm.prob("good", ["not"])           # 0.0019510849023145812
lm.prob("good", ["unknown_term"])  # 0.017437821314436573

关于python - 无论上下文如何，NLTK 的 NgramModel 始终为单词给出相同的概率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23111200/

27

4

0

文章推荐： python - 将逗号分隔的字符串分配给元组数组 - python, numpy

文章推荐： python - 对字典的项目应用一个函数

文章推荐： python - 尝试使用 mkdir 时 Python 中的语法无效

文章推荐： javascript - 如何制作一个全黑的空加载屏幕？这一直有效

vim 通过快捷方式直接访问路径文件，始终
当我使用路径文件上的快捷方式在文件之间移动时，似乎我不仅仅是在文件之间移动。我使用>转到一个文件，在该文件中我更改光标的位置并执行某些操作，然后按 gf noremap 关于vim 通过快捷方式直
verilog 始终、开始和结束评估
我正在尝试使用 Pong P. Chu 的书来学习 Verilog。我有一个关于如何评估和实现始终 block 的问题。作者代码中的风格让我感到困惑。在此示例中，他编写了一个具有两个输出寄存器“y1
Javascript xmlhttprequest 始终
我正在尝试制作一个聊天应用程序，因此我需要它始终接收服务器信息。因此，当请求完成时，在: http.onreadystatechange=function(){ 我再次调用该函数，因此: reques
verilog - Verilog 始终@* 敏感度列表中包含哪些内容？
当您在 always block 敏感度列表中使用通配符 @* 时，我对什么被视为输入有点困惑。例如，在下面的示例中，哪些信号被解释为导致 always block 被重新评估的输入？据我了解，cl
c++ - 硬件断点 EXCEPTION_SINGLE_STEP 始终
我有一个充当调试器的程序。我为线程设置了一个 hw bp，将 dr0 设置为我希望 bp 所在的地址，将 dr7 设置为 1，因为我希望 bp 在每次执行该地址时生成一个事件。它有效，但现在的问题是
bash - 如何以管理员身份运行 Git Bash(始终)
如何每次都以管理员身份在 Windows 上运行 git bash。操作系统 - Windows 10 家庭版 64 位最佳答案我在 Google 上找到了这个结果: 将 Git Bash 设置
C 套接字双栈 ss_family 始终 IPv6
使用 accept() 时或 getpeername() , sockaddr_storage总是有 ss_family=AF_INET6 : struct sockaddr_storage addr
javascript - Cordova:始终 deviceready 尚未触发
我在 Cordova 方面还有另一个问题。我想在 Cordova 7.1.0 中使用插件“cordova.custom.plugins.exitapp”和“cordova-plugins-printe
始终 block 中的 Veriloggenerate/genvar
我试图让模块通过 ISE 12.4 中的语法检查，但它给了我一个我不明白的错误。首先是代码片段: parameter ROWBITS = 4; reg [ROWBITS-1:0] temp; genv
ios - iOS cordova允许“始终”访问位置
我正在使用Cordova开发适用于iOS的应用程序，其中包括地理位置功能(我使用官方插件https://github.com/apache/cordova-plugin-geolocation)。我在
始终 block 的灵敏度列表中的 Verilog 多个信号变化
我想知道是否有可能只在敏感列表中的多个信号一起变化时才执行 always block 。例如，假设我有一个信号“in”和另一个“posedge clk”。我希望在两个信号都发生变化时执行 alway
java - 游标.getCount 始终 = 0
我需要实现一种算法来访问数据库来检查最后一个元素，以便计算新的元素。当然，第一次这是不可能的，因为数据库是空的，我得到 IndexOutOfBoundsException) index 0 reque
javascript - 使用 jQuery 具有相同高度的两个元素 - 始终
我正在利用我在网上找到的画廊系统，根据鼠标图像的接近程度，它会按比例增长。链接:Gallery 好吧，我调整了代码以响应(如您所见正在 build 中)并且没有明显的问题。我的问题在更改分辨率时开始
.net - 使 Windows 应用程序始终位于其他窗口之上并处于焦点位置 - 始终
我正在创建一个 kiosk 应用程序，我想确保它无论如何始终位于其他 Windows 应用程序和 Windows 任务栏之上。我已经阻止了 Windows 键盘命令(alt-tab 等)，但仍有可能
javascript - 容器组件是否应该*始终*连接到 Redux？
我即将开始一个新的 React 项目，并尝试利用我以前的知识来创建一些关于我如何构建应用程序的规则。有些事情我认为是真的: Redux 保存整个应用程序的“主要”数据如果需要跨应用程序共享，Red
visual-studio-code - 是否可以将集成终端*始终*放在右侧？
当你打开 VS Code 时，终端默认是在底部打开的。您可以单击该图标将其向右移动。我想知道是否有办法将右侧打开设置为默认值。谢谢。最佳答案是的 - 在 v1.20 中引入了设置 workb
python - 修改 `objects` 以*始终*返回对象的子集？
我有一个Events表，其中包含各种类型的事件。我只关心其中一种类型。因此，我编写的每个查询都以开头 Events.objects.filter(event_type="the_type").\
swift - 计时器未触发(timeInterval 始终 == 0.0)
我在单例中创建了一个Timer，并且我一直在努力解决为什么Timer没有触发。我查看了这里的帖子，但没有找到我认为可以直接回答我的问题的帖子。 class ConnectionStateMonitor
ios - prepareForSegue 传递索引 0 的值...始终
我在 TableViewController 中显示了一组项目。它们在 TVC 中正确显示。下面的代码会继续，但它只会继续到我的 MKMapItem 数组的 indexPath 0，而不是被单击的单元
ios - 应用内购买错误，始终 myProduct 为 0
我的 VC 是这样的: var coins = 50 // coins override func viewDidLoad() { super.viewDidLoad() if(SKP

首页

博学

6Ren·AI

商城

python - 无论上下文如何，NLTK 的 NgramModel 始终为单词给出相同的概率