gpt4 book ai didi

information-retrieval - 在原始文本上或在引理/词干处理之后计算单词 n-gram?

转载 作者:行者123 更新时间:2023-12-01 13:28:30 25 4
gpt4 key购买 nike

我正在考虑在原始文本上使用单词 n-gram 技术。但我有一个疑问:

在文本上应用引理/词干后使用单词 n-gram 是否有意义?如果不是,为什么我应该只在原始文件上使用单词 n-gram?有什么优点和缺点?

最佳答案

在词形还原或词干提取之后计算单词 n-gram 的原因与在词干提取之前想要的原因相同。有时这会给你带来误报,例如(D3),但它通常会以一种有意义的方式增加记忆,你想要这样做。

在某些领域,例如短文本,词干提取可能会造成伤害。最好的办法是进行测试,但总的来说,我建议进行词干提取和大小写折叠,但这实际上取决于您的域和查询。

Q="犯罪记录"

  • D1 = “...有一个 犯罪 记录 ...”(匹配词干)
  • D2 = "...释放犯罪记录..."(正常匹配)
  • D3 = "...在处理'Smooth 刑事',录制 ..."(词干上的错误匹配)

  • 这是精确度/召回率的权衡。您可以(总是)通过词干提取来增加召回率,并且可以通过不进行词干提取来提高精度。但这取决于您所服务的查询类型。例如,如果您正在运行代码搜索,您几乎从不想进行词干或预处理,因为用户希望输入准确的符号名称然后找到它们。

    关于information-retrieval - 在原始文本上或在引理/词干处理之后计算单词 n-gram?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47219389/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com