gpt4 book ai didi

scala - 如何在scala中生成n-gram?

转载 作者:行者123 更新时间:2023-12-04 09:37:01 24 4
gpt4 key购买 nike

我正在尝试在 Scala 中编写基于 n-gram 的分离新闻算法。
如何为大文件生成 n-gram:
例如,对于包含“蜜蜂是蜜蜂的蜜蜂”的文件。

  • 首先它必须选择一个随机的 n-gram。例如,蜜蜂。
  • 然后它必须寻找以 (n-1) 个单词开头的 n-gram。例如蜜蜂的。
  • 它打印这个 n-gram 的最后一个单词。然后重复。

  • 你能给我一些提示怎么做吗?
    带来不便敬请谅解。

    最佳答案

    您的问题可能会更具体一些,但这是我的尝试。

    val words = "the bee is the bee of the bees"
    words.split(' ').sliding(2).foreach( p => println(p.mkString))

    关于scala - 如何在scala中生成n-gram?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8258963/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com