gpt4 book ai didi

algorithm - ANN : Language detection

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:25:13 26 4
gpt4 key购买 nike

我正在尝试重新创建谷歌的 "Hello Prediction"算法来测试我的网络。我从同一个地方得到了我的训练样本。


因为我不希望你点击上面的链接,所以简单介绍一下“你好预测”:它是 Google Prediction API 的“hello world”示例,基本上是训练示例带有大量训练集的 ANN,该训练集由西类牙语、英语和法语的文本字符串组成。到本练习结束时,网络应该能够检测 3 种语言中的每一种。


现在我面临着将数据输入网络的问题。

我如何操作可变长度的文本字符串以馈送到固定大小的网络输入中?

我见过两种考虑词序的解决方案:

  1. 使网络输入足够大以适合整个句子。这是最现实但浪费的方法。我相信 Google 已经想出了更好的方法。

  2. 将句子分成固定大小 (n) 个字符的子字符串,如下所示:如果 n = 2,“abcde”变为 [“ab”、“bc”、“cd”、de“]。

有人成功解决过这个问题吗? #2 比#1 好吗?有第三种解决方案吗?

谢谢。

最佳答案

为什么不尝试一些特征提取? tf_idf 在 NLP 中很常用,我认为您可以找到一些其他有用的数值特征。

关于algorithm - ANN : Language detection,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17423307/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com