gpt4 book ai didi

preprocessor - 处理神经网络输入的文本字符串

转载 作者:行者123 更新时间:2023-12-03 10:39:31 28 4
gpt4 key购买 nike

我了解 ANN 输入必须标准化、标准化等。
撇开各种 ANN 的特性和模型不谈,在将其作为神经网络的输入之前,如何在 {0,1} 范围内或在 {-1,1} 范围内预处理 UTF-8 编码文本?
我一直在谷歌上搜索这个但找不到任何信息(我可能使用了错误的术语)。

  • 那有意义吗?
  • 这不是为神经网络预处理文本的方式吗?
  • 有没有其他选择?

  • 2013 年 11 月更新
    我早就接受了皮特的正确答案。
    然而,我有严重的怀疑,主要是由于我最近对符号知识和 ANN 的研究。
    Dario Floreano and Claudio Mattiussi在他们的书中解释说这种处理确实是可能的,通过使用 分布式编码 .
    实际上,如果您尝试使用 google 学者搜索,就会发现大量的神经科学文章和论文,这些文章和论文介绍了如何假设大脑使用分布式编码来编码符号知识。
    Teuvo Kohonen ,在他的论文“自组织 map ”中解释说:

    One might think that applying the neural adaptation laws to asymbol set (regarded as a set of vectorial variables) might create atopographic map that displays the "logical distances" between thesymbols. However, there occurs a problem which lies in the differentnature of symbols as compared with continuous data. For the latter,similarity always shows up in a natural way, as the metric differencesbetween their continuous encodings. This is no longer true fordiscrete, symbolic items, such as words, for which no metric has beendefined. It is in the very nature of a symbol that its meaning isdissociated from its encoding.


    然而,Kohonen 确实设法处理了 SOM 中的符号信息!
    此外, Alfred Ultsch 博士教授 在他的论文“神经网络与
    Symbolic Knowledge Processing” 精确处理如何处理 ANN 中的符号知识(例如文本)。Ultsch 提供了以下处理符号知识的方法:神经近似推理、神经统一、内省(introspection)和集成
    知识获取。尽管在谷歌学者或其他任何地方都找不到关于这方面的信息。
    皮特在他的回答中关于语义是正确的。
    ANN 中的语义通常是不连贯的。然而,在引用之后,提供了研究人员如何使用 RBM 的见解,这些 RBM 被训练以识别不同单词输入的语义相似性,因此拥有语义应该不是不可能的,但如果需要语义,则需要分层方法或辅助 ANN .
    Natural Language Processing With Subsymbolic Neural Networks, Risto Miikkulainen, 1997
    Training Restricted Boltzmann Machines on Word Observations, G.E.Dahl, Ryan.P.Adams, H.Rarochelle, 2012
    2021 年 1 月更新
    NLP 和深度学习领域的研究在过去几年中出现了复苏,自从我提出这个问题以来。现在有机器学习模型可以解决我试图以多种不同方式实现的目标。
    对于遇到此问题并想知道如何在深度学习或神经网络中预处理文本的任何人,这里有一些有用的主题,它们都不是学术性的,但很容易理解,它们应该可以帮助您开始解决类似的任务:
  • Vector Space Models
  • Transformers
  • Recurrent and Convolutional Networks for Text Classification
  • Word Embedding
  • Text Pre-processing

  • 在我问这个问题的时候,RNN、CNN 和 VSM 即将开始使用,现在大多数深度学习框架都支持广泛的 NLP 支持。希望以上有所帮助。

    最佳答案

    我将继续在这里总结我们的讨论作为答案。

    您的目标是能够将文本合并到您的神经网络中。我们已经确定传统的人工神经网络并不适合分析文本。为什么会这样的基本解释是基于这样的想法,即 ANN 对通常是连续值范围的输入进行操作,并且输入的两个值的接近意味着它们的含义具有某种接近性。单词没有这种接近的概念,因此,对于作为 ANN 的输入有意义的单词,没有真正的数字编码。

    另一方面,一个可行的解决方案是使用更传统的语义分析,它可能会为主题列表生成情感范围,然后这些主题及其情感值可能会用作 ANN 的输入。

    关于preprocessor - 处理神经网络输入的文本字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14783431/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com