gpt4 book ai didi

machine-learning - 神经网络性能优化

转载 作者:行者123 更新时间:2023-11-30 09:52:00 26 4
gpt4 key购买 nike

我正在尝试根据报告中提到的症状对医疗报告进行分类。我正在做的步骤是

1)从每份医疗报告中提取症状。

2) 创建一个从所有医疗报告中提取的所有症状的集合,到目前为止总共有 3700 个术语。

3) 创建一组出院小结中诊断和提及的所有疾病,到目前为止总术语为 1500。

4) 现在,我迭代所有医疗报告,并为每份报告及其诊断创建一个热向量。我有 5000 个文档。

对于症状,我得到一个 5000 X 3700 的矩阵其中每行代表一个文档,每列显示一个症状。如果文档中存在症状,则该列的值为 1,否则该值为 0,即症状为

enter image description here

为了诊断,我得到一个 5000 X 1500 的矩阵

enter image description here

I am using a backward propagating neural network for training. The network has 3700 input neurons, 1 hidden layer and 1500 output neurons.

代码是从这里使用的http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html用于创建分类器。

问题是,无论我训练多少(到目前为止我已经尝试了 25000 轮),我得到的结果都很糟糕,

对于 160 多个标签,输出具有最大概率值 (1),而我预计是 5 个标签。

我可能做错了什么,或者我应该做什么来改善结果。

更新:我也尝试使用最少的数据(100 个文档和 85000 个时期)来测试网络。

可能导致该问题的一个问题是,从每个文档中最多提取 15 - 20 个术语,因此一个热向量有 20 个 1 和 3680 个 0。有人可以建议这是否是问题所在吗?

最佳答案

没有足够的细节来了解您的问题和实现情况但是,一个好的起点将帮助您了解是否有更多技术问题(错误、网络架构等)或数据问题,那就是创建您知道应该适合您的模型的合成数据(伪造一些疾病,每种疾病)具有一系列症状)

如果模型没有给出期望的结果,则可能是技术问题。如果确实如此,则更有可能是数据问题:可能您的数据噪音太大,或者底层模型更复杂,或者您没有足够的数据。

关于machine-learning - 神经网络性能优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43571202/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com