- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
编辑 02/2018 在使用本地存储的数据编写我自己的代码和不那么笨重的准确度指标计算后,我发现速度有了显着提高。 GPU 还会冲洗我尝试在 mxnet 中构建的任何 CNN 中的 CPU;即使只是使用 MNIST。我相信我的问题与教程代码有关,不再认为这是一个真正的问题。
我正在浏览 http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html 上的“胶子中的多层感知器”MNIST 教程
(相同的代码,除了将上下文设置为 gpu(0),使用顺序模型)
我在 Windows 10 中。使用 python 3 (anaconda),安装 CUDA 9.0 和 cuDNN v7.0.5 for 9.0,然后从 pip 安装 mxnet_cu90。
我将数据和模型上下文设置为 gpu(0),但我的 gtx 1080 使用率徘徊在 1-4% 左右(无论脚本是否正在运行),而我的 8 个 Xeon 内核则上升到 50-60% 左右通过时代。无论上下文如何,训练时间都没有差异。当我在训练后打印参数时,它说它们是 NDArray size gpu(0),所以它肯定认为它正在使用 gpu。
编辑:在我家里的笔记本电脑上复制(gpu:GTX980m,cpu:I7 4710HQ)。在这种情况下,使用了 gpu:980m 每个时期的使用率从 0% 增加到 12%。然而,cpu 也使用了 >40% 的负载,而且 gpu 上下文训练实际上比在 cpu 上慢。
我开始认为,因为这是 MNIST/ANN 的一个简单问题,所以 gpu 不会受到挑战。也许我会在训练 CNN 时看到更多 gpu 使用的影响。
虽然我仍然有点困惑,因为我在使用 TensorFlow 时从未遇到过这些问题;使用 gpu 通常总是优于我的 cpu。
感谢任何帮助,谢谢,
编辑:按要求编写代码:
#MULTILAYER PERCEPTRONS IN GLUON (MNIST)
#MODIFIED FROM: http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html
#IMPORT REQUIRED PACKAGES
import numpy as np
import mxnet as mx
from mxnet import nd, autograd, gluon
import datetime #for comparing training times
#SET THE CONTEXTS (GPU/CPU)
ctx = mx.gpu(0) #note: original tutorial sets separate context variable for data/model. The data_ctx was never used so i submitted an issue on github and use a single ctx here
#ctx = mx.cpu()
#PREDEFINE SOME USEFUL NUMBERS
batch_size = 64
num_inputs = 784
num_outputs = 10 #ten hand written digits [0-9]
num_examples = 60000
#LOAD IN THE MNIST DATASET
def transform(data, label):
return data.astype(np.float32)/255, label.astype(np.float32)
train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = True, transform = transform), batch_size, shuffle = True)
test_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = False, transform = transform), batch_size, shuffle = False)
#MAKE SEQUENTIAL MODEL
num_hidden = 64
net = gluon.nn.Sequential()
with net.name_scope():
net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
net.add(gluon.nn.Dense(num_outputs))
net.collect_params().initialize(mx.init.Normal(sigma = 0.01), ctx = ctx)
#SETUP THE FUNCTIONS FOR TRAINING
softmax_cross_entropy = gluon.loss.SoftmaxCrossEntropyLoss() #LOSS
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.01}) #OPTIMIZER
#DEFINE A LOOP TO TEST THE ACCURACY OF THE MODEL ON A TEST SET
def evaluate_accuracy(data_iterator, net):
acc = mx.metric.Accuracy()
for i, (data, label) in enumerate(data_iterator):
data = data.as_in_context(ctx).reshape((-1,784))
label = label.as_in_context(ctx)
output = net(data)
predictions = nd.argmax(output, axis = 1)
acc.update(preds = predictions, labels = label)
return acc.get()[1] #get the accuracy value from the mxnet accuracy metric
#TRAINING LOOP
epochs = 10
smoothing_constant = 0.01
start_time = datetime.datetime.now()
for e in range(epochs):
cumulative_loss = 0
for i, (data, label) in enumerate(train_data):
data = data.as_in_context(ctx).reshape((-1, 784))
label = label.as_in_context(ctx)
with autograd.record():
output = net(data)
loss = softmax_cross_entropy(output, label)
loss.backward()
trainer.step(data.shape[0])
cumulative_loss += nd.sum(loss).asscalar()
test_accuracy = evaluate_accuracy(test_data, net)
train_accuracy = evaluate_accuracy(train_data, net)
print("Epoch %s. Loss: %s, Train_acc %s, Test_acc %s" % (e, cumulative_loss/num_examples, train_accuracy, test_accuracy))
#I ADDED THIS TO GET THE FINAL PARAMETERS / NDARRAY CONTEXTS
params = net.collect_params()
for param in params.values():
print(param.name,param.data())
#I ADDED THIS TO COMPARE THE TIMING I GET WHEN SETTING THE CTX AS GPU/CPU
end_time = datetime.datetime.now()
training_time = end_time - start_time
print("In h/m/s, total training time was: %s" % training_time)
CPU 上下文的结果: cmd output for params and total training time (cpu)
GPU 上下文的结果(实际上花费了更长的时间): cmd output for params and total training time (gpu)
最佳答案
有一些因素会影响您的表现。
您的训练受 DataLoader 限制。使用 num_workers 增加获取数据并将数据预处理到 NDArrays 中的进程数,以确保您的 GPU 不会挨饿。例如 train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train=True, transform=transform), batch_size, shuffle=True, num_workers=4)
MXNet 中的内置指标目前效率低下,尤其是在批量大小非常小时。在分析训练循环(使用简单的 time())时,您会注意到大部分时间都花在了准确性计算上,而不是训练上。但是,这在真正的 DL 训练 session 中通常不是问题,因为训练数据的大小通常远大于验证数据的大小,并且您通常不会像本教程中所示那样同时计算训练和验证的准确性。
但总的来说,由于教程网络和数据集非常简单,因此您不会在 GPU 利用率方面获得巨大提升。
关于python - mxnet(胶子): cpu used when gpu(0) context selected,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48692154/
我在优化 JOIN 以使用复合索引时遇到问题。我的查询是: SELECT p1.id, p1.category_id, p1.tag_id, i.rating FROM products p1
我有一个简单的 SQL 查询,我正在尝试对其进行优化以删除“使用位置;使用临时;使用文件排序”。 这是表格: CREATE TABLE `special_offers` ( `so_id` int
我有一个具有以下结构的应用程序表 app_id VARCHAR(32) NOT NULL, dormant VARCHAR(6) NOT NULL, user_id INT(10) NOT NULL
此查询的正确索引是什么。 我尝试为此查询提供不同的索引组合,但它仍在使用临时文件、文件排序等。 总表数据 - 7,60,346 产品= '连衣裙' - 总行数 = 122 554 CREATE TAB
为什么额外的是“使用where;使用索引”而不是“使用索引”。 CREATE TABLE `pre_count` ( `count_id`
我有一个包含大量记录的数据库,当我使用以下 SQL 加载页面时,速度非常慢。 SELECT goal.title, max(updates.date_updated) as update_sort F
我想知道 Using index condition 和 Using where 之间的区别;使用索引。我认为这两种方法都使用索引来获取第一个结果记录集,并使用 WHERE 条件进行过滤。 Q1。有什
I am using TypeScript 5.2 version, I have following setup:我使用的是TypeScript 5.2版本,我有以下设置: { "
I am using TypeScript 5.2 version, I have following setup:我使用的是TypeScript 5.2版本,我有以下设置: { "
I am using TypeScript 5.2 version, I have following setup:我使用的是TypeScript 5.2版本,我有以下设置: { "
mysql Ver 14.14 Distrib 5.1.58,用于使用 readline 5.1 的 redhat-linux-gnu (x86_64) 我正在接手一个旧项目。我被要求加快速度。我通过
在过去 10 多年左右的时间里,我一直打开数据库 (mysql) 的连接并保持打开状态,直到应用程序关闭。所有查询都在连接上执行。 现在,当我在 Servicestack 网页上看到示例时,我总是看到
我使用 MySQL 为我的站点构建了一个自定义论坛。列表页面本质上是一个包含以下列的表格:主题、上次更新和# Replies。 数据库表有以下列: id name body date topic_id
在mysql中解释的额外字段中你可以得到: 使用索引 使用where;使用索引 两者有什么区别? 为了更好地解释我的问题,我将使用下表: CREATE TABLE `test` ( `id` bi
我经常看到人们在其Haxe代码中使用关键字using。它似乎在import语句之后。 例如,我发现这是一个代码片段: import haxe.macro.Context; import haxe.ma
这个问题在这里已经有了答案: "reduce" or "apply" using logical functions in Clojure (2 个答案) 关闭 8 年前。 “and”似乎是一个宏,
这个问题在这里已经有了答案: "reduce" or "apply" using logical functions in Clojure (2 个答案) 关闭 8 年前。 “and”似乎是一个宏,
我正在考虑在我的应用程序中使用注册表模式来存储指向某些应用程序窗口和 Pane 的弱指针。应用程序的一般结构如下所示。 该应用程序有一个 MainFrame 顶层窗口,其中有几个子 Pane 。可以有
奇怪的是:。似乎a是b或多或少被定义为id(A)==id(B)。用这种方式制造错误很容易:。有些名字出人意料地出现在Else块中。解决方法很简单,我们应该使用ext==‘.mp3’,但是如果ext表面
我遇到了一个我似乎无法解决的 MySQL 问题。为了能够快速执行用于报告目的的 GROUP BY 查询,我已经将几个表非规范化为以下内容(该表由其他表上的触发器维护,我已经同意了与此): DROP T
我是一名优秀的程序员,十分优秀!