gpt4 book ai didi

amazon-web-services - Chrome/Firefox 浏览器因 AWS Sagemaker 和 Jupyter 而崩溃 - 如何记录/调试?

转载 作者:行者123 更新时间:2023-12-05 07:25:00 25 4
gpt4 key购买 nike

我在 Jupyter 上创建了一个学习/模型拟合笔记本,并且在过去的一年里一直在我的游戏笔记本电脑上使用它,没有什么问题。

由于我现在将训练数据集增加了 10 倍,我想将 Jupyter notebook 移动到 AWS Sagemaker,这样它就可以提供额外的马力,这样我就不必把笔记本电脑留在 table 上了在训练完成之前打开无法使用。

我创建了 Sagemaker 实例,并打开了 Jupyter notebook。使用在我的笔记本电脑上运行 3 小时内的代码和原始数据,我尝试在笔记本电脑上运行单元格,以获得总时间,这样我就可以为我的大型运行选择正确的硬件方案。

每次我尝试运行笔记本时,它都会使浏览器崩溃。我已经在 Windows 10 和 Ubuntu 16.04 笔记本电脑上尝试过 Chrome 和 Firefox。

我不知道如何做两件我认为可能有帮助的事情。
1)查看jupyter notebook服务器代码日志。我创建了生命周期创建/启动脚本,然后查看通过 Cloudwatch 创建的日志,与那里的崩溃无关。2) 查看浏览器里面的日志。我在两者上都打开了开发者模式,但是一旦它因“Aw snap”等崩溃而崩溃,我就无法再在窗口中执行任何操作,因此我看不到任何输出。

这是一段试图运行的代码。我试过 show_metric=True 和 False:

from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)

# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))

我是一个很好的 googler,但没有找到任何帮助。 AWS 文档让我很困惑。有人有什么建议吗?

最佳答案

感谢您使用 Amazon SageMaker。我建议在 AWS SageMaker https://forums.aws.amazon.com/forum.jspa?forumID=285&start=0 下打开 AWS 论坛帖子以便 SageMaker 团队可以与您合作,以更多地了解您正在使用的实例类型、您的笔记本实例 Arn 等。

关于amazon-web-services - Chrome/Firefox 浏览器因 AWS Sagemaker 和 Jupyter 而崩溃 - 如何记录/调试?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55108048/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com