- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在与 tensorflow 合作,希望训练一个深度 CNN 来为围棋游戏做着法预测。我创建的数据集由 100,000 个二进制数据文件组成,其中每个数据文件对应一个记录的游戏并包含大约 200 个训练样本(一个用于游戏中的每个 Action )。我相信在使用 SGD 时获得良好的混合是非常重要的。我希望我的批处理包含来自不同游戏的样本和来自游戏不同阶段的样本。因此,例如,简单地从 100 个文件的开头读取一个样本并且洗牌并不好 b/c 这 100 个样本将是每个游戏的第一步。
我已经阅读了有关从文件中提供数据的教程,但我不确定他们提供的库是否满足我的需要。如果我自己对其进行硬编码,我基本上会将一堆文件指针初始化为每个文件中的随机位置,然后从随机文件中提取样本,相应地增加文件指针。
所以,我的问题是 tensorflow 是否提供这种功能,或者编写我自己的代码来创建批处理会更容易吗?
最佳答案
是的 - 你想要的是结合使用两种东西。(请注意,这个答案是为 TensorFlow v1 编写的,一些功能已被新的 tf.data 管道取代;我已经更新了答案以指向事物的 v1 compat 版本,但是如果你要这个新代码的答案,请改为咨询 tf.data
。)
首先,通过使用 tf.train.string_input_producer
从中读取数据文件,随机打乱您输入数据文件的顺序。使用 shuffle=True
可以输入您使用的任何输入法(如果您可以将示例放入 tf.Example 原型(prototype)格式,则可以很容易地与 parse_example
一起使用)。非常清楚,您将文件名列表放在 string_input_producer
中,然后使用另一种方法(例如 read_file
等)读取它们。
其次,您需要以更细的粒度进行混合。您可以通过将输入示例输入 tf.train.shuffle_batch
来完成此操作具有大容量和大 min_after_dequeue
值的节点。一种特别好的方法是使用 shuffle_batch_join
从多个文件接收输入,这样您就可以进行大量混合。将批处理的容量设置得足够大,以便在不耗尽 RAM 的情况下混合均匀。数以万计的示例通常效果很好。
请记住,批处理函数将 QueueRunner
添加到 QUEUE_RUNNERS
集合中,因此您需要运行 tf.train.start_queue_runners()
关于python - 在 tensorflow 中与许多输入数据文件很好地混合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34258043/
下类时合上笔记本电脑。当我回到家并打开它时,它已重新启动。现在,当我打开 Titanium Developer 时,它会立即崩溃。 所以我现在也打不开。关于如何调试或找出问题所在的任何想法? 甚至尝试
我们想共享运行时项目二进制文件。所以每个团队成员都可以使用当前的工作版本。 在 SVN 中存储运行时二进制文件是否可以接受/很好? 最佳答案 不,不要将二进制文件存储在其源代码旁边(除非您有充分的理由
我在 PHP 中使用循环来显示 CMS 管理部分中的用户数据。每行(用户)都包含一些我想要连接到命令的图标(例如:编辑、删除等)。表的最后一行有空的输入字段,带有单个图标(命令),以允许添加新用户。这
如果这是一个新手问题,请原谅我,我昨天开始学习 Django,并且我尽量不要养成坏习惯,即我试图从一开始就以“django 方式”做事。 我有一个 View 接收二进制数据作为 http post 字
使用 swift 2.1 我正在寻找一种将非可选类型数组分配给可选类型数组的好方法,其中类型相同。这是我尝试过的一些方法: var foos: [Int?] = [] let bars: [Int]
James Gosling,加拿大计算机科学家,完成了 Java 的原始设计,并实现了 Java 最初版本的编译器和虚拟机,也是公认的 “Java 之父”。 Evrone 是一家企业软件开发公司,
我在两个项目上使用 Twitter Bootstrap,一个是静态 HTML 网站,另一个是 Rails 应用程序。当我在桌面浏览器上测试网站时,调整大小有效。但是当我在手机 [Nokia E72]
我可以使用全日历。但我有一个侧边栏,用户可以折叠它,然后内容框会变大,但是当用户这样做时,日历就不那么好了。 所以我正在考虑窗口调整大小功能,但这仅在浏览器窗口更改时才有效,那么当容器变大或变小时如何
我正在尝试使用 C# 和 LINQ 在数据库中查询每日活跃用户。我有一个运行良好的 SQL 查询。它在 u.UserId).Distinct().Count() } 测试后,当我必须选择 (
我目前正在开发部署目标为 7.1 的 iOS 应用程序。我的大部分测试都是在 iOS8 环境中执行的,没有任何问题。我连接了一个 iOS7 (5s) 测试设备,发现通过手机显示的 View 是 3.5
我有这样的代码: Floating left. Floating right. BlahBlah Container 允许我将页脚推到页面底部,但如果我想让左右栏跨越接触页脚的高度
从 PHP4 和 Cake 1.3 开始,我一直在使用 debug($data);在 CakePHP 中调试诸如模型输出之类的东西。 但是,自从升级到 PHP5.4 后,我注意到 debug($dat
我在Canvas上画我的游戏,一切都是上帝,但我把它改成了JPanel,但现在它不能正常工作,这是代码,你可以复制它们,你就会看到问题出在哪里(我有一个菜单,单击按钮后它应该创建新线程,我想在那里画画
我尝试用 scrapy 抓取一页。我用 FireXpath(一个 firefox 插件)找到了 xpath,它看起来不错。但是对于 Scrapy,我没有得到任何结果。 我的 python 程序如下所示
我想在页面加载时加载 fancybox。它工作正常,但我对它的高度有疑问。假设页面的高度为 3000px,而 fancybox 的高度为 1500px。如果你想看到页面的最低部分,都应该向下滚动。不幸
IE 大小调整问题!?代码非常简单:我有一个 div,我想要一个占 DIV 100% 的文本框。它必须显示 div 的红线(如果我使用 height:100%, width:100% 它会侵 ecli
我有一组看起来像这样的代码: if(self.property == A) { [self.infoManager getThingA:^(NSString *thing, NSError *
我认为 git clone 使用 STDERR。 我现在想将它重定向到 STDOUT 以使用此 hack . 我遇到了一些问题(另外,我使用很棒的 stderred 库自动将 STDERR 着色为红色
我的问题是我的表单正在提交(到节点/express api),如果我console.log req.body(@ api),结果是一个空对象。但是,如果我在客户端上 console.log ,则序列化
我对 addon-sdk 还很陌生,并且遇到了一个对我来说无法解释的问题。到目前为止,我一直在使用 jpm run 来测试一切 - 并且一切都很好。现在,我即将完成我想要完成的任务,所以我想在“普通”
我是一名优秀的程序员,十分优秀!