- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在编写脚本来通过反复取消对象直到 EOF 来处理(非常大的)文件。我想对文件进行分区并让单独的进程(在云中)解开并处理单独的部分。
但是我的分区器并不智能,它不知道文件中 pickle 对象之间的边界(因为这些边界取决于被 pickle 的对象类型等)。
有没有办法扫描文件中的“开始 pickle 对象”哨兵?天真的方法是尝试在连续的字节偏移处进行 unpickling,直到对象被成功 pickle 为止,但这会产生意想不到的错误。似乎对于某些输入组合,unpickler 不同步并且不会为文件的其余部分返回任何内容(请参见下面的代码)。
import cPickle
import os
def stream_unpickle(file_obj):
while True:
start_pos = file_obj.tell()
try:
yield cPickle.load(file_obj)
except (EOFError, KeyboardInterrupt):
break
except (cPickle.UnpicklingError, ValueError, KeyError, TypeError, ImportError):
file_obj.seek(start_pos+1, os.SEEK_SET)
if __name__ == '__main__':
import random
from StringIO import StringIO
# create some data
sio = StringIO()
[cPickle.dump(random.random(), sio, cPickle.HIGHEST_PROTOCOL) for _ in xrange(1000)]
sio.flush()
# read from subsequent offsets and find discontinuous jumps in object count
size = sio.tell()
last_count = None
for step in xrange(size):
sio.seek(step, os.SEEK_SET)
count = sum(1 for _ in stream_unpickle(file_obj))
if last_count is None or count == last_count - 1:
last_count = count
elif count != last_count:
# if successful, these should never print (but they do...)
print '%d elements read from byte %d' % (count, step)
print '(%d elements read from byte %d)' % (last_count, step-1)
last_count = count
最佳答案
pickletools 模块有一个显示操作码的 dis 函数。它表明有一个您可能正在扫描的 STOP 操作码:
>>> import pickle, pickletools, StringIO
>>> s = StringIO.StringIO()
>>> pickle.dump('abc', s)
>>> p = s.getvalue()
>>> pickletools.dis(p)
0: S STRING 'abc'
7: p PUT 0
10: . STOP
highest protocol among opcodes = 0
请注意,使用 STOP 操作码有点棘手,因为代码的长度可变,但它可以作为有关截止位置的有用提示。
如果您控制另一端的 pickle 步骤,则可以通过添加您自己明确的替代分隔符来改善这种情况:
>>> sep = '\xDE\xAD\xBE\xEF'
>>> s = StringIO.StringIO()
>>> pickle.dump('abc', s)
>>> s.write(sep)
>>> pickle.dump([10, 20], s)
>>> s.write(sep)
>>> pickle.dump('def', s)
>>> s.write(sep)
>>> pickle.dump([30, 40], s)
>>> p = s.getvalue()
在拆包之前,使用已知的分隔符分成单独的 pickle :
>>> for pick in p.split(sep):
print pickle.loads(pick)
abc
[10, 20]
def
[30, 40]
关于python - Unpickling 中流(python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8906280/
我有一个对象,它会在第一次使用后被缓存。我将使用 cPickle 模块执行此操作。如果模块已经被缓存,当我下次尝试实例化对象时(在另一个进程中)我想使用缓存的对象。以下是我的基本结构: import
下面的例子 pickles 很好,但是我得到一个编译错误,指出无法生成 unpickler。这是一个简单的测试用例来重现这一点: import scala.pickling._ import json
我有一个文件,其中包含一些我在主脚本中不需要的字典和列表(大约 900 行)。然后我执行以下操作。 myDicts = [DictOne, DictTwo, ListOne, ListTwo] pic
这个问题在这里已经有了答案: Is there a way to view cPickle or Pickle file contents without loading Python in Win
我正在尝试使用 pickle 来保存自定义类;非常类似于下面的代码(尽管在类上定义了一些方法,还有一些用于数据的指令等)。然而,当我运行这个程序时,pickle 然后 unpickle,我丢失了类中的
是否有一种好方法来加载表示为字符串的字节对象,以便可以对其进行 unpickled? 基本示例 这是一个愚蠢的例子: import pickle mydict = { 'a': 1111, 'b':
全局变量 Agree 是在所有函数外部定义的命名元组: Agree = collections.namedtuple('Agree', ['kappa', 'alpha','avg_ao'], ver
我正在使用 python 请求库并尝试保持 session 。 由于我的主机上有多个 IP,我创建了以下方法以使 session 绑定(bind)到特定 IP。 class SourceAddress
我一直在开发一个 python 应用程序,其中客户端向服务器发送时钟信号,而服务器以音频信号响应。 我有两个按钮,一个用于启动时钟,一个用于暂停轨道。 主类 # function I call whe
import pickle class ABError(Exception): def __init__(self, a, b): super(ABError, self)._
我目前正在开发一个 Django 项目,希望通过网络对视频文件进行一些转换。为了对视频进行转换,我使用了 opencv 的 python API,我还使用 Dajax 来执行 ajax 请求。 在 a
当我尝试解开 cifar-10 数据集时,出现以下错误。我需要训练一个模型,但我什至无法获取操作数据。我该如何解决这个问题 dict=cPickle.load(fo) UnpicklingError:
我想实现一个类(最好是单例),在初始化阶段应使用 cPickle 机制恢复其状态。为此,我编写了以下代码片段: import cPickle import collections class Test
我在重命名模块后通过 numpy.load 加载对象时遇到问题。这是一个显示问题的简单示例。 假设在 mymodule.py 中定义了一个类: class MyClass(object): a
As stated in the pickle documentation ,类通常以这样一种方式进行 pickle ,即它们要求完全相同的类出现在接收端的模块中。但是,我确实注意到类还有一些 __g
我有一个我想打开的 pickled 对象,但闲置时返回错误 TypeError: file must have 'read' and 'readline' attributes 这是我的代码 open
我正在编写脚本来通过反复取消对象直到 EOF 来处理(非常大的)文件。我想对文件进行分区并让单独的进程(在云中)解开并处理单独的部分。 但是我的分区器并不智能,它不知道文件中 pickle 对象之间的
目标: 使用带有线程或进程的 SQLAlchemy 在数据库中运行约 40 个巨大的查询,将相应的 SQLA ResultProxies在 Queue.Queue 中(由 multiprocessin
我正在尝试加载 pickle 并通过 Flask 应用程序显示一些数据。我遵循的结构如下。 package1.py class myclass: #do something m = mycla
使用多处理时出现以下错误: Exception in thread Thread-2: Traceback (most recent call last): File "/usr/lib/pyth
我是一名优秀的程序员,十分优秀!