gpt4 book ai didi

python - 单例 python 生成器?或者,pickle 一个 python 生成器?

转载 作者:太空宇宙 更新时间:2023-11-03 11:36:11 28 4
gpt4 key购买 nike

我使用以下代码和嵌套生成器迭代文本文档并使用 get_train_minibatch() 返回训练示例。我想保留( pickle )生成器,这样我就可以回到文本文档中的相同位置。但是,您不能 pickle 生成器。

  • 是否有简单的解决方法,以便我可以保存我的位置并从停止的地方重新开始?或许我可以让 get_train_example() 成为一个单例,这样我就没有几个生成器了。然后,我可以在此模块中创建一个全局变量,用于跟踪 get_train_example() 的距离。

  • 您是否有更好(更清晰)的建议,让我可以保留此生成器?

[编辑:另外两个想法:

  • 我可以向生成器添加一个成员变量/方法,这样我就可以调用 generator.tell() 并找到文件位置吗?因为那样的话,下次我创建生成器时,我可以让它寻找那个位置。 这个想法听起来最简单。

  • 我可以创建一个类并将文件位置作为成员变量,然后在类中创建生成器并在每次生成时更新文件位置成员变量吗?因为这样我就可以知道它在文件中有多远。

]

代码如下:

def get_train_example():
for l in open(HYPERPARAMETERS["TRAIN_SENTENCES"]):
prevwords = []
for w in string.split(l):
w = string.strip(w)
id = None
prevwords.append(wordmap.id(w))
if len(prevwords) >= HYPERPARAMETERS["WINDOW_SIZE"]:
yield prevwords[-HYPERPARAMETERS["WINDOW_SIZE"]:]

def get_train_minibatch():
minibatch = []
for e in get_train_example():
minibatch.append(e)
if len(minibatch) >= HYPERPARAMETERS["MINIBATCH SIZE"]:
assert len(minibatch) == HYPERPARAMETERS["MINIBATCH SIZE"]
yield minibatch
minibatch = []

最佳答案

下面的代码应该或多或少地做你想做的。第一类定义了一些类似于文件但可以 pickle 的东西。 (当你解开它时,它会重新打开文件,并寻找你 pickle 时它所在的位置)。第二个类是生成单词窗口的迭代器。

class PickleableFile(object):
def __init__(self, filename, mode='rb'):
self.filename = filename
self.mode = mode
self.file = open(filename, mode)
def __getstate__(self):
state = dict(filename=self.filename, mode=self.mode,
closed=self.file.closed)
if not self.file.closed:
state['filepos'] = self.file.tell()
return state
def __setstate__(self, state):
self.filename = state['filename']
self.mode = state['mode']
self.file = open(self.filename, self.mode)
if state['closed']: self.file.close()
else: self.file.seek(state['filepos'])
def __getattr__(self, attr):
return getattr(self.file, attr)

class WordWindowReader:
def __init__(self, filenames, window_size):
self.filenames = filenames
self.window_size = window_size
self.filenum = 0
self.stream = None
self.filepos = 0
self.prevwords = []
self.current_line = []

def __iter__(self):
return self

def next(self):
# Read through files until we have a non-empty current line.
while not self.current_line:
if self.stream is None:
if self.filenum >= len(self.filenames):
raise StopIteration
else:
self.stream = PickleableFile(self.filenames[self.filenum])
self.stream.seek(self.filepos)
self.prevwords = []
line = self.stream.readline()
self.filepos = self.stream.tell()
if line == '':
# End of file.
self.stream = None
self.filenum += 1
self.filepos = 0
else:
# Reverse line so we can pop off words.
self.current_line = line.split()[::-1]

# Get the first word of the current line, and add it to
# prevwords. Truncate prevwords when necessary.
word = self.current_line.pop()
self.prevwords.append(word)
if len(self.prevwords) > self.window_size:
self.prevwords = self.prevwords[-self.window_size:]

# If we have enough words, then return a word window;
# otherwise, go on to the next word.
if len(self.prevwords) == self.window_size:
return self.prevwords
else:
return self.next()

关于python - 单例 python 生成器?或者,pickle 一个 python 生成器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1939015/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com