gpt4 book ai didi

python - (错误)理解生成器

转载 作者:太空宇宙 更新时间:2023-11-04 02:51:38 26 4
gpt4 key购买 nike

我想一次从一个定期刷新的列表中提取一个代理,我对此没有任何问题。

有些代理不好,我想使用列表中的下一个。然而,这就是我的生成器发挥作用的地方,虽然我可以通过第一次调用 .next() 来启动生成器,但第二次调用它时,我得到了相同的值!

很明显,我一定错过了理解生成器工作原理的关键部分。

我的生成器代码在 ProxyHandler 类中:

class ProxyHandler:

def __init__(self):
self.proxies = list()
self.current = dict()

def get_proxies(self):
""" Retrieves proxies """

def __len__(self):
return len(self.proxies)

def yield_proxy(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies() # This populates self.proxies which is a list of tuples where the 0th element is the host and the 1st element is the port
for p in self.proxies:
try:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
except StopIteration:
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
yield self.yield_proxy()

和用法:

def get_response(self, url):
proxy = self.proxy_handler.current
if proxy == {}:
proxy = self.proxy_handler.yield_proxy().next()
print 'Current proxy -', proxy
response = url_request(url, proxy=proxy) # url_request() is basically a modified version of python's requests
print response
if response: # url_request() returns true if status code == 200
return response, proxy
gen = self.proxy_handler.yield_proxy()
gen.next()
return self.get_ebay_response(url)

最佳答案

您每次都在重新创建生成器:

gen = self.proxy_handler.yield_proxy()
gen.next()

一个新的生成器从头开始;单独的生成器不共享状态。将生成器存储在某处,然后重用该对象以获取新值。

您也许可以将该生成器对象存储为 self 的属性:

proxy_generator = None

def get_response(self, url):
if not self.proxy:
if self.proxy_generator is None
self.proxy_generator = self.proxy_handler.yield_proxy()
self.proxy = next(self.proxy_generator)
proxy = self.proxy

我使用了 next() function使您的代码与 Python 3 保持向前兼容(您迟早必须切换到 Python 3,Python 2 现在是一种遗留语言)。

接下来,您的生成器会 try catch 永远不会抛出的异常:

for p in self.proxies:
try:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
except StopIteration:
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
yield self.yield_proxy()

在您的try 中没有生成器被访问;您将这项工作交给了 self.proxies 上的 for 循环,并且 for 已经 知道如何处理迭代器(它将捕获 StopIterator 以结束循环)。而且 self.proxies 只是一个列表。

如果你想让循环在你的代理上循环,在一个无限的 while True 循环中这样做:

while True:
for p in self.proxies:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy

print 'Reached end of proxy list'
self.current = {}
self.get_proxies()

我不确定您为什么认为需要在那里清除 self.current 并重新获取代理。生成器上的元组从未更改过,那么为什么要重新获取?并且您当前的代理仍然有效,即使您确实从顶部再次开始循环。我会删除最后三行。

您可以进一步简化代码。生成器没有长度,因此不需要 __len__ 方法。充其量该方法会产生错误信息;在开始迭代之前,您的 self.proxies 属性为空,因此您的对象的长度为 0。完全放弃该方法。

接下来,您可以为您的对象提供一个生成生成器的 __iter__ 方法:

class ProxyHandler:
def __init__(self):
self.proxies = []
self.current = {}

def get_proxies(self):
""" Retrieves proxies """

def __iter__(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies()
while True:
for p in self.proxies:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])}
self.current = proxy
yield proxy

这使得整个 ProxyHandler 实例成为可迭代的,只需使用 iter(self.proxy_handler) 而不是 self.proxy_handler.yield_proxy()让生成器生成所有这些值。

最后但同样重要的是,您可以为整个事情使用生成器表达式,连同 itertools.cycle()使迭代器无穷无尽。然而,您将不得不删除 current 属性,但这并不重要,因为当您的生成器刚刚生成当前对象时您实际上并不需要该属性无论如何 :

from itertools import cycle

class ProxyHandler:
def __init__(self):
self.proxies = []

def get_proxies(self):
""" Retrieves proxies """

def __iter__(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies()
return cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)

生成器表达式生成相同类型的对象。

这一切仍然需要iter(self.proxy_generator);您可以通过让 __iter__ 返回 self 并添加 next() 来创建实例 iterator(而不是可迭代对象) 方法;在第一次调用时将上面的生成器表达式移动到一个属性,然后将 next() 调用传递给它以生成值:

class ProxyHandler:
def __init__(self):
self.proxies = []
self._gen = None

def get_proxies(self):
""" Retrieves proxies """

def __iter__(self):
return self

def next(self):
if not self._gen:
self.get_proxies()
self._gen = cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
return next(self._gen)

__next__ = next # Python 3 compatibility

现在你可以每次都使用`next(self.proxy_handler):

def get_response(self, url):
if not self.proxy:
self.proxy = next(self.proxy_handler)
proxy = self.proxy

关于python - (错误)理解生成器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43712367/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com