gpt4 book ai didi

Python多线程内存占用高的问题

转载 作者:太空宇宙 更新时间:2023-11-04 03:17:53 24 4
gpt4 key购买 nike

我正在使用多线程和随机代理抓取网页。无论需要多少进程,我的家用 PC 都能很好地处理这个问题(在当前代码中,我已将其设置为 100)。 RAM 使用量似乎达到 2.5gb 左右。然而,当我在我的 CentOS VPS 上运行它时,我收到一条通用的“Killed”消息并且程序终止。在运行 100 个进程的情况下,我很快就会收到 Killed 错误。我将它减少到一个更合理的 8 并且仍然得到相同的错误,但是经过了更长的时间。基于一些研究,我假设“Killed”错误与内存使用有关。没有多线程,就不会出现这个错误。

那么,我可以做些什么来优化我的代码以使其仍能快速运行,但又不会占用太多内存?我最好的选择是进一步减少流程数量吗?我可以在程序运行时从 Python 内部监控我的内存使用情况吗?

编辑:我刚刚意识到我的 VPS 有 256mb 的内存,而我的桌面上只有 24gb,这是我最初编写代码时没有考虑到的。

#Request soup of url, using random proxy / user agent - try different combinations until valid results are returned
def getsoup(url):
attempts = 0
while True:
try:
proxy = random.choice(working_proxies)
headers = {'user-agent': random.choice(user_agents)}
proxy_dict = {'http': 'http://' + proxy}
r = requests.get(url, headers, proxies=proxy_dict, timeout=5)
soup = BeautifulSoup(r.text, "html5lib") #"html.parser"
totalpages = int(soup.find("div", class_="pagination").text.split(' of ',1)[1].split('\n', 1)[0]) #Looks for totalpages to verify proper page load
currentpage = int(soup.find("div", class_="pagination").text.split('Page ',1)[1].split(' of', 1)[0])
if totalpages < 5000: #One particular proxy wasn't returning pagelimit=60 or offset requests properly ..
break
except Exception as e:
# print 'Error! Proxy: {}, Error msg: {}'.format(proxy,e)
attempts = attempts + 1
if attempts > 30:
print 'Too many attempts .. something is wrong!'
sys.exit()
return (soup, totalpages, currentpage)

#Return soup of page of ads, connecting via random proxy/user agent
def scrape_url(url):
soup, totalpages, currentpage = getsoup(url)
#Extract ads from page soup

###[A bunch of code to extract individual ads from the page..]

# print 'Success! Scraped page #{} of {} pages.'.format(currentpage, totalpages)
sys.stdout.flush()
return ads

def scrapeall():
global currentpage, totalpages, offset
url = "url"

_, totalpages, _ = getsoup(url + "0")
url_list = [url + str(60*i) for i in range(totalpages)]

# Make the pool of workers
pool = ThreadPool(100)
# Open the urls in their own threads and return the results
results = pool.map(scrape_url, url_list)
# Close the pool and wait for the work to finish
pool.close()
pool.join()

flatten_results = [item for sublist in results for item in sublist] #Flattens the list of lists returned by multithreading
return flatten_results

adscrape = scrapeall()

最佳答案

BeautifulSoup 是纯 Python 库,在中档网站上它会占用大量内存。如果可以,请尝试将其替换为 lxml ,速度更快,用 C 语言编写。如果您的页面很大,它可能仍会耗尽内存。

正如评论中已经建议的那样,您可以使用 queue.Queue存储响应。更好的版本是检索对磁盘的响应,将文件名存储在队列中,然后在单独的进程中解析它们。为此,您可以使用 multiprocessing图书馆。如果解析耗尽内存并被终止,则继续获取。这种模式称为 fork and die,是 Python 使用过多内存的常见解决方法。

然后您还需要有一种方法来查看哪些响应解析失败。

关于Python多线程内存占用高的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35664155/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com