Python线程 - 内部缓冲区错误

Python线程 - 内部缓冲区错误 - 内存不足

转载作者：太空宇宙更新时间：2023-11-04 03:37:53

29

4

我制作了一个简单的网络爬虫，使用 urllib 和 beautifulsoup 从网页上的表格中提取数据。为了加快数据拉取速度，我尝试使用线程，但出现以下错误:“内部缓冲区错误:内存分配失败:增加缓冲区”此消息出现了很多次，然后指出:“内存不足”

感谢您的帮助。

from bs4 import BeautifulSoup
from datetime import datetime
import urllib2
import re
from threading import Thread

stockData = []

#Access the list of stocks to search for data
symbolfile = open("stocks.txt")
symbolslist = symbolfile.read()
newsymbolslist = symbolslist.split("\n")

#text file stock data is stored in
myfile = open("webcrawldata.txt","a")

#initializing data for extraction of web data
lineOfData = ""
i=0

def th(ur):
    stockData = []
    lineOfData = ""
    dataline = ""
    stats = ""
    page = ""
    soup = ""
    i=0
    #creates a timestamp for when program was won
    timestamp = datetime.now()
    #Get Data ONLINE
    #bloomberg stock quotes
    url= "http://www.bloomberg.com/quote/" + ur + ":US"
    page = urllib2.urlopen(url)
    soup = BeautifulSoup(page.read())
    #Extract key stats table only
    stats = soup.find("table", {"class": "key_stat_data" })
    #iteration for <tr>
    j = 0
    try:
        for row in stats.findAll('tr'):
            stockData.append(row.find('td'))
            j += 1
        except AttributeError:
            print "Table handling error in HTML"
    k=0
    for cell in stockData:
        #clean up text
        dataline = stockData[k]
        lineOfData = lineOfData + " " + str(dataline)
        k += 1
    g = str(timestamp) + " " + str(ur)+ ' ' + str(lineOfData) + ' ' +  ("\n\n\n")    
    myfile.write(g)
    print (ur + "\n")
    del stockData[:]
    lineOfData = ""
    dataline = ""
    stats = None
    page = None
    soup = None
    i += 1

threadlist = []

for u in newsymbolslist:
    t = Thread(target = th, args = (u,))
    t.start()
    threadlist.append(t)

for b in threadlist:
    b.join()enter code here

最佳答案

您启动的每个线程都有一个线程堆栈大小，即 8 kb by默认在 Linux 系统中(参见 ulimit -s)，因此您的线程所需的内存总数将超过 20 GB。

您可以使用线程池，例如 10 个线程；当一个完成了它的工作，它有另一项任务要做。

但是:一般来说，运行比 CPU 核心更多的线程是无稽之谈。所以我的建议是停止使用线程。您可以使用像 gevent 这样的库到在不使用操作系统级线程的情况下做完全相同的事情。

gevent 的好处是猴子修补:你可以告诉 gevent改变 Python 标准库的行为，这将改变你的线程透明地进入“greenlet”对象(参见 gevent 文档更多细节)。 gevent提出的并发类型是特别适合您正在执行的密集型 I/O。

在您的代码中，只需在开头添加以下内容:

from gevent import monkey; monkey.patch_all()

您不能同时打开超过 1024 个文件描述符Linux 系统默认(参见 ulimit -n)所以你必须增加如果您希望同时打开 2700 个文件描述符，则此限制。

关于Python线程 - 内部缓冲区错误 - 内存不足，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27984317/

29

4

0

文章推荐： bash - 在 bash 脚本中模拟 ENTER 按键

文章推荐： c++ - 不支持 VARIADIC 的宏自动注入(inject)参数

文章推荐： linux - aws 在 hvm 虚拟化中使用 Chef 附加 ebs 卷

文章推荐： c++ - arm-linux libstdc++ 调试和发布的区别

javascript - 使用流异步读取文件时如何同步处理每一行/缓冲区
这个问题在这里已经有了答案: Possible to make an event handler wait until async / Promise-based code is done? (2
emacs - 夫妇一起在emacs中的Windows/缓冲区？
我经常有多个运行的进程(R，Python，eshell/shell)，对于每个进程，我经常都有一个相关的脚本，可以从中发送摘要。为此，我通常将每个框架垂直地分成两个窗口，以便脚本文件(例如.py)位于
关闭缓冲区后显示的 Emacs 缓冲区
如何修改 emacs 在关闭缓冲区后选择要显示的缓冲区的方式？当我有多个列显示相同的缓冲区，然后在其中一个缓冲区中打开另一个文件，然后关闭新打开的缓冲区时，它不会切换回前一个缓冲区，而是切换到另一个
vim 复制命令到剪贴板/缓冲区
如何将 ex 命令复制到剪贴板或粘贴到缓冲区？在 Windows 上使用 gvim。最佳答案 windows剪贴板可以通过the buffer + 访问.因此，可以使用 + 将剪贴板粘贴为前命令。
来自多个变量的 javascript 缓冲区
在 javascript 中如何以比以下更简单的方式获取 b 缓冲区？ var num=6553599 var a = new Buffer(4); a.writeInt32LE(num)
OpenGL - 缓冲区、着色器
每次我在 Google 上搜索有关 OpenGL 编程的文章时，我都会找到一些文章，但似乎所有文章都提到了着色器和缓冲区。那些是什么？你能解释其中的一些吗: 深度缓冲区模板缓冲区像素着色器帧缓冲
java - Java中的流、缓冲区
我有java考试，当我学习时，我看到了这个练习，我尝试解决它，但我发现一些困难，所以请帮助我考虑实用程序中方法的以下注释、 header 和部分代码名为 Atbash 的加密类。 /**
OpenGL - 缓冲区、着色器
每次我在 Google 上搜索有关 OpenGL 编程的文章时，我都会找到一些文章，但似乎所有文章都提到了着色器和缓冲区。那些是什么？你能解释其中的一些吗: 深度缓冲区模板缓冲区像素着色器帧缓冲
OpenGL 缓冲区 - 跨步与紧密封装
对于每个属性使用跨步顶点缓冲区与紧密打包缓冲区有何优缺点？我的意思是例如: 步幅:xyzrgb xyzrgb xyzrgb 紧:xyzxyzxyz rgbrgbrgb 乍一看，使用步幅时您似乎可以轻松
Java - 缓冲区 - 我的代码在读取时跳过文本文件的最后一行
我正在尝试将文本文件中每行的数字读取到 ArrayList 中。当我执行以下函数时，它总是跳过最后一个元素。有人可以帮我吗？因为我在这里没有遇到问题，因为它读取直到缓冲区为空，所以他应该在到达 Fil
将结构复制到 char 缓冲区
#include #include int main () { time_t time_raw_format; struct tm * ptr_time; char *buff
将结构复制到 char* 缓冲区
基本上我有一个包含不同类型数据的自定义结构。例如: typedef struct example_structure{ uint8_t* example_1[4]; int example_2[4];
Android ListView 缓冲区
我之前的列表实现是一个简单的 LinearLayout，位于一个装满我的项目的 ScrollView 中。我切换到 ListView 的 Android 实现以简单地使用 CursorAdapter
javascript - 响应式框架中的滑动窗口/缓冲区
我想创建一个可变长度的输入事件窗口/缓冲区，当它接收到额外的事件时会变长。这是为了实现“键入时搜索”功能。我想捕获点击，但为了不给服务器造成压力，我想明智地进行服务调用。我想到的逻辑是缓冲击键，从
复制 yuv420 缓冲区
我想将 yuv420P 像素写入缓冲区而不是二进制文件。假设我在指针中存储了 luma 、 Cb 和 Cr。 luma = output_pixel.luma; cb = output_pixel.c
具有并发读者的 Golang 缓冲区
我想在 Go 中构建一个支持多个并发读取器和一个写入器的缓冲区。所有写入缓冲区的内容都应由所有读者读取。允许新读者随时加入，这意味着已经写入的数据必须能够为迟到的读者回放。缓冲区应满足以下接口(in
没吃透Netty 缓冲区，还能算得上Java老司机？
本文转载自微信公众号「小明菜市场」，作者小明菜市场。转载本文请联系小明菜市场公众号。前言 Java NIO 需要理解的主要有缓冲区，通道，选择器，这三个主要的部分。基础
NIO 数据存储结构——缓冲区 Buffer
一点睛 NIO，可以称为 New IO 或 Non Blocking IO，是在 JDK 1.4 后提供的新 API。传统的I/O 是阻塞式的 I/O、面向流的操作；而 NIO 是非阻塞 I/O 、
vim - 如何切换到包含特定模式的 vim 缓冲区
我正在寻找一种切换到包含搜索文本的缓冲区的方法。例如。如果我打开了 100 个缓冲区，我想切换到一个包含 'fooBar = 1' 的缓冲区最佳答案我写了一个 Vim 插件来做到这一点:buff
video - 将帧插入 FFmpeg 缓冲区
我正在尝试将提取的视频帧(我使用 ffmpeg)推送到 FFMPEG 缓冲区中。我已经查看了 ffmpeg 的缓冲区源文件，例如 buffersrc.c 和 fifo.c，以确定我是否可以这样做，但我

首页

博学

6Ren·AI

商城

Python线程 - 内部缓冲区错误 - 内存不足