python - 购买内存以避免 30-50Gb 以上的文件分块-6ren

python - 购买内存以避免 30-50Gb 以上的文件分块

转载作者：太空宇宙更新时间：2023-11-03 16:21:45

我使用 pandas 来读取非常大的 csv 文件，这些文件也是经过 gzip 压缩的。我解压成大约 30-50GB 的 csv 文件。我对文件进行分块并处理/操作它们。最后将相关数据添加到我压缩的HDF5文件中

它工作正常，但速度很慢，因为我每天必须处理一个文件，并且有几年的数据(600TB 未压缩的 csv)

购买更多内存是否是避免分块并加快进程(例如 64GB/128GB)的好方法？但这会让 Pandas 变得缓慢且笨重吗？我是否正确地说，切换到 C++ 可以加快该过程，但我仍然遭受读取过程的困扰，并且必须处理 block 中的数据。最后，有人对处理这个问题的最佳方法有任何想法吗？

顺便说一句，一旦工作完成，我就不必返回并再次处理数据，所以只想让它在合理的时间内工作，所以写一些并行进程可能很好但经验有限的东西我需要花一些时间来构建它，所以我宁愿不要这样做，除非这是唯一的选择。

更新。我认为看代码会更容易。无论如何，我不认为代码特别慢。我认为技术/方法可能是。

def txttohdf(path, contract):
    #create dataframes for trade and quote
    dftrade = pd.DataFrame(columns = ["datetime", "Price", "Volume"])
    dfquote = pd.DataFrame(columns = ["datetime", "BidPrice", "BidSize","AskPrice", "AskSize"])
    #create an hdf5 file with high compression and table so we can append
    hdf = pd.HDFStore(path + contract + '.h5', complevel=9, complib='blosc')
    hdf.put('trade', dftrade, format='table', data_columns=True)
    hdf.put('quote', dfquote, format='table', data_columns=True)
    #date1 = date(start).strftime('%Y%m%d')
    #date2 = date(end).strftime('%Y%m%d')
    #dd = [date1 + timedelta(days=x) for x in range((date2-date1).days + 1)]
    #walkthrough directories
    for subdir, dir, files in os.walk(path):
        for file in files:
            #check if contract has name
            #print(file)
                #create filename from directory and file 

            filename = os.path.join(subdir, file)
                #read in csv
            if filename.endswith('.gz'):

                df = pd.read_csv(gzip.open(filename),header=0,iterator=True,chunksize = 10000, low_memory =False,  names = ['RIC','Date','Time','GMTOffset','Type','ExCntrbID','LOC','Price','Volume','MarketVWAP','BuyerID','BidPrice','BidSize','NoBuyers','SellerID','AskPrice','AskSize','NoSellers','Qualifiers','SeqNo','ExchTime','BlockTrd','FloorTrd','PERatio','Yield','NewPrice','NewVol','NewSeqNo','BidYld','AskYld','ISMABidYld','ISMAAskYld','Duration','ModDurtn','BPV','AccInt','Convexity','BenchSpd','SwpSpd','AsstSwpSpd','SwapPoint','BasePrice','UpLimPrice','LoLimPrice','TheoPrice','StockPrice','ConvParity','Premium','BidImpVol','AskImpVol','ImpVol','PrimAct','SecAct','GenVal1','GenVal2','GenVal3','GenVal4','GenVal5','Crack','Top','FreightPr','1MnPft','3MnPft','PrYrPft','1YrPft','3YrPft','5YrPft','10YrPft','Repurch','Offer','Kest','CapGain','Actual','Prior','Revised','Forecast','FrcstHigh','FrcstLow','NoFrcts','TrdQteDate','QuoteTime','BidTic','TickDir','DivCode','AdjClose','PrcTTEFlag','IrgTTEFlag','PrcSubMktId','IrgSubMktId','FinStatus','DivExDate','DivPayDate','DivAmt','Open','High','Low','Last','OpenYld','HighYld','LowYld','ShortPrice','ShortVol','ShortTrdVol','ShortTurnnover','ShortWeighting','ShortLimit','AccVolume','Turnover','ImputedCls','ChangeType','OldValue','NewValue','Volatility','Strike','Premium','AucPrice','Auc Vol','MidPrice','FinEvalPrice','ProvEvalPrice','AdvancingIssues','DecliningIssues','UnchangedIssues','TotalIssues','AdvancingVolume','DecliningVolume','UnchangedVolume','TotalVolume','NewHighs','NewLows','TotalMoves','PercentageChange','AdvancingMoves','DecliningMoves','UnchangedMoves','StrongMarket','WeakMarket','ChangedMarket','MarketVolatility','OriginalDate','LoanAskVolume','LoanAskAmountTradingPrice','PercentageShortVolumeTradedVolume','PercentageShortPriceTradedPrice','ForecastNAV','PreviousDaysNAV','FinalNAV','30DayATMIVCall','60DayATMIVCall','90DayATMIVCall','30DayATMIVPut','60DayATMIVPut','90DayATMIVPut','BackgroundReference','DataSource','BidSpread','AskSpread','ContractPhysicalUnits','Miniumumquantity','NumberPhysicals','ClosingReferencePrice','ImbalanceQuantity','FarClearingPrice','NearClearingPrice','OptionAdjustedSpread','ZSpread','ConvexityPremium','ConvexityRatio','PercentageDailyReturn','InterpolatedCDSBasis','InterpolatedCDSSpread','ClosesttoMaturityCDSBasis','SettlementDate','EquityPrice','Parity','CreditSpread','Delta','InputVolatility','ImpliedVolatility','FairPrice','BondFloor','Edge','YTW','YTB','SimpleMargin','DiscountMargin','12MonthsEPS','UpperTradingLimit','LowerTradingLimit','AmountOutstanding','IssuePrice','GSpread','MiscValue','MiscValueDescription'])
                #parse date time this is quicker than doing it while we read it in
                for chunk in df:
                    chunk['datetime'] = chunk.apply(lambda row: datetime.datetime.strptime(row['Date']+ ':' + row['Time'],'%d-%b-%Y:%H:%M:%S.%f'), axis=1)
                    #df = df[~df.comment.str.contains('ALIAS')]
                #drop uneeded columns inc date and time
                    chunk = chunk.drop(['Date','Time','GMTOffset','ExCntrbID','LOC','MarketVWAP','BuyerID','NoBuyers','SellerID','NoSellers','Qualifiers','SeqNo','ExchTime','BlockTrd','FloorTrd','PERatio','Yield','NewPrice','NewVol','NewSeqNo','BidYld','AskYld','ISMABidYld','ISMAAskYld','Duration','ModDurtn','BPV','AccInt','Convexity','BenchSpd','SwpSpd','AsstSwpSpd','SwapPoint','BasePrice','UpLimPrice','LoLimPrice','TheoPrice','StockPrice','ConvParity','Premium','BidImpVol','AskImpVol','ImpVol','PrimAct','SecAct','GenVal1','GenVal2','GenVal3','GenVal4','GenVal5','Crack','Top','FreightPr','1MnPft','3MnPft','PrYrPft','1YrPft','3YrPft','5YrPft','10YrPft','Repurch','Offer','Kest','CapGain','Actual','Prior','Revised','Forecast','FrcstHigh','FrcstLow','NoFrcts','TrdQteDate','QuoteTime','BidTic','TickDir','DivCode','AdjClose','PrcTTEFlag','IrgTTEFlag','PrcSubMktId','IrgSubMktId','FinStatus','DivExDate','DivPayDate','DivAmt','Open','High','Low','Last','OpenYld','HighYld','LowYld','ShortPrice','ShortVol','ShortTrdVol','ShortTurnnover','ShortWeighting','ShortLimit','AccVolume','Turnover','ImputedCls','ChangeType','OldValue','NewValue','Volatility','Strike','Premium','AucPrice','Auc Vol','MidPrice','FinEvalPrice','ProvEvalPrice','AdvancingIssues','DecliningIssues','UnchangedIssues','TotalIssues','AdvancingVolume','DecliningVolume','UnchangedVolume','TotalVolume','NewHighs','NewLows','TotalMoves','PercentageChange','AdvancingMoves','DecliningMoves','UnchangedMoves','StrongMarket','WeakMarket','ChangedMarket','MarketVolatility','OriginalDate','LoanAskVolume','LoanAskAmountTradingPrice','PercentageShortVolumeTradedVolume','PercentageShortPriceTradedPrice','ForecastNAV','PreviousDaysNAV','FinalNAV','30DayATMIVCall','60DayATMIVCall','90DayATMIVCall','30DayATMIVPut','60DayATMIVPut','90DayATMIVPut','BackgroundReference','DataSource','BidSpread','AskSpread','ContractPhysicalUnits','Miniumumquantity','NumberPhysicals','ClosingReferencePrice','ImbalanceQuantity','FarClearingPrice','NearClearingPrice','OptionAdjustedSpread','ZSpread','ConvexityPremium','ConvexityRatio','PercentageDailyReturn','InterpolatedCDSBasis','InterpolatedCDSSpread','ClosesttoMaturityCDSBasis','SettlementDate','EquityPrice','Parity','CreditSpread','Delta','InputVolatility','ImpliedVolatility','FairPrice','BondFloor','Edge','YTW','YTB','SimpleMargin','DiscountMargin','12MonthsEPS','UpperTradingLimit','LowerTradingLimit','AmountOutstanding','IssuePrice','GSpread','MiscValue','MiscValueDescription'], axis=1)
                # convert to datetime explicitly and add nanoseconds to same time stamps
                    chunk['datetime'] = pd.to_datetime(chunk.datetime)
                #nanoseconds = df.groupby(['datetime']).cumcount()
                #df['datetime'] += np.array(nanoseconds, dtype='m8[ns]')  
                # drop empty prints and make sure all prices are valid
                    dfRic = chunk[(chunk["RIC"] == contract)]
                    if len(dfRic)>0:
                        print(dfRic)
                    if ~chunk.empty:
                        dft = dfRic[(dfRic["Type"] == "Trade")]
                        dft.dropna(subset = ["Volume"], inplace =True)
                        dft = dft.drop(["RIC","Type","BidPrice", "BidSize", "AskPrice", "AskSize"], axis=1)
                        dft = dft[(dft["Price"] > 0)]

                    # clean up bid and ask
                        dfq = dfRic[(dfRic["Type"] == "Quote")]
                        dfq.dropna(how = 'all', subset = ["BidSize","AskSize"], inplace =True)
                        dfq = dfq.drop(["RIC","Type","Price", "Volume"], axis=1)
                        dfq = dfq[(dfq["BidSize"] > 0) | (dfq["AskSize"] > 0)]
                        dfq = dfq.ffill()
                    else:
                        print("Empty")    
    #add to hdf and close if loop finished
                    hdf.append('trade', dft, format='table', data_columns=True)
                    hdf.append('quote', dfq, format='table', data_columns=True)
    hdf.close()

最佳答案

我认为您有很多可以优化的地方:

首先只读取您真正需要的列，而不是读取然后删除它们 - 使用 usecols=list_of_needed_columns 参数
增加 block 大小 - 尝试使用不同的值 - 我会从 10**5
不要使用 chunk.apply(...) 来转换日期时间 - 它非常慢 - 使用 pd.to_datetime(column, format= '...')而不是
组合多个条件时，您可以更有效地过滤数据，而不是一步步进行:

关于python - 购买内存以避免 30-50Gb 以上的文件分块，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38394265/

文章推荐： android - 在 Android 中调用 Paypal 时无法获取访问 token

文章推荐： c# - 浏览图像时 App.config 中的连接字符串发生变化

文章推荐： c# - Active Directory OU 树到 jqTree

文章推荐： rest - 为什么发布到 PayPal 沙盒 API 对我不起作用？

licensing - 产品序列号/购买
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 6年前关闭。 Improve t
mysql 在单个查询中比较销售/购买
我们有一个专有的销售系统，我们已经使用了一段时间了。最近我们添加了“购买”方面，以便我们可以比较匹配产品的平均购买/销售价格以及查看库存状况。在 MySQL 中，我有 2 个表:tblPurchas
Paypal 循环+购买
在查看 Paypal 文档以寻找针对这种情况的解决方案后，我一头雾水。我想要的是一种让购物车订阅(定期付款)和购买商品的方法。有没有一种方法可以解决这个问题，或者我是否必须做一些自定义的事情(如果我使
api - youtube api电影租赁/购买
我想知道是否可以使用youtube api获取可购买或可租借的电影列表。当我转到youtube网站并登录到Google帐户时，我可以看到要购买的电影及其价格。我想在我的应用程序(http://www
JavaScript 购买 SDK - Shopify
我使用 JavaScript 购买 SDK 和 Node.js。 const fetch = require('node-fetch'); const shopify = require('shopi
xamarin - 识别测试 GooglePlay 购买
我购买了三个不同期限的不同订阅。我已经配置了测试账户，我可以进行测试购买。对于这些购买，谷歌不向我收费，但它们看起来非常像真实的。购买成功后，应用内结算会向我发送一些有关我的购买的数据，例如 pack
ios - 购买/恢复应用内购买单按钮。 (检查是否以前购买)
我目前正在实现应用内购买，并且刚刚阅读了一些帖子，说需要恢复购买按钮，否则苹果将拒绝应用。我不想在我的 UI 设计中添加第二个按钮。所以我的问题是... 有没有办法检查用户之前是否进行过应用内购买
Android IN App 购买 - 项目已拥有问题
我的应用中有多个项目。我有两个设备。如果我在这些设备中的第一个上购买商品，然后尝试在另一个设备上购买相同的商品，我不能。(Google play intent 显示消息 - 商品已拥有!然后它崩溃了.
iphone - 如何检测 iOS 购买？
有没有办法检测何时通过应用商店为您的应用进行了购买？检测应用内购买似乎很容易(即我们的服务器可以收到通知)，但是对于直接购买有没有办法做到这一点？如果没有，是否有一些用户的唯一标识符(例如购买时通
android - 购买 Android 设备进行开发
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
iphone - 购买 iOS 应用内购买时可享受折扣
我计划在用户使用该应用程序成功扫描二维码时为应用内购买提供折扣。我知道无法为现有商品提供折扣。我打算以折扣价添加另一件商品。有没有人以前有过使用这种方法的经验？提前致谢最佳答案没有办法直接这样做
language-agnostic - 应用程序框架——购买、构建还是吸收？
我很好奇其他商店在基础应用程序框架方面做了什么？我将应用程序框架视为能够提供额外或扩展的功能以提高基于它构建的应用程序的质量。有各种开箱即用的框架，例如 Spring(或 Spring.NET)等。
iphone - 您已经购买了此订阅。点击“购买”以续订或延期
我们正在开发一款使用非续订订阅 IAP 模型的应用。在沙盒中测试订阅购买流程时，我们看到弹出两 strip 有“购买”按钮的消息。显示第一条消息和产品信息:“您想以 xx.xx 美元购买一个订阅吗？
azure - 购买 Microsoft 365 后下一步做什么？
我的老板购买了 Microsoft 365，它包含三种产品。他现在要求我设计一个管理系统，比如员工自助服务门户。我特此寻求有关从哪里开始或使用哪种产品的建议，因为我对此很陌生。我尝试了一些研究，发现
azure - 购买 Microsoft 365 后下一步做什么？
我的老板购买了 Microsoft 365，它包含三种产品。他现在要求我设计一个管理系统，比如员工自助服务门户。我特此寻求有关从哪里开始或使用哪种产品的建议，因为我对此很陌生。我尝试了一些研究，发现
ios - 如何防御IAP Cracker的“耗材”购买？
我刚刚了解了IAP Cracker的存在，并试图找出在我的应用中验证IAP购买的最佳方法。我无法确定的是IAP Cracker是否可以处理“消耗性”商品。如果没有，我没有什么可担心的。这是维护/验
java - 如何使用真实产品测试 android IAP 购买？
我正在编写一个允许应用内购买的简单应用。我已经使用 SKU 代码 android.test.purchased 进行了测试，一切正常。我进入我的 google play 控制台，创建了一个应用程序，
ios - xcode inapp 购买，为评论家等提供免费购买的最佳方式
我即将启动一个应用程序，该应用程序将包含多个“应用程序内购买”。我想做的是有一种方法可以提供少量免费的“应用内购买”来选择评论家等人。在 apple 框架内有没有办法做到这一点，如果没有，我可以采
e-commerce - 购买/出售网站的 Paypal
所以我在这个网站上工作，用户可以在该网站上发布他们的商品，其他用户可以将一些商品添加到他们的购物车并在线购买。我考虑的流程是这样的: 商家发布商品及其信用卡/ Paypal 信息。买家将(来自不同
security - 购买 SSL 证书时，它会自动附带根证书和中间证书吗？
我对这个主题进行了广泛的研究，但我的知识仍然很模糊。我正在寻找一个简单站点的基本 DV，但我看到每个在线 SSL 都具有三个级别， Root->Intermidiate (充当 Root 的代理)和我

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 购买内存以避免 30-50Gb 以上的文件分块