python - 数据框 - 找到匹配项后停止搜索和导出数据-6ren

python - 数据框 - 找到匹配项后停止搜索和导出数据

转载作者：行者123 更新时间：2023-12-03 19:04:14

25

4

我有一个小程序可以搜索许多大文件(每个文件 +500.000 行)并将结果导出到 csv 文件。我想知道在文件中找到特定日期后是否可以停止搜索。例如，在找到 ini_date(第 2 列)值(例如 02/12/2020)后，程序应停止搜索并导出结果，其中包括第 2 列中包含“02/12/2020”并且还匹配其他搜索条件的行.
目前，我在文件夹中有 73 个 datalog.log 文件，而且这个数字还在不断增加。 datalog0.log 是较旧的文件，datalog72.log 是最新的，过一段时间它将是 datalog73.log(我想在最新的文件中开始搜索)。这可以只用python做吗？如果没有，我将不得不为此使用 SQL。
在这里你可以看到我的代码:

import pandas as pd
from glob import glob

files = glob('C:/ProgramA/datalog*.log')
df = pd.concat([pd.read_csv(f, 
          low_memory=False
                  sep=',', 
                  names=["0","1","2","3","4","5","6","7"]) for f in files])


#Column 0: IP
#Column 1: User
#Column 2: Date
#Column 3: Hour

ip = input('Optional - Set IP: ')  #column 0
user = input('Optional - Set User: ')     #column 1
ini_date = input('Mandatory - From Day (Formant MM/DD/YYYY): ')   
fin_date = input('Mandatory - To Day (Formant MM/DD/YYYY): ')  
ini_hour = input('Mandatory - From Hour (Formant 00:00:00): ')  
fin_hour = input('Mandatory - To Hour (Formant 00:00:00): ')   

if ip == '' and user == '':
    df1 = df[(df["2"] >= ini_date) & (df["2"] <= fin_date) & (df["3"] >= ini_hour) & (df["3"] <= fin_hour)]
elif ip == '':
    df1 = df[(df["1"] == user) & (df["2"] >= ini_date) & (df["2"] <= fin_date) & (df["3"] >= ini_hour) & (df["3"] <= fin_hour)]
elif user == '':
    df1 = df[(df["0"] == ip) & (df["2"] >= ini_date) & (df["2"] <= fin_date) & (df["3"] >= ini_hour) & (df["3"] <= fin_hour)]
else:
    df1 = df[(df["0"] == ip) & (df["1"] == user) & (df["2"] >= ini_date) & (df["2"] <= fin_date) & (df["3"] >= ini_hour) & (df["3"] <= fin_hour)]

df1.to_csv ('C:/ProgramA/result.csv', index = False)

谢谢。

日志类似于以下示例:
是的，日志是按顺序排列的，看起来像这样:

File0:
        1.1.1.1      user       09/24/2020       09:18:00    Other data...................
        1.1.1.1      user       09/24/2020       10:00:00    Other data...................
        1.1.1.1      user       09/25/2020       07:30:00    Other data...................
        1.1.1.1      user       09/25/2020       09:30:00    Other data...................

File1:
        1.1.1.1      user       09/26/2020       04:18:00    Other data...................
        1.1.1.1      user       09/26/2020       10:00:00    Other data...................
        1.1.1.1      user       09/26/2020       11:18:00    Other data...................
        1.1.1.1      user       09/26/2020       12:00:00    Other data...................

File2:
        1.1.1.1      user       09/26/2020       14:18:00    Other data...................
        1.1.1.1      user       09/27/2020       16:00:00    Other data...................
        1.1.1.1      user       09/28/2020       10:18:00    Other data...................
        1.1.1.1      user       09/29/2020       12:00:00    Other data...................

因此，如果我通过 ini_date >="09/27/2020"和 fin_date <="09/27/2020"进行过滤，我希望程序停止搜索并仅从 File2 导出此内容(否则，程序将不必要地检查其他 2 个文件需要更多时间):

        1.1.1.1      user       09/27/2020       16:00:00    Other data...................
        1.1.1.1      user       09/28/2020       10:18:00    Other data...................

最佳答案

import glob
import os
import pandas as pd

list_of_files = glob.glob('/path/to/folder/*')

# Sorts files based on creation date
sorted_file_names = sorted(list_of_files, key=os.path.getctime, reverse = True)

rows_found = False
final_df = pd.DataFrame()
for file in sorted_file_names:
    df = pd.read_csv(file)

    # {Perform required operations}

    # Fetches required rows
    df1 = df.loc[(df['2'] <= fin_date) & (df['2'] >= ini_date)]
 
    # If required rows don't exist in current file but existed in previous file, break
    if not df1.empty:
        rows_found = True
        final_df = final_df.append(df1, ignore_index=False)
    elif rows_found:
        break

final_df.to_csv("Name.csv")

关于python - 数据框 - 找到匹配项后停止搜索和导出数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64086645/

25

4

0

文章推荐： python - 使用仿射变换添加 PatchCollection

文章推荐： xamarin - 如何将 TableView 滚动到顶部

文章推荐： f# - 接收前的MailboxProcessor : Memory leak using return!

文章推荐： r - 来自合奏的 MLR3 平均分数

python - 停止 Winsound/停止 Python 上的线程
我正在使用 Tkinter 在 python 上写一个小游戏(顺便说一下，我不允许使用任何其他非内置模块)并且我想在主窗口上播放背景歌曲，这是那个包含标题，以及转到其他窗口和内容的按钮... 所以问题
azure - 停止 Azure 服务*不会*停止 WebJob 在其后面持续运行
我有一个 Azure WebJob，它在一个非常简单的应用服务标准:1 Small(计划)上运行。现在，我的 WebJob(有 5 个函数正在运行)出现问题 - 我想停止 5 个正在运行的函数中的
objective-c - XCode 调试器在“停止”按钮上使用 SIGKILL 停止
我在 MacOS Lion 上使用 XCode 4.2。在模拟器中调试 iPhone/iPad 应用程序时，我使用 XCode 工具栏上的“停止”按钮(产品 | 停止)退出应用程序。在此之后，XCod
makefile - ***配方在第一个目标之前开始。停止
我刚刚下载了android开放源代码项目，并尝试使用make来构建它，我收到了以下消息: build/core/prebuilt.mk:91: *** recipe commences before
Makefile 缺少分隔符。停止
我以前从未制作过 makefile，但我们已经收到了这个，但是，如果我尝试运行它，它只会说， missing separator. stop. 我不知道可能出了什么问题 - 我已经确保空格只按制表符。
iphone - 停止 NSTimer
好吧，这段代码非常基本。用户将答案输入文本框，如果等于“第一+第二”，他们就得到一分。然后，他们有 5 秒钟的时间回答下一个数学问题。如果他们这样做了，函数“doCalculation”将再次运行，他
ios - 停止 animateWithDuration
我在 viewController 中有一个循环动画 - (void)moveAnimating { [UIView animateWithDuration:2.0f animations:^
Iphone 停止 ASIFormDataRequest
当我有一个待处理的 ASIFormDataRequest(作为异步任务启动)仍在执行并且用户按下后退按钮(为了弹出 View )时，我的 viewController 出现问题。有什么方法可以停止该
flashdevelop 停止，没有明确的编译错误
我们正在使用 flashdevelop 和 flash CS 3 开发基于 flash 的游戏。我们正在使用 flash CS3 发布 swc，swc 将作为库在 flashdevlop 中使用。一
cocoa - 停止 NSRunLoop
我在线程中有一个连接，因此我将其添加到运行循环中以获取所有数据: [[NSRunLoop currentRunLoop] run]; [connection scheduleInRunLoop
php socket_accept 停止
你好，我做了一个 php 套接字服务器来从 plc 获取数据，plc 被配置为 tcp 套接字客户端。我有一个严重的问题，如果本地网络出现故障，似乎功能 socket_accept 停止，plc 无
javascript - 停止 setTimeOut();
这个问题已经有答案了: How to stop a setTimeout loop? (10 个回答) 已关闭 8 年前。请帮助获得正确的函数或方法来停止 setTimeout 函数。我一直在尝试
scala - 设置使SBT在错误时快速失败(停止)
我正在运行一个多项目SBT(v0.13)构建，并且希望它在子项目中遇到的第一个错误(编译)时快速失败(停止)。当前的行为是，当某项无法在子项目中进行编译时，构建将继续(以编译所有其他子项目)。一旦
java - 停止.wav
我有播放.wav文件中声音的代码，但是我无法停止播放歌曲，甚至无法退出程序直到播放结束。因为这是一首5分钟的歌曲，所以这是一个问题。这是我如何播放wav的代码: public class EasySo
jsf - 通过JSF应用播放音频并控制开始/停止
我正在寻找一种解决方案，该如何控制从JSF应用程序播放音频文件。我不需要完整的解决方案，只需引用我可以用来控制播放音频文件(开始/停止/更改声音)的组件即可。我尝试搜索过去的问题，但没有成功。我
powershell - Powershell用arg启动/停止
我已经在test.ps1中编写了以下函数，在运行该脚本以启动/停止/ ..时我想做一个选择: function getState($SeviceName) { $server = @('hos
javascript - vuejs定时器组件重启/停止
我必须设置一个 10 分钟的计时器，它会重定向到主屏幕。此外，它必须在每个操作(例如按下按钮)时重置。我找到了这个计时器:https://github.com/fengyuanchen/vue-cou
audio - HTML音频播放/停止
我正在制作一个聊天应用程序，功能之一就是发送声音。发送的HTML如下: LOL Stop Play 第一次发送时，“自动播放”效果很好。因此，现在我
带有开始/停止/重置和用户输入时间的javascript倒计时
我基本上希望页面能够接受用户输入的时间(以秒为单位)。之后我希望当用户按下“开始”按钮时开始倒计时按下暂停按钮时“暂停”。还有一个重置按钮，以便用户可以从头开始倒计时。这是我到目前为止得到的:
javascript - 停止$.each，加载图像然后继续循环
我需要停止 $.each 循环，加载图像，然后继续循环。我有 Canvas ，可以在其中加载对象图像。对象以正确的顺序排列在数组中。现在，当我尝试从数组加载对象时，存在一个问题:由于尺寸不同，并且它们

首页

博学

6Ren·AI

商城

python - 数据框 - 找到匹配项后停止搜索和导出数据