Python、MySQL 回归、SQL bug 或错误的条件？-6ren

Python、MySQL 回归、SQL bug 或错误的条件？

转载作者：行者123 更新时间：2023-11-29 19:44:10

我有一个存储桶文件夹，其中包含 yy-mm-dd.CSV 形式的 csv 文件，其中除了第二行末尾的日期之外，我可以忽略几行标题，然后是 151 行时间戳:power (千瓦)。这是一个片段:

    sep=;
    Version CSV|Tool SunnyBeam11|Linebreaks CR/LF|Delimiter semicolon|Decimalpoint point|Precision 3|Language en-UK|TZO=0|DST|2012.06.21

    ;SN: removed
    ;SB removed
    ;2120138796
    Time;Power
    HH:mm;kW
    00:10;0.000
    00:20;0.000
    00:30;0.000
    00:40;0.000
    00:50;0.000
    01:00;0.000
    01:10;0.000
    01:20;0.000
    01:30;0.000
    01:40;0.000
    01:50;0.000
    02:00;0.000
    02:10;0.000
    02:20;0.000
    02:30;0.000
    02:40;0.000
    02:50;0.000
    03:00;0.000
    03:10;0.000
    03:20;0.000
    03:30;0.000
    03:40;0.000
    03:50;0.000
    04:00;0.000
    04:10;0.000
    04:20;0.000
    04:30;0.000
    04:40;0.000
    04:50;0.006
    05:00;0.024
    05:10;0.006
    05:20;0.000
    05:30;0.030
    05:40;0.036
    05:50;0.042
    06:00;0.042
    06:10;0.042
    06:20;0.048
    06:30;0.060
    06:40;0.114
    06:50;0.132
    07:00;0.150

我解析这些文件的存储桶文件夹，检查它们是否具有此格式的文件名，因为还有其他我不想解析的文件，并且我从每个文件的第二行获取日期并将其存储。我连接到数据库，然后处理剩余的行，将存储的日期与第 9 行(或附近)之后每行的时间戳连接起来。我还获取每行的第二个值(功率，以千瓦为单位)。目的是将连接的日期时间值和关联的功率值插入到连接的 mysql 数据库中。读取最后一行后，文件将移动到名为“parsed”的子文件夹。所有这些都按预期进行，但读取的每一行都会经过 try/except 循环的 except 分支(第 107 行)，打印“无法附加到 Db”。我已经通过登录 MySQL(实际上是 OpenSuse LEAP 4.2 上的 MariaDB)检查了存储的数据库凭据的工作情况，并且它有效，并且我已经打印了连接变量，这两者都让我相信我实际上已正确连接每个文件。我会剪掉部分 Python 脚本以使其更短，但我不是一个特别高级的 Python 编码员，我不想冒错过关键部分的风险:

    #!/usr/bin/python

    from os import listdir
    from datetime import datetime
    import MySQLdb
    import shutil
    import syslog
    #from sys import argv


    def is_dated_csv(filename):
        """
        Return True if filename matches format YY-MM-DD.csv, otherwise False.
        """
        date_format = '%y-%m-%d.csv'

        try:
            date = datetime.strptime(filename, date_format)
            return True
        except ValueError:
            # filename did not match pattern
            syslog.syslog('SunnyData file ' + filename + ' did NOT match')
        #print filename + ' did NOT match'
            pass
    #'return' terminates a function
        return False


    def parse_for_date(filename):
    """
    Read file for the date - from line 2 field 10
    """
    currentFile = open(filename,'r')
    l1 = currentFile.readline() #ignore first line read
    date_line = currentFile.readline() #read second line
    dateLineArray = date_line.split("|")
    day_in_question = dateLineArray[-1]#save the last element (date)
    currentFile.close()
    return day_in_question


    def normalise_date_to_UTF(day_in_question):
    """
    Rather wierdly, some days use YYYY.MM.DD format & others use DD/MM/YYYY
    This function normalises either to UTC with a blank time (midnight)
    """
    if '.' in day_in_question: #it's YYYY.MM.DD
        dateArray = day_in_question.split(".")
        dt = (dateArray[0] +dateArray[1] + dateArray[2].rstrip() + '000000')
    elif '/' in day_in_question: #it's DD/MM/YYYY
        dateArray = day_in_question.split("/")
        dt = (dateArray[2].rstrip() + dateArray[1] + dateArray[0] + '000000')
    theDate = datetime.strptime(dt,'%Y%m%d%H%M%S')
    return theDate #A datetime object


    def parse_power_values(filename, theDate):
    currentFile = open(filename,'r')
    for i, line in enumerate(currentFile):
        if i <= 7:
        doingSomething = True
        print 'header' + str(i) + '/ ' + line.rstrip()
        elif ((i > 7) and (i <= 151)):
        lineParts = line.split(';')
        theTime = lineParts[0].split(':')
        theHour = theTime[0]
        theMin = theTime[1]
        timestamp = theDate.replace(hour=int(theHour),minute=int(theMin))
        power = lineParts[1].rstrip()
        if power == '-.---':
            power = 0.000
        if (float(power) > 0):
            print str(i) + '/ ' + str(timestamp) + '   power = ' + power + 'kWh'
            append_to_database(timestamp,power)
        else:
            print str(i) + '/ '
        elif i > 151:
        print str(timestamp) + ' DONE!'
        print '----------------------'
        break
    currentFile.close()

    def append_to_database(timestampval,powerval):
    host="localhost", # host
    user="removed", # username
    #passwd="******"
    passwd="removed"
    database_name = 'SunnyData'
    table_name = 'DTP'
    timestamp_column  = 'DT'
    power_column = 'PWR'
    #sqlInsert = ("INSERT INTO %s (%s,%s) VALUES('%s','%s')" % (table_name, timestamp_column, power_column, timestampval.strftime('%Y-%m-%d %H:%M:%S'), powerval) )
    #sqlCheck = ("SELECT TOP 1 %s.%s FROM %s WHERE %s.%s = %s;" % (table_name, timestamp_column, table_name, table_name, timestamp_column, timestampval.strftime('%Y-%m-%d %H:%M:%S')) )
    sqlInsert = ("INSERT INTO %s (%s,%s) VALUES('%s','%s')", (table_name, timestamp_column, power_column, timestampval.strftime('%Y-%m-%d %H:%M:%S'), powerval) )
    sqlCheck = ("SELECT TOP 1 %s.%s FROM %s WHERE %s.%s = %s;", (table_name, timestamp_column, table_name, table_name, timestamp_column, timestampval.strftime('%Y-%m-%d %H:%M:%S')) )
    cur = SD.cursor()
    try:
        #cur.execute(sqlCheck)
        # Aim here is to see if the datetime for the file has an existing entry in the database_name
        #If it does, do nothing, otherwise add the values to the datbase
        cur.execute(sqlCheck)
        if cur.fetchone() == "None":
            cur.execute(sqlInsert)
            print ""
        SD.commit()
    except:
        print 'DB append failed!'
        syslog.syslog('SunnyData DB append failed')
        SD.rollback()

    # Main start of program
    path = '/home/greg/currentGenerated/SBEAM/'
    destination = path + '/parsed'
    syslog.syslog('parsing SunnyData CSVs started')
    for filename in listdir(path):
    print filename
    if is_dated_csv(filename):
        #connect and disconnect once per CSV file - wasteful to reconnect for every line in def append_to_database(...)
        SD = MySQLdb.connect(host="localhost", user="root",passwd="removed", db = 'SunnyData')
        print SD
        print filename + ' matched'
        day_in_question = parse_for_date(filename)
        print 'the date is ' + day_in_question
        theDate = normalise_date_to_UTF(day_in_question)
        parse_power_values(filename, theDate)
        SD.close()
        shutil.move(path + '/' + filename, destination)
        syslog.syslog('SunnyData file' + path + '/' + filename + 'parsed & moved to ' + destination)

它曾经有效，但自从我上次检查以来已经过去很长时间并且有很多更新。我担心回归可能会改变我的代码下的某些内容。只是不知道如何解决这一切。

抱歉，这不是一个非常清晰和具体的问题，但如果你能帮我整理一下，它仍然可以作为其他人的一个很好的例子？

谢谢

格雷格

最佳答案

MySQL/MariaDB 中没有 SELECT TOP ... 语法，因此您的脚本在尝试执行 sqlCheck 时一定会失败。

应该改为SELECT %s.%s FROM %s WHERE %s.%s = %s LIMIT 1。

关于Python、MySQL 回归、SQL bug 或错误的条件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41154647/

文章推荐： mysql - 如何在 VXML 中使用小数

文章推荐： android - OSMDroid 中的离线路由和导航，如何获得此功能？

文章推荐： java - Android 注释没有被正确理解

文章推荐： java - 如何在 Android 中将 TableRow 宽度设置为最大？

Python Pandas 回归
[在此处输入图像描述][1]我正在努力弄清楚回归是否是我需要走的路线，以便解决我当前使用 Python 的挑战。这是我的场景: 我有一个 195 行 x 25 列的 Pandas Dataframe
python - 如何在机器学习中训练连续输出(回归)
我想训练回归模型(不是分类)，其输出是连续数字。假设我有输入变量 X，其范围在 -70 到 70 之间。我有输出变量 Y，其范围在 -5 到 5 之间。X 有 39 个特征，Y 有 16 个特征，每
python - 回归:如何逼近多维函数？
我想使用神经网络逼近 sinc 函数。这是我的代码: import tensorflow as tf from keras.layers import Dense from keras.models
database - Postgres 回归
我对 postgres 表做了一些更改，我想将其恢复到以前的状态。没有数据库的备份。有办法吗？比如，postgres 会自动拍摄快照并将其存储在某个地方，还是原始数据会永远丢失？最佳答案默认情况下
带矩阵的 Python 回归
我有大约 100 个 7x7 因变量矩阵(所以有 49 个因变量)。我的自变量是时间。我正在做一个物理项目，我应该通过求解 ODE 得到一个矩阵函数(矩阵的每个元素都是时间的函数)。我使用了 nump
regression - 对二元结果变量使用 OLS 回归
我之前曾被告知——出于完全合理的原因——当结果变量为二元变量时(即是/否、真/假、赢/输等)，不应运行 OLS 回归。但是，我经常阅读经济学/其他社会科学方面的论文，其中研究人员对二元变量运行 OLS
python - 使用生命线和分类变量的 Cox 回归
您好，我正在使用生命线包进行 Cox 回归。我想检查非二元分类变量的影响。有内置的方法吗？或者我应该将每个类别因子转换为一个数字？或者，在生命线中使用 kmf fitter，是否可以对每个因素执行此操
r - 具有定量和定性解释变量之间相互作用的多元 Logistic 回归
作为后续 this question ，我拟合了具有定量和定性解释变量之间相互作用的多元 Logistic 回归。 MWE如下: Type |z|) (Intercept) -0.65518
R:在动物园矩阵对象上滚动应用 lm 回归
我想在单个动物园对象中的多对数据系列上使用 lm 执行滚动回归。虽然我能够通过以下代码对动物园对象中的一对数据系列执行滚动回归: FunLm seat time(seat) seat fm
r - 如何拟合 Skellam 回归？
是否有一种简单的方法可以在 R 中拟合多元回归，其中因变量根据 Skellam distribution 分布？ (两个泊松分布计数之间的差异)？比如: myskellam <- glm(A ~ B
python - XGBoost 回归 - 预测值超出训练范围
包含各种特征和回归目标(称为 qval)的数据集用于训练 XGBoost 回归器。该值 qval 介于 0 和 1 之间，应具有以下分布: 到目前为止，还不错。但是，当我使用 xgb.save_mod
r - 如何将字符串作为变量传递给 felm 回归
这有效: felm(y ~ x1 + x2 | fe1 + fe2 | 0 | , data = data) 我想要: fixedeffects = "fe1 + fe2" felm(y ~ x1
r - 如何将字符串作为变量传递给 felm 回归
这有效: felm(y ~ x1 + x2 | fe1 + fe2 | 0 | , data = data) 我想要: fixedeffects = "fe1 + fe2" felm(y ~ x1
r - R中的惩罚 Gamma 回归
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
r - R 中的循环 - 回归
我刚刚开始使用 R 进行统计分析，而且我还在学习。我在 R 中创建循环时遇到问题。我有以下案例，我想知道是否有人可以帮助我。对我来说，这似乎是不可能的，但对你们中的一些人来说，这只是小菜一碟。我有不同
python - 没有预测器的 Sklearn 回归
是否可以在 sklearn 中使用或不使用(即仅使用截距)预测器来运行回归(例如逻辑回归)？这似乎是一个相当标准的类型分析，也许这些信息已经在输出中可用。我发现的唯一相关的东西是sklearn.sv
machine-learning - 回归。优化偏态分布的中位数而不是均值
假设我对一些倾斜的数据分布执行 DNN 回归任务。现在我使用平均绝对误差作为损失函数。机器学习中的所有典型方法都是最小化平均损失，但对于倾斜来说这是不恰当的。从实际角度来看，最好尽量减少中值损失。我
machine-learning - 机器学习中的大量特征不好(回归)？
我正在对公寓特征进行线性回归分析，然后预测公寓的价格。目前，我已经收集了我所在城市 13000 套公寓的特征。我有 23-25 个特征，我不确定在公寓价格预测中拥有如此多的特征是否正常。我有以下功能
python - Catboost 回归。函数外推
我是 ML 新手，对 catboost 有疑问。所以，我想预测函数值(例如 cos | sin 等)。我回顾了一切，但我的预测始终是直线是否可能，如果可能，我该如何解决我的问题我很高兴收到任何评论
python - 概率 SVM、回归
我目前已经为二进制类实现了概率(至少我这么认为)。现在我想扩展这种回归方法，并尝试将其用于波士顿数据集。不幸的是，我的算法似乎被卡住了，我当前运行的代码如下所示: from sklearn impor

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python、MySQL 回归、SQL bug 或错误的条件？