python - 使用 Pandas 链接数据转换方法的设计模式-6ren

python - 使用 Pandas 链接数据转换方法的设计模式

转载作者：行者123 更新时间：2023-12-04 07:43:07

25

4

我每月收到一个包含一些列的 csv 文件。不管我收到什么列，如果可能的话，我应该输出一个带有 C1、C2、C3、...C29、C30 列的 csv + 一个包含我所采取步骤的日志文件。
我知道，我的数据转换顺序应该是 t1、t2、t3、t4、t5。

t1 generates columns C8, C9, C12, C22 using C1, C2, C3, C4
t2 generates columns C10, C11, C17 using C3, C6, C7, C8
t3 generates columns C13, C14, C15, C16 using C5, C8, C10, C11, C22
t4 generates columns C18, C19, C20, C21, C23, C24, C25 using C13, C15
t5 generates columns C26, C27, C28, C29, C30 using C5, C19, C20, C21

我无法控制我在输入数据中得到的列。
如果我的输入数据有 C1、C2、C3、C4、C5、C6、C7 列，我可以生成所有 C1 ... C30 列。
如果我的输入数据有 C1、C2、C3、C4、C5、C6、C7、C8、C10、C11、C17 列，我可以生成所有 C1 ... C30 列，但我应该跳过 t2，因为它不是必需的
如果我的输入数据有 C1、C2、C3、C4、C6、C7，我只能做 t1、t2、t3、t4。我无法运行 t5，因此我应该创建仅包含 NaN 值的 C26、C27、C28、C29、C30 列，并且我应该在日志中添加“无法执行 t5 转换，因为缺少 C5。C26、C27、C28、C29、C30 是填充 NaN 值"
我的 t1、t2、t3、t4、t5 已经创建，但我不知道如何以优雅的方式组织代码，以使代码重复最少。
我必须在很短的时间内开发我的代码。因此，我所有的 t1、t2、t3、t4、t5 方法看起来像

def ti(df):
    output_cols = get_output_cols()
    if output_cols_already_exist(df, output_cols):
        return df, "{} skipped, the output cols {} already exist".format(inspect.stack()[0][3], output_cols)
    else:
        input_cols = get_required_input_cols()
        missing_cols = get_missing_cols(df, input_cols):
        if missing_cols == []:
            // do stuff
            log = "Performed {} transformation. Created {} columns".format(inspect.stack()[0][3], input_cols)
        else:
            for col in input_cols:
                df[col] = np.NaN
            log = "Cannot perform {} transformation because {} columns are missing. {} are filled with NaN values".format(inspect.stack()[0][3], missing_cols, output_cols)

另外，我按以下方式使用这些功能:

text = ""
df = pd.read_csv(input_path)
df, log_text = t1(df)
text = text + log_text + "\n"
df, log_text = t2(df)
text = text + log_text + "\n"
df, log_text = t3(df)
text = text + log_text + "\n"
df, log_text = t4(df)
text = text + log_text + "\n"
df, log_text = t5(df)
text = text + log_text + "\n"
df.to_csv("output_data.csv", index = False)
logging.info(text)

如您所见，我的代码既丑陋又重复。现在我有时间重构它，但我不知道最好的方法是什么。我还希望我的代码是可扩展的，因为我也在考虑添加 t6 转换。你能帮我提供一些我可以遵循的方向/设计模式吗？ (我也开放使用 Pandas 以外的其他 python 库)

最佳答案

因为，在 Python 中，函数是 first-class objects ，您可以重构您的代码以概括您的 t[i]通过提取似乎区分它们的功能(do stuff 部分)，使其成为辅助函数并将其视为参数。
您还可以通过在列表上迭代来避免在调用函数(t1、t2 等或此后重构的帮助程序版本)时重复。
最后，使用 f-strings帮助使您的代码更具可读性。
像这样的东西:

# t function takes a dataframe and a function as parameters
def t(df, do_stuff_func):
    output_cols = get_output_cols()
    if output_cols_already_exist(df, output_cols):
        return (
            df,
            (
                f"{inspect.stack()[0][3]} skipped, "
                f"the output cols {output_cols} already exist",
            ),
        )
    else:
        input_cols = get_required_input_cols()
        missing_cols = get_missing_cols(df, input_cols)
        if missing_cols == []:
            # Call the helper function
            do_stuff_func()
            log = (
                f"Performed {inspect.stack()[0][3]} transformation."
                f"Created {input_cols} columns"
            )
        else:
            for col in input_cols:
                df[col] = np.NaN
            log = (
                f"Cannot perform {inspect.stack()[0][3]} transformation"
                f"because {missing_cols} columns are missing. "
                f"{output_cols} are filled with NaN values"
            )

# Define the five new 'do_stuff' functions
def do_stuff1():
    pass
...
def do_stuff5():
    pass

# Store the functions
do_stuff_funcs = [do_stuff1, do_stuff2, do_stuff3, do_stuff4, do_stuff5]

# Call t function in combination with df and do_stuff_funcs helpers
for do_stuff_func in do_stuff_funcs:
    df, log_text = t(df, do_stuff_func)
    text = text + log_text + "\n"

# Save the results
df.to_csv("output_data.csv", index = False)
logging.info(text)

关于python - 使用 Pandas 链接数据转换方法的设计模式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67345293/

25

4

0

文章推荐： java - 使用 IsoChronology 的闰年天数

文章推荐： p5.js - 是否可以更改粒子颜色？

文章推荐： marklogic - cts.estimate 显示错误的文档计数

webpack - Webpack:未知参数:模式/配置具有未知属性“模式”
对此感到疯狂，真的缺少一些东西。我有webpack 4.6.0，webpack-cli ^ 2.1.2，所以是最新的。在文档（https://webpack.js.org/concepts/mod
linux - 在文件中的匹配字符串(模式 1)上方打印特定单词直到匹配字符串(模式 2)
object Host "os.google.com" { import "windows" address = "linux.google.com" groups = ["linux"] } obj
android - OpenGLRenderer 刷新缓存(模式 0)和(模式 1)
每当我安装我的应用程序时，我都可以将数据库从 Assets 文件夹复制到 /data/data/packagename/databases/ .到此为止，应用程序工作得很好。但 10 或 15 秒后
xml - emacs:HideShow 是否适用于 xml 模式(sgml 模式)？
我在 cc 模式缓冲区中使用 hideshow.el 来折叠我不查看的文件部分。如果能够在 XML 文档中做到这一点就好了。我使用 emacs 22.2.1 和内置的 sgml-mode 进行 xm
xml - 从 XML 模式 (XSD) 生成 Json 模式
已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。关闭
java - 为什么使用 useDelimiter(Pattern 模式) 与 useDelimiter(String 模式)
根据java: public Scanner useDelimiter(String pattern) Sets this scanner's delimiting pattern to a patt
php - 为什么 Post/Redirect/Get 模式(PRG 模式)有效？
我读过一些关于 PRG 模式以及它如何防止用户重新提交表单的文章。比如this post有一张不错的图: 我能理解为什么在收到 2xx 后用户刷新页面时不会发生表单提交。但我仍然想知道: (1) 如果
android - 如何在 React Native 中使用 "Spinner"模式 "DatePickerAndroid"而没有任何对话框/模式/弹出窗口？
看看下面的图片，您可能会清楚地看到这一点。那么如何在带有其他一些 View 的简单屏幕中实现没有任何弹出/对话框/模式的微调器日期选择器？我在整个网络上进行了谷歌搜索，但没有找到与之相关的任何合适
Python 模式
我不知道该怎么做，我一直遇到问题。以下是代码: rows = int(input()) for i in range(1,rows): for j in range(1,i+1):
正则表达式重写 AND 模式
我想为重写创建一个正则表达式。将所有请求重写为 index.php(不需要匹配)，它不是以/api 开头，或者不是以('.html'，或'.js'或'.css'或'.png'结束) 我的例子还是这样
30、MVC 模式
MVC模式代表 Model-View-Controller（模型-视图-控制器）模式 MVC模式用于应用程序的分层开发 Model（模型） - 模型代表一个存取数据的对象或 JAVA PO
组织模式的 RDF 模式
我想为组织模式创建一个 RDF 模式世界。您可能知道，组织模式文档基于层次结构大纲，其中标题是主要的分组实体。 * March auxiliary :PROPERTIES: :HLEVEL: 1 :E
值为对象数组的对象的 JSON 模式
我正在编写一个可以从文件中读取 JSON 数据的软件。该文件包含“person”——一个值为对象数组的对象。我打算使用 JSON 模式验证库来验证内容，而不是自己编写代码。符合代表以下数据的 JSON
用于多个多对多关系的 SQL 模式
假设我有 4 张 table 人公司团体和账单现在bills/persons和bills/companys和bills/groups之间是多对多的关系。我看到了 4 种可能的 sql 模式
用于处理多个连接的多值字段的 SOLR 模式
假设您有这样的文档: doc1: id:1 text: ... references: Journal1, 2013, pag 123 references: Journal2, 2014,
JSON 模式 - 多种类型
我有这个架构。它检查评论，目前工作正常。 var schema = { id: '', type: 'object', additionalProperties: false, pro
与参数匹配的 F# 模式
这可能很简单，但有人可以解释为什么以下模式匹配不明智吗？它说其他规则，例如1, 0, _ 永远不会匹配。 let matchTest(n : int) = let ran = new Rand
XML 模式 - 命名空间选择歧义
我有以下选择序列作为 XML 模式的一部分。理想情况下，我想要一个序列: 来自 my:namespace 的元素必须严格解析。来自任何其他命名空间的元素，不包括 ##targetNamespace和
相似对象映射的 json 模式
我希望编写一个 json 模式来涵盖这个(简化的)示例 { "errorMessage": "", "nbRunningQueries": 0, "isError": Fals
永远不会匹配与元组规则匹配的 F# 模式
首先，我是 f# 的新手，所以也许答案很明显，但我没有看到。所以我有一些带有 id 和值的元组。我知道我正在寻找的 id，我想从我传入的三个元组中选择正确的元组。我打算用两个 match 语句来做到这

首页

博学

6Ren·AI

商城

python - 使用 Pandas 链接数据转换方法的设计模式