- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我每月收到一个包含一些列的 csv 文件。不管我收到什么列,如果可能的话,我应该输出一个带有 C1、C2、C3、...C29、C30 列的 csv + 一个包含我所采取步骤的日志文件。
我知道,我的数据转换顺序应该是 t1、t2、t3、t4、t5。
t1 generates columns C8, C9, C12, C22 using C1, C2, C3, C4
t2 generates columns C10, C11, C17 using C3, C6, C7, C8
t3 generates columns C13, C14, C15, C16 using C5, C8, C10, C11, C22
t4 generates columns C18, C19, C20, C21, C23, C24, C25 using C13, C15
t5 generates columns C26, C27, C28, C29, C30 using C5, C19, C20, C21
我无法控制我在输入数据中得到的列。
def ti(df):
output_cols = get_output_cols()
if output_cols_already_exist(df, output_cols):
return df, "{} skipped, the output cols {} already exist".format(inspect.stack()[0][3], output_cols)
else:
input_cols = get_required_input_cols()
missing_cols = get_missing_cols(df, input_cols):
if missing_cols == []:
// do stuff
log = "Performed {} transformation. Created {} columns".format(inspect.stack()[0][3], input_cols)
else:
for col in input_cols:
df[col] = np.NaN
log = "Cannot perform {} transformation because {} columns are missing. {} are filled with NaN values".format(inspect.stack()[0][3], missing_cols, output_cols)
另外,我按以下方式使用这些功能:
text = ""
df = pd.read_csv(input_path)
df, log_text = t1(df)
text = text + log_text + "\n"
df, log_text = t2(df)
text = text + log_text + "\n"
df, log_text = t3(df)
text = text + log_text + "\n"
df, log_text = t4(df)
text = text + log_text + "\n"
df, log_text = t5(df)
text = text + log_text + "\n"
df.to_csv("output_data.csv", index = False)
logging.info(text)
如您所见,我的代码既丑陋又重复。现在我有时间重构它,但我不知道最好的方法是什么。我还希望我的代码是可扩展的,因为我也在考虑添加 t6 转换。你能帮我提供一些我可以遵循的方向/设计模式吗? (我也开放使用 Pandas 以外的其他 python 库)
最佳答案
因为,在 Python 中,函数是 first-class objects ,您可以重构您的代码以概括您的 t[i]
通过提取似乎区分它们的功能(do stuff
部分),使其成为辅助函数并将其视为参数。
您还可以通过在列表上迭代来避免在调用函数(t1、t2 等或此后重构的帮助程序版本)时重复。
最后,使用 f-strings帮助使您的代码更具可读性。
像这样的东西:
# t function takes a dataframe and a function as parameters
def t(df, do_stuff_func):
output_cols = get_output_cols()
if output_cols_already_exist(df, output_cols):
return (
df,
(
f"{inspect.stack()[0][3]} skipped, "
f"the output cols {output_cols} already exist",
),
)
else:
input_cols = get_required_input_cols()
missing_cols = get_missing_cols(df, input_cols)
if missing_cols == []:
# Call the helper function
do_stuff_func()
log = (
f"Performed {inspect.stack()[0][3]} transformation."
f"Created {input_cols} columns"
)
else:
for col in input_cols:
df[col] = np.NaN
log = (
f"Cannot perform {inspect.stack()[0][3]} transformation"
f"because {missing_cols} columns are missing. "
f"{output_cols} are filled with NaN values"
)
# Define the five new 'do_stuff' functions
def do_stuff1():
pass
...
def do_stuff5():
pass
# Store the functions
do_stuff_funcs = [do_stuff1, do_stuff2, do_stuff3, do_stuff4, do_stuff5]
# Call t function in combination with df and do_stuff_funcs helpers
for do_stuff_func in do_stuff_funcs:
df, log_text = t(df, do_stuff_func)
text = text + log_text + "\n"
# Save the results
df.to_csv("output_data.csv", index = False)
logging.info(text)
关于python - 使用 Pandas 链接数据转换方法的设计模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67345293/
对此感到疯狂,真的缺少一些东西。 我有webpack 4.6.0,webpack-cli ^ 2.1.2,所以是最新的。 在文档(https://webpack.js.org/concepts/mod
object Host "os.google.com" { import "windows" address = "linux.google.com" groups = ["linux"] } obj
每当我安装我的应用程序时,我都可以将数据库从 Assets 文件夹复制到 /data/data/packagename/databases/ .到此为止,应用程序工作得很好。 但 10 或 15 秒后
我在 cc 模式缓冲区中使用 hideshow.el 来折叠我不查看的文件部分。 如果能够在 XML 文档中做到这一点就好了。我使用 emacs 22.2.1 和内置的 sgml-mode 进行 xm
已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。 我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。 关闭
根据java: public Scanner useDelimiter(String pattern) Sets this scanner's delimiting pattern to a patt
我读过一些关于 PRG 模式以及它如何防止用户重新提交表单的文章。比如this post有一张不错的图: 我能理解为什么在收到 2xx 后用户刷新页面时不会发生表单提交。但我仍然想知道: (1) 如果
看看下面的图片,您可能会清楚地看到这一点。 那么如何在带有其他一些 View 的简单屏幕中实现没有任何弹出/对话框/模式的微调器日期选择器? 我在整个网络上进行了谷歌搜索,但没有找到与之相关的任何合适
我不知道该怎么做,我一直遇到问题。 以下是代码: rows = int(input()) for i in range(1,rows): for j in range(1,i+1):
我想为重写创建一个正则表达式。 将所有请求重写为 index.php(不需要匹配),它不是以/api 开头,或者不是以('.html',或'.js'或'.css'或'.png'结束) 我的例子还是这样
MVC模式代表 Model-View-Controller(模型-视图-控制器) 模式 MVC模式用于应用程序的分层开发 Model(模型) - 模型代表一个存取数据的对象或 JAVA PO
我想为组织模式创建一个 RDF 模式世界。您可能知道,组织模式文档基于层次结构大纲,其中标题是主要的分组实体。 * March auxiliary :PROPERTIES: :HLEVEL: 1 :E
我正在编写一个可以从文件中读取 JSON 数据的软件。该文件包含“person”——一个值为对象数组的对象。我打算使用 JSON 模式验证库来验证内容,而不是自己编写代码。符合代表以下数据的 JSON
假设我有 4 张 table 人 公司 团体 和 账单 现在bills/persons和bills/companys和bills/groups之间是多对多的关系。 我看到了 4 种可能的 sql 模式
假设您有这样的文档: doc1: id:1 text: ... references: Journal1, 2013, pag 123 references: Journal2, 2014,
我有这个架构。它检查评论,目前工作正常。 var schema = { id: '', type: 'object', additionalProperties: false, pro
这可能很简单,但有人可以解释为什么以下模式匹配不明智吗?它说其他规则,例如1, 0, _ 永远不会匹配。 let matchTest(n : int) = let ran = new Rand
我有以下选择序列作为 XML 模式的一部分。理想情况下,我想要一个序列: 来自 my:namespace 的元素必须严格解析。 来自任何其他命名空间的元素,不包括 ##targetNamespace和
我希望编写一个 json 模式来涵盖这个(简化的)示例 { "errorMessage": "", "nbRunningQueries": 0, "isError": Fals
首先,我是 f# 的新手,所以也许答案很明显,但我没有看到。所以我有一些带有 id 和值的元组。我知道我正在寻找的 id,我想从我传入的三个元组中选择正确的元组。我打算用两个 match 语句来做到这
我是一名优秀的程序员,十分优秀!