python - 将 jupyter notebook 转为 python 脚本的最佳实践-6ren

python - 将 jupyter notebook 转为 python 脚本的最佳实践

转载作者：IT老高更新时间：2023-10-28 21:45:51

28

4

Jupyter (iPython) 笔记本当之无愧地被称为代码原型(prototype)设计和交互式执行各种机器学习工作的好工具。但是我在使用的时候，难免会遇到这样的情况:

笔记本很快变得过于复杂和凌乱，无法作为笔记本进一步维护和改进，我必须从中制作 python 脚本；
当涉及到生产代码(例如，需要每天重新运行的代码)时，笔记本再次不是最佳格式。

假设我已经在 jupyter 中开发了一个完整的机器学习管道，其中包括从各种来源获取原始数据、清理数据、特征工程和训练模型。现在，用高效和可读的代码来制作脚本的最佳逻辑是什么？到目前为止，我曾经用几种方法来解决它:

只需将 .ipynb 转换为 .py，只需稍作更改，即可将 notebook 中的所有管道硬编码为一个 python 脚本。
- '+':快速
- '-':脏、不灵活、不方便维护
制作一个包含多个函数的脚本(大约，每个单元格对应一个函数或两个单元格)，尝试用单独的函数组成管道的各个阶段，并相应地命名它们。然后通过argparse指定所有参数和全局常量。
- '+':使用更灵活；更易读的代码(如果你正确地将管道逻辑转换为函数)
- '-':通常情况下，管道不能拆分为逻辑上完整的部分，这些部分可以成为函数，而代码中没有任何怪癖。所有这些函数通常只需要在脚本中调用一次，而不是在循环、映射等中多次调用。此外，每个函数通常都会获取之前调用的所有函数的输出，因此必须向每个函数传递许多参数功能。
与第(2)点相同，但现在将所有函数包装在类中。现在所有全局常量以及每个方法的输出都可以存储为类属性。
- '+':你不需要为每个方法传递很多参数——所有之前的输出都已经存储为属性
- '-':一个任务的整体逻辑还没有被捕获——它是数据和机器学习管道，而不仅仅是类。类的唯一目标是创建，依次调用所有方法，然后将其删除。除此之外，类的实现时间也很长。
使用多个脚本将笔记本转换为 python 模块。我没有尝试过，但我怀疑这是处理问题的最长方法。

我想，这种总体设置在数据科学家中很常见，但令人惊讶的是，我找不到任何有用的建议。

各位，请分享您的想法和经验。你有没有遇到过这个问题？你是怎么解决的？

最佳答案

Life saver: as you're writing your notebooks, incrementally refactor your code into functions, writing some minimal assert tests and docstrings.

之后，从 notebook 重构为 script 就很自然了。不仅如此，它还能让您在编写长笔记本时更轻松，即使您不打算将它们变成其他东西。

带有“最少”测试和文档字符串的单元格内容的基本示例:

def zip_count(f):
    """Given zip filename, returns number of files inside.

    str -> int"""
    from contextlib import closing
    with closing(zipfile.ZipFile(f)) as archive:
        num_files = len(archive.infolist())
    return num_files

zip_filename = 'data/myfile.zip'

# Make sure `myfile` always has three files
assert zip_count(zip_filename) == 3
# And total zip size is under 2 MB
assert os.path.getsize(zip_filename) / 1024**2 < 2

print(zip_count(zip_filename))

一旦您将其导出为裸 .py 文件，您的代码可能还不会被结构化为类。但是值得努力将你的 notebook 重构到它有一组文档化的函数，每个函数都有一组简单的 assert 语句，可以很容易地移动到 tests.py 用于使用 pytest、unittest 或您拥有的东西进行测试。如果有意义的话，之后将这些函数捆绑到您的类的方法中是非常容易的。

如果一切顺利，您接下来要做的就是写下您的if __name__ == '__main__':及其“钩子(Hook)”:如果您正在编写要由终端调用的脚本，您将需要 handle command-line arguments ，如果你正在编写一个模块，你会想要考虑 its API with the __init__.py file等。

当然，这完全取决于预期的用例:将笔记本转换为小脚本与将其转换为成熟的模块或包之间存在很大差异。

以下是笔记本到脚本工作流程的一些想法:

通过 GUI 将 Jupyter Notebook 导出为 Python 文件 (.py)。
删除不执行实际工作的“帮助”行:print 语句、绘图等。
如果需要，请将您的逻辑捆绑到类中。唯一需要的额外重构工作应该是编写您的类文档字符串和属性。
使用 if __name__ == '__main__' 编写脚本的入口。
为每个函数/方法分离 assert 语句，并在 tests.py 中充实一个最小的测试套件。

关于python - 将 jupyter notebook 转为 python 脚本的最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32183164/

28

4

0

文章推荐： c++ - 为什么 std::lock_guard/std::unique_lock 不使用类型删除？

文章推荐： c++ - 为什么它打破了初始化列表的顺序规则时会起作用

文章推荐： android - android中 fragment 中按钮的按钮监听器

文章推荐： node.js - 使用 package.json 在全局和本地安装依赖项

理论+实践，带你了解分布式训练
本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
理论+实践，带你掌握动态规划法
本文分享自华为云社区《五大基础算法--动态规划法》，作者：大金（内蒙的）。一、基本概念动态规划法，和分治法极其相似。区别就是，在求解子问题时，会保存该子问题的解，后面的子问题求解时，可以直接拿来
python 调用scp命令实践
pip install scp pip install pexpect 测试代码： import os import stat import paramiko # 用于调用scp命令 def s
用于验证资源的 REST 实践
我目前正在实现“ token ”REST 服务。 token 只是一个字符串，由一些参数构建而成，然后经过哈希处理并在一定时间后过期。我想在我的 REST 服务中有一个可以验证 token 的端点，
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Java XML 实践
我有一个应用程序，每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。我应该为每个天气通知创建一个新的 XML 文件，还是将每个通知附加到同一个 XML 文件中？我不确定 XML 标准的
c# - 封装谓词的模式/实践
我猜我们大多数人都必须在某个时候处理这个问题，所以我想我会问这个问题。当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时，显然有必要进行封装，但实现封装的最佳方
正确的面向对象技术的 c# 实践
我有一些 c# 代码已经运行了一段时间了..我不得不说，虽然我了解 OO 原则的基础知识，但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。因此，我有一个基本抽象类作为基本数据服务类，如下所
持久化引用和删除引用对象的 SQL 实践
我设计了一个 SQL 数据库系统(使用 Postgre)，我有一个问题，即创建一个关系/引用的常见做法是什么，这种关系/引用即使在引用的对象被删除时也能持续存在。比如有一个UserORM，还有Act
Python Lambda 实践
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里，有什么帮助吗？ def numVowels(s): vowels= "AEIOUaeiou" if s
c++ - 原地轮换C++实践
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它，除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减，而不是从数组中获取值。我需要通过这种方
ios - appDelegate 实践
我有一个 json 存储在我的应用程序文档文件夹中，我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到，我可以将
C++ 内存管理技术/实践
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。我过去常常使用 new () 创建对象，然后传递指针，虽然它可以工作，但调试起来很痛苦，人们看到代码时会用有趣的眼神看着我。我为它没有
c++ - 如何处理老年人糟糕的编码风格/实践？
已结束。这个问题是 off-topic .它目前不接受答案。想要改进这个问题？ Update the question所以它是on-topic堆栈溢出。关闭 10 年前。 Improve thi
oop - 初学者的松散耦合和 OO 实践
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而，作为一个新手，几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。我或多或少地了解如何将字符串、整数和简单数据类型封
php - Codeigniter MVC 实践
我发现我需要编写大量重复代码，因为我无法从其他 Controller 调用函数。例如，这里新闻提要内容在我的代码中重复，我对一个 Controller 做一些特定的事情，然后需要像这样加载我的新闻提要
f# - 在F#中实现约束数字类型的习语/实践？
假设需要一种数字数据类型，其允许值在指定范围内。更具体地说，假设要定义一个整数类型，其最小值为0，最大值为5000。这种情况在很多情况下都会出现，例如在对数据库数据类型，XSD数据类型进行建模时。在
javascript - 迭代整个数组的标准 JavaScript 实践？
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗？例如: var myArray = ["app
Breeze 内存管理 - 模式/实践？
我有一个旧的 SL4/ria 应用程序，我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外，还有很多

首页

博学

6Ren·AI

商城

python - 将 jupyter notebook 转为 python 脚本的最佳实践