Python-Hypothesis:指定和管理 NaN 值-6ren

Python-Hypothesis:指定和管理 NaN 值

转载作者：行者123 更新时间：2023-12-02 03:22:07

34

4

我正在尝试使用假设来生成一组数据帧，并将其合并在一起。我希望允许每个单独的列具有 NaN 值，并且我希望允许 Hypothesis 生成一些古怪的示例。

但我最想关注的是每个数据帧中至少有一行具有实际值的示例 - 特别是，我希望能够生成具有在相应列之间共享的一些信息的数据帧，这样合并的数据框不为空。 (例如，我希望 store.csv 中“store”的某些值与 train.csv 中“store”的值重叠。)

我有一些示例代码 here它会到处生成 NaN 值和古怪的示例，但大多数生成的示例包含很少的非 NaN 值。 (数据框策略从第 57 行开始。)

对于如何创建稍微更“现实”的示例有什么建议吗？谢谢!

最佳答案

您的解决方案对我来说看起来不错，但这里还有两个可能有帮助的策略:

使用 columns 和 series 的 fill=st.nothing() 参数来禁用填充行为。这使得条目变得密集而不是稀疏，因此运行时成本很高，但示例密度发生了显着变化。或者 fill=st.floats(allow_nan=False) 可能会更便宜并且仍然有效!
在策略上使用 .filter(...) 来拒绝没有任何 nan-free 行的数据帧。典型的经验法则是当它会拒绝超过一半的示例时避免使用 .filter ，并在超过十分之一时寻找替代方案......但这可以很容易地与第一点结合起来够了。

关于Python-Hypothesis:指定和管理 NaN 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54448434/

34

4

0

文章推荐： variables - 如何访问过程之外的变量

文章推荐： php - 更新 PHP.ini 的内存限制 - Mac OS X Mojave

文章推荐： python-3.x - 基本 Flask SQLAlchemy 上下文问题

文章推荐： itext pdfHtml : set margins

python-hypothesis - 从正则表达式生成字符串数据
我希望能够采用正则表达式并使用 python 假设库生成符合要求的数据。例如给定一个正则表达式 regex = re.compile('[a-zA-Z]') 这将匹配任何英文字母字符。一个示例生成器可
python-hypothesis - 如何设置假设中数据帧的最小和最大长度？
我有以下使用基因组数据创建数据框的策略: from hypothesis.extra.pandas import columns, data_frames, column import hypothe
Python Hypothesis - 一次为许多测试构建策略？
我有一个复合的、构建起来昂贵但测试起来便宜的策略。我必须这样做: @given(expensive_strategy()) def test_all(x): assert... ass
python-hypothesis - 当行元组具有不同的数据类型时，对由假设生成的数据帧进行排序
我想创建 End 大于 Start 的数据框。我用的是: from hypothesis.extra.pandas import columns, data_frames, column impor
python - pytest-hypothesis 运行之间的测试隔离
我刚刚将一个 pytest 测试套件从 quickcheck 迁移到 hypothesis。这工作得很好(并立即发现了一些隐藏的边缘案例错误)，但我看到的一个主要区别与两个属性管理器之间的测试隔离有关
python 如何用 Hypothesis 来自动化单元测试
高质量的代码离不开单元测试，而设计单元测试的用例往往又比较耗时，而且难以想到一些极端情况，本文讲述如何使用 Hypothesis 来自动化单元测试刷过力扣算法题的同学都知道，有时候觉得代码已经很
python - 导入错误 : No module named 'hypothesis'
我用 conda install hypothesis 在 Anaconda 上安装了假设.我在 Spyder 上使用 Python 3.7。在名为 testing.py 的文件中我写 from h
Python-Hypothesis:指定和管理 NaN 值
我正在尝试使用假设来生成一组数据帧，并将其合并在一起。我希望允许每个单独的列具有 NaN 值，并且我希望允许 Hypothesis 生成一些古怪的示例。但我最想关注的是每个数据帧中至少有一行具有实际
Python-Hypothesis:指定和管理 NaN 值
我正在尝试使用假设来生成一组数据帧，并将其合并在一起。我希望允许每个单独的列具有 NaN 值，并且我希望允许 Hypothesis 生成一些古怪的示例。但我最想关注的是每个数据帧中至少有一行具有实际
c++ - 按值 : Is my hypothesis correct? 分配成员对象
我有多年的编程经验，但我对 C++ 还很陌生。我不完全明白下面一行会做什么: this -> obj = MyObject(param) 首先，我有以下假设会发生什么: 调用 MyObject(par
python - 我们可以在 Hypothesis Python 框架中控制测试用例分布吗？
可以指示基于属性的框架 QuickCheck 通过使用收集和测量效用函数来测量生成特定测试用例的频率(例如:同一个人平均下订单的频率，下空订单的频率)。是否有可能像在 Quickcheck 中那样调整
python - 使用 Hypothesis Python 生成条件数据
我想生成具有以下条件的大小为 2 的整数列表的列表。第一个元素应小于第二个元素所有数据都应该是唯一的。我可以使用自定义函数生成每个元组，但不知道如何使用它来满足第二个条件。 from hypot
python-hypothesis - 使用 pytest.raises 的假设状态测试不报告步骤顺序
我想写一个hypothesis.stateful.RuleBasedStateMachine它断言在某些情况下会引发异常。 pytest提供 raises用于编写异常测试的上下文管理器。如果我使用 p
python - 你如何使用 Hypothesis @given 参数化一个 pytest 类？
为了测试当我添加两个非常相似的数据行时我的数据库的行为，我需要为每个参数组合设置一个新数据库。我还使用 Hypothesis 的策略来生成“相似”的数据行。测试工作流程应如下所示: for exam
Python 和 Statsmodels : How to include the alternative test_t hypothesis?
考虑以下示例: df = pd.read_csv('myFile.txt',delim_whitespace=True,header=None) df.columns=['vary','vax1','
r - (R，量化): Hypothesis testing a large range of quantiles
我有一个分位数回归模型，其中包含 1 个回归变量和 1 个回归变量。我想假设检验回归量在每个分位数上都相等。我想到的一种方法是在 {0.01,0.02,....,0.99} 上测试所有 tau。但是，
pytest - 什么是片状 : Hypothesis test produces unreliable results mean?
我正在使用假设 python 包进行测试。我收到以下错误: Flaky: Hypothesis test_visiting produces unreliable results: Falsifie
python - 如何查看 Hypothesis Python 库的 "Bundle"输出？ (状态测试)
当使用假设库并执行状态测试时，如何查看或输出库正在尝试我的代码的 Bundle“服务”？例子 import hypothesis.strategies as st from hypothesis.s

首页

博学

6Ren·AI

商城

Python-Hypothesis:指定和管理 NaN 值