python - 如何拆分数据集以训练/测试某些行依赖的地方？-6ren

python - 如何拆分数据集以训练/测试某些行依赖的地方？

转载作者：太空宇宙更新时间：2023-11-04 02:42:49

27

4

我有一个主题数据集，每个主题在我的 pandas 数据框中都有许多行(每个测量都是一行，一个主题可以测量几次)。我想将我的数据分成训练集和测试集，但我不能随机分割，因为所有受试者的测量值都是相关的(不能将同一受试者放入训练和测试中)。你会如何解决这个问题？我有一个 pandas 数据框，每个主题都有不同数量的测量值。

编辑:我的数据包括每行的主题编号，我希望拆分尽可能接近 0.8/0.2。

最佳答案

考虑带有 user_id 列的数据框 df 来识别用户。

df = pd.DataFrame(
    np.random.randint(5, size=(100, 4)), columns=['user_id'] + list('ABC')
)

您想要识别唯一用户并随机选择一些。然后拆分您的数据框，以便将所有测试用户放在一个中，将训练用户放在另一个中。

unique_users = df['user_id'].unique()
train_users, test_users = np.split(
    np.random.permutation(unique_users), [int(.8 * len(unique_users))]
)

df_train = df[df['user_id'].isin(train_users)]
df_test = df[df['user_id'].isin(test_users)]

这应该大致将您的数据分成 80/20。

但是，如果您希望尽可能保持平衡，则必须逐步添加用户。

unique_users = df['user_id'].unique()
target_n = int(.8 * len(df))
shuffled_users = np.random.permutation(unique_users)

user_count = df['user_id'].value_counts()

mapping = user_count.reindex(shuffled_users).cumsum() <= target_n
mask = df['user_id'].map(mapping)

df_train = df[mask]
df_test = df[~mask]

关于python - 如何拆分数据集以训练/测试某些行依赖的地方？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45980621/

27

4

0

文章推荐： python - 如何从 3 维表构建 Pandas 矩阵？

文章推荐： node.js - 如何在 res.render 函数中指定布局？

文章推荐： javascript - Node.js 什么时候使用异步有意义？

文章推荐： python - PyODBC 查询的 Unicode 问题

c# - 什么是学习泛型的最佳教程/地方
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
ios - 地方 api 给出内部错误
操作无法完成。 Places API 库中发生内部错误。如果您认为此错误代表错误，请使用我们社区和支持页面 (https://developers.google.com/places/support)
android - 地方 : No PlaceSelectionListener is set. 没有结果将被传递
我正在尝试在我的项目中使用 google places，我将其设置在 fragment 中而不是 Activity 中，我的自动完成 fragment 在 fragment 中。但是，当我尝试搜索它时
json - 带有 R 的 Google 地方
我的目的是使用R来查询google api。我有一个地址和名称列表(属于商店、餐馆等)，我需要为每个地址和名称存储: “纬度”、“经度”、“业务类型” 我的想法是使用 google place ap
javascript - 自动完成 Google 地方 API 不显示任何内容
我正在寻找设置一个自动完成的谷歌地方小部件。我有一个带有“searchFieldText”id 的输入类型文本。这是我的 JS 代码: var inputsec = document.getEle
Facebook 地方 API : is it possible to do a "near by" query?
是否可以使用图形 API(或地址/ zip )按纬度/经度和半径获取地点？我在文档中的任何地方都看不到它最佳答案搜索 URL 的以下格式将返回某个位置附近的地点列表: https://graph.
google-api - 哪些 Google 地方 API 查询结果允许存储在数据库中？
我正在探索 Google API，主要是 Places API。由于对 Google Places API 的请求数限制为 100,000，因此我正在寻找方法来最大限度地减少发送到 API 的请求数。
c# - 如何防止Directory.GetFiles到 "check"回收站等 "unsafe"地方？
伙计们，我在我的应用程序中有一个功能，可以使用 GetFiles 在特定目录中搜索特定文件。方法 System.IO.Directory.GetFiles(string path, string
php - Laravel 5.3 回归？在 Eloquent 地方
我已经在 Laravel 5.3 上使用 where 查询成功创建了许多函数，但是这次发生了一些奇怪的事情。 public function show($id){ $artikel = Art
ios - Facebook 地方 API : Is it possible to get the place picture?
我正在为我的 iPhone 应用程序使用 Facebook 图形 API 来获取附近地点的列表，我使用带有一些参数的“搜索”请求。我得到的响应是一个包含以下信息的地点列表:“纬度”、“经度”、“名称”
android - 地方 API 不工作。错误 : You must enable Billing on the Google Cloud Project
我有一个 Android 应用程序，我在其中使用 Google map 显示附近的地方，如加油站、药店等。我正在使用 map 和地点 API。 https://maps.googleapis.com/

首页

博学

6Ren·AI

商城

python - 如何拆分数据集以训练/测试某些行依赖的地方？