- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
问题 1:将元信息保存到数据框的最佳做法是什么?我知道以下编码实践
import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'
但正如这篇文章中所述Adding meta-information/metadata to pandas DataFrame这与应用“groupby、pivot、join 或 loc”等函数丢失信息的风险有关,因为它们可能返回“没有附加元数据的新 DataFrame”。
这是否仍然有效,或者同时对元信息处理进行了更新?为此目的对 pandas 进行子类化是好的编码实践吗?
问题 2:什么是替代编码实践?
我认为构建一个单独的对象不是很合适。使用 Multiindex 也不能说服我。可以说我想用带有收入的数据框划分带有价格的数据框。使用 Multiindices 会非常复杂。
#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)
# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
[['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]],
columns=e_index)
price.divide(earnings.values, level=1, axis=0)
在上面的例子中,我什至没有确保公司指数真的匹配。我可能需要调用 pd.DataFrame.reindex() 或类似的。在我看来,这不是一个好的编码习惯。
对于在我看不到的上下文中处理元信息的问题,是否有直接的解决方案?
提前致谢
最佳答案
虽然构建自定义对象不是您的首选,但它可能是您唯一可行的选择,并且具有极其灵活的显着优势。这是一个非常简单的示例:
df=pd.DataFrame({'stock': 'AAPL AAPL MSFT MSFT'.split(),
'price':[ 445.,455.,195.,205.]})
col_labels = { 'stock' : 'Ticker Symbol',
'price' : 'Closing Price in USD' }
这只是列标签的字典,但通常大多数元数据都与特定列相关。这是带有标签的示例数据:
df.rename(columns=col_labels)
# Ticker Symbol Closing Price in USD
# 0 AAPL 445.0
# 1 AAPL 455.0
# 2 MSFT 195.0
# 3 MSFT 205.0
好处是标签“持久化”,您基本上可以将它们应用于列是原始列的子集或超集的任何数据:
df.groupby('stock').mean().rename(columns=col_labels)
# Closing Price in USD
# stock
# AAPL 450.0
# MSFT 200.0
如果使用 attrs
属性,您可以获得一些有限的持久性:
df.attrs = col_labels
但它相当有限。对于通过 .copy()
、loc[]
或 iloc[]
派生的数据帧,它将持续存在,但对于 groupby 则不会()
。您当然可以重新附加到任何衍生数据框,例如,
df2.attrs = df.attrs
但如 documentation 中所述(或缺乏),这是一项实验性功能,可能会发生变化。似乎聊胜于无,也许以后会扩展。我找不到太多关于 attrs
的信息,但它似乎被初始化为一个空字典,并且只能是一个字典(或类似的),当然列表可以嵌套在顶部下方水平。
关于python - 如何处理与 Pandas 数据框关联的元数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39751807/
最终目标:我想要由 Git 跟踪的文件,但让这些文件对于所有分支都是相同的版本。如果您使用 gitignore 文件,则所有分支的文件都是相同的,但不幸的是不会被跟踪。当我跑 git push或类似的
我想从 PDF 文件中删除元数据。我已经尝试使用“exiftool”、“pdftk”和“qpdf”来删除元数据(建议的方法 - https://gist.github.com/hubgit/60783
AWS EC2 元数据从 EC2 提供了有关其自身的必要信息(废话!) - 是否有任何与 lambda 等效的信息。 我了解与 EC2 不同的 lambda 函数的 Multi-Tenancy 和短期
我正在使用 libavformat(即 C 库)将 MPEG4/H264 编码为 mp4 文件,我想在 MP4 文件中添加一些元数据,例如日期/时间。有人可以告诉我如何做到这一点吗? 谢谢。 最佳答案
有谁知道任何允许从 .jpg 图像中提取 java 元数据的类?或者可能是一些有用的代码? 谢谢! 最佳答案 我维护着一个库,正是这样做的。 https://github.com/drewnoakes
我尝试找出如何从媒体获取元数据有一段时间了,但到目前为止没有任何效果。我有类 Song,其中有 SimpleStringProperties,如标题、艺术家等。我尝试在类构造函数中为它们设置值: pr
我已经多次遇到这个问题,并且从不喜欢所选择的解决方案。假设您在数据库中有一个状态列表(作为一个简单的示例)。在您的代码隐藏中,您希望能够通过 ID 引用状态并通过 Intellisense 获得状态列
我在我的应用程序中使用 google 登录并从 google 获取用户个人资料信息。 我已经测试过,它在我这边工作正常,但苹果拒绝了它。我没有发现任何错误。 苹果拒绝原因:“Verify is you
我正在开发一个基于 MySQL 数据库的 Web 应用程序。我需要收集和分析使用情况和性能统计数据。统计数据将针对非技术人员。 如何实现此功能?您应该将我的问题视为编程问题,但如果您知道合适的工具或扩
我对如何保存表格行的元数据有疑问。 例如,我有一个表,其中包含有关图像 items_images 的数据。编号,整数(20)标题,VARCHAR(255)添加日期,DATETIME... 现在我想添加
我不明白为什么我必须在 list 中使用两个元数据元素才能开始运行我的 Google Maps API v2 项目。这些标签的用途是什么? 最佳答案 元数据是指有关数据的数据。 关于java -
如何获取 SharePoint 文档库中项目的内容类型列或元数据? 此链接提供了我不需要的文件属性 http://msdn.microsoft.com/en-us/library/microsoft.
我很确定这是可能的,只是不确定它的术语是什么以及如何去做。基本上,如果您右键单击任何文件并转到属性,然后转到摘要,您可以向文件添加评论等。 我想知道的是,您将如何从 C# 中有问题地执行此操作。此外,
在我的应用程序中,我正在从 Assets 库中检索 UIImage,该图像具有元数据。然后,该应用程序会调整图像大小并旋转图像,从而创建新图像。新图像没有预期的原始元数据,但如何在上传前将元数据添加回
Java 通过JDBC获得连接以后,得到一个Connection 对象,可以从这个对象获得有关数据库管理系统的各种信息,包括数据库中的各个表,表中的各个列,数据类型,触发器,存储过程等各方面的信息。
想知道是否有人知道扩展或配置 Breeze 以便服务器返回实体元数据中的附加信息的任何方法?我想使用这些附加数据来协助验证。 假设我有一个应用了一些数据注释的实体模型: public class Pe
我正在寻找将 MEF 用于我正在构建的应用程序的插件系统。我希望每个组件在(GUID)上都有一个我希望能够查找的标识符。但是,此 ID 在处理导出部件时也很有用。 有没有一种方法可以让我在导出的部分上
我对不完整的视频有疑问。例如上传失败的视频。如果您使用 ffmpeg -i 检查其元数据您将获得 1 小时的持续时间,但实际上只有 10mb 已上传到服务器,实际持续时间约为 7 分钟。查找这些视频
我在使用 FFmpeg 覆盖视频文件上的元数据时遇到了一些问题,这些文件之前已经添加了元数据(FFmpeg 也添加了以前的元数据)。 所以我使用ffmpeg -i path/to/video file
我有两个项目组想要加入: A B 使用常规连接会给我一个包含 4 个项目的集合: ServerA with Metadata A; ServerB with Metad
我是一名优秀的程序员,十分优秀!