csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"-6ren

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

转载作者：可可西里更新时间：2023-11-01 15:32:49

24

4

这是一个最佳实践问题。

我们的设置是一个 hadoop 集群，将(日志)数据存储在 hdfs 中。我们获取csv格式的数据，每天一个文件。在 hadoop 中对这些文件运行 MR 作业没问题，只要文件的“架构”(尤其是列数)不变即可。

但是，我们面临的问题是，我们要分析的日志记录最终会发生变化，因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为 json 格式而不是 csv。但是，这会增加(至少增加一倍)所需的存储空间。我们还遇到了 Apache Avro 和 Apache Parquet，并且刚刚开始对此进行研究。

欢迎就此问题提出任何想法和意见。

最佳答案

使用 Thrift 和 elephant bird (twitter lib) 来使用相关的文件输入/输出格式。

关于csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29915579/

24

4

0

文章推荐： hadoop - 您如何验证 Hive Metastore uri

文章推荐： hadoop - 使用 Spark Streaming 将非结构化数据持久化到 Hadoop

rust - 无法移出位于共享引用移动后面的 `*handle`，因为 `*handle` 具有类型
我想使用foreach 来等待线程终止。但是，出现以下错误，没有实现。请告诉我。 cannot move out of `*handle` which is behind a shared refer
error-handling - TYPO3 : How to handle missing typeNum?
如果在TypoScript中未配置给定的typeNum，则TYPO3将抛出Exception/CMS/1294587217。背景:从另一个系统迁移到TYPO3后，我们遇到了许多此类异常，因为在那里使
javascript - 如何禁用多 handle slider 中的 handle ？
我需要一个带有 2 个 handle 的 slider ，一个可拖动，另一个固定。我正在使用 Jquery UI slider 。这是我到目前为止尝试过的:http://jsfiddle.net/8K
c++ - 如何从文件“HANDLE”中获取一个“HANDLE”到包含目录？
给定文件的HANDLE(例如C:\\FolderA\\file.txt)，我想要一个函数，该函数会将HANDLE返回到包含的目录(在前面的示例中，它将是C:\\FolderA的HANDLE)。例如:
error-handling - 自动: How to implement Error-Handling in Script
我想通过Automic在Unix中检查文件。如果该文件不存在，则应切换主机并检查文件是否存在。问题是，我现在不执行错误处理。每当脚本对象正在处理并且找不到文件时，skript都会中止。我在skri
error-handling - 序言: Error Handling and Find Unique
鉴于: fruitid('Apple', 'Granny Smith', 1). fruitid('Apple', 'Cox', 2). fruitid('Pear', 'Bartlett', 3).
error-handling - 小门: Where to handle JDBC connection error
我有一个基于Spring的Wicket应用程序。有一个池化的数据源bean。现在，当MySQL死了时，我得到了带有堆栈跟踪的默认Wicket错误页面。我想处理这种情况，只允许某些页面完全显示(静
handle - kdb/q : Query multiple handles with hopen
我希望能够一次查询多个句柄，其中表格具有相同的格式，例如: 句柄:8000,8001,8003表:foo 想要做这样的事情: x:hopen `8000`8001`8003 x select from
error-handling - Swift 3 : handle custom error with if condition
我对在Swift 3中引发自定义异常有些困惑。在C++中，我可以执行此操作以立即停止方法中的进程，抛出错误并进行处理，而无需进一步进行操作。 void foo() { try {
error-handling - 由COM中的MSDN “recommended way of handling errors”混淆
我一直在阅读MSDN开发人员COM指南。但是this page上的代码令人困惑。在此处复制: The following code sample shows the recommended way o
error-handling - BAT : Parse Output File For Error Handling
我有一个计划的批处理文件每天都会启动的过程。如果有错误，我需要内置错误处理才能重启进程。所有这些在大多数情况下都有效，但是我每个月都会收到一次超时错误，所以这是不可避免的。该进程不会将错误级别输出到b
r - 在curl::curl_fetch_memory(url,handle=handle)中出错:从对等方接收数据时失败
我正在尝试从 chartlyrics API 获取歌词。我编写了一个可以运行但不能在循环内运行的 R 函数。我的脚本是: library(httr) library(RCurl) library(XM
c++ - libuv 事件循环 : prepare handle and check handle usage
在libuv事件循环中调用prepare handle callback和check handle callback的原因是什么？最佳答案 I/O 操作发生在这两者之间，因此您可能希望在阻塞 I/O
R - 安装包时出错 - curl::curl_fetch_memory(url, handle = handle) 中的错误:无法连接到服务器
我正在尝试在 R 中安装 BTYplus 包。 devtools::install_github("mplatzer/BTYDplus", dependencies=TRUE) library(BTY
error-handling - 串行连接中断时 “During handling of the above exception, another exception occurred”的无限循环
我有一个Arduino，可以使用pySerialTransfer库通过串行与Mac正常通信，并且可以运行数小时。然后是某种形式的串行中断-尽管一夜间发生时我一直无法确定原因，但只要从笔记本电脑上拔下A
error-handling - react Hook 和异步等待: Handling errors with Axios call
我是hooks和async/await的新手。我正在尝试处理Axios调用中的错误，并且不确定如何使用then/catch或try/catch处理我的API调用中的错误。在基于类的React中，我将
error-handling - VBscript : Verifying that a file has been completely copied/error handling
我正在尝试向脚本中添加一些内容，以便让我知道我复制的文件是否已被完全复制。基本上，我要压缩一堆文件，然后将它们发送到网络上的映射驱动器。然后，一旦文件被成功复制，我将脚本删除原始位置的文件。该脚本可
ios - 更改 UIBezierArc 颜色，当它的 handle 仅从 handle 内部或外部绘制时
我有一个圆形 slider ，其中绘制了一条贝塞尔弧，一个圆弧在 slider 的起点和终点有两个 handle ，圆弧是在圆形 slider 中绘制的。借助开始和结束 handle ，我可以沿着圆
c++ - 调用 handle 为 NULL 的 CloseHandle(handle) 是否安全
删除 NULL 指针是安全的。 int* p = NULL; delete p; // ok, secure 句柄是什么？ HANDLE h = NULL; CloseHandle(h
event-handling - 如果没有在 dojo.connect 期间返回的 "handle"，如何删除 dojo 连接事件？
如果您没有在 dojo.connect 期间返回的“句柄”，您如何删除 dojo 连接事件？我的示例涉及将一组事件动态分配给一组对象。 (为简单起见，事件是 onclick 和 ondblclick

首页

博学

6Ren·AI

商城

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"