- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
客观的
我正在构建数据湖,一般流程看起来像 Nifi -> Storage -> ETL -> Storage -> Data Warehouse。
Data Lake 的一般规则听起来像是在摄取阶段没有预处理。所有正在进行的处理都应该在 ETL 进行,因此您可以对原始和处理过的数据进行出处。
问题
源系统发送损坏的 CSV 文件。意味着除了标题和数据之外,第一行也是我们永远不会使用的自由格式元数据。只有单个表损坏,损坏的 CSV 目前由单个 Spark 作业使用(我们称之为 X
)。
题
在 Nifi 层删除这两行是一种好方法吗?请参阅“解决方法”中的选项 3。
解决方法
X
.恕我直言,这是不好的方法,因为我们将来会在不同的工具中使用该文件(数据治理模式爬虫,也许是 ADLS/S3 上的一些类似 Athena/ADLA 的引擎)。意味着应在多个地方实现损坏的记录处理逻辑。 最佳答案
首先,我认为你的问题很精彩,从你揭露心理过程的方式来看,我可以说你已经有了答案。
正如你提到的
The general rule for Data Lake sounds like no pre-processing on the ingestion stage.
A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.
The main challenge with a data lake architecture is that raw data is stored with no oversight of the contents. For a data lake to make data usable, it needs to have defined mechanisms to catalog, and secure data. Without these elements, data cannot be found, or trusted resulting in a “data swamp." Meeting the needs of wider audiences require data lakes to have governance, semantic consistency, and access controls.
Data lakes, therefore, carry substantial risks. The most important is the inability to determine data quality or the lineage of findings by other analysts or users that have found value, previously, in using the same data in the lake. By its definition, a data lake accepts any data, without oversight or governance. Without descriptive metadata and a mechanism to maintain it, the data lake risks turning into a data swamp.
关于architecture - 数据湖 : fix corrupted files on Ingestion vs ETL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61796267/
我有一个关于 Elasticsearch 策略的一般性问题。我们才刚刚起步,我们有一堆非结构化日志(30-40 个日志,~300GB 数据/周)。我对如何以最佳方式将这些数据导入 Elasticsea
我正在使用 java-api 从 CSV 中提取数据。我必须维护每个文档的主键。 Does marklogic provide any unique auto-generated id during
我正在使用filebeat-5.2,logstash-5.2和AWS Elastic Search Service-5.1。 在这里,我在logstash中定义了现有的grok模式 grok{ mat
我一直在努力从Windows IIS日志中将5亿个文档从kafka传输到elasticsearch。在运输过程的开始,一切都很好。 从Kafka-manager仪表板,我可以看到文档输出/字节的速度约
如果我有一个设置为追加的 Magritte 摄取,它是否会检测源数据中的行是否被删除?它还会删除摄取的数据集中的行吗? 最佳答案 对于关于是否检测到删除的第一个问题,这将取决于您从中提取的数据库实现(
我们正在使用来自事件中心源的流提取将数据提取到 ADX 表。 为了规划备份/灾难恢复能力,the documentation建议配置连续导出以从本地中断中恢复,并提供将数据恢复到另一个集群的可能性。
这听起来像是 this year-old issue 的重复但我想知道 BQ 团队是否对流式插入可能需要这么长时间有任何进一步的了解。 (我要花一个小时来处理仅仅 9K 行。) 不确定它是否相关,但我
客观的 我正在构建数据湖,一般流程看起来像 Nifi -> Storage -> ETL -> Storage -> Data Warehouse。 Data Lake 的一般规则听起来像是在摄取阶段
感谢这个recent question我现在确信我定义的表映射是正确的。 这适用于查询面板: .ingest inline into table pageEvents with (format="js
我是Elasticsearch的新手,对这两个术语感到困惑。 token 过滤器和摄取节点。它们都将 token 转换为另一种事物,例如小写 token 等,并且摄取节点也可以这样做。 谁能解释给我什
感谢这个recent question我现在确信我定义的表映射是正确的。 这适用于查询面板: .ingest inline into table pageEvents with (format="js
我有 3 个来自关系数据库的数据库 View ,它们作为 3 个集合被引入 MarkLogic。 这 3 个 View 是相互关联的。 我想加入这些数据,然后将其全部提取到一个非规范化集合中。 我可以
我正在寻找一种使用 Ingest Attachment Processor Plugin 的方法来自 Java 高级 REST 客户端。 看来您需要执行两个步骤,即首先定义一个包含附件处理器的管道(例
我有一个用例,我使用 gocql 驱动程序连续将数据批量摄取到 Scylla 中,在繁重的写入测试期间,我观察到 scyllas 写入响应延迟随着时间的推移而增加,有时它会导致 scylla 节点重新
众所周知,AWS Timestream 已于上周正式发布。 从那时起,我一直在尝试对它进行试验并了解它如何建模和存储数据。 我在将记录摄取到 Timestream 时遇到问题。 我有一些日期为 202
我想将图像从我的系统持续发送到 Azure 云,并使用 Azure 流分析在云上处理图像。 以下是我的要求: 将图像从客户端(我的桌面)持续发送到 Azure。 在云端对收到的图像运行我的机器学习算法
我正在使用ELK进行监视。几天前一切正常,突然停止工作。 请帮我解决问题。 错误日志: java.lang.IllegalArgumentException: Plugin [ingest-geoip
我有一个基于具有 17 个 TU 的标准层的 Azure 事件中心命名空间,它还可以自动膨胀最多 40 个 TU。它有 1 个事件中心实例和 12 个分区。 此 EH 每秒接收 2400 条消息,即
我正在执行以下操作来启动 codegen/服务器以进行回显打印! cd echoprint-server/solr/solr java -Dsolr.solr.home=/home/path/to/e
当我运行此代码时,它显示 KustoAuthenticationError: 无法获取云集群信息 https://clusterName.kusto.windows.net appId 是应用程序(客
我是一名优秀的程序员,十分优秀!