rust - 数据融合中的索引-6ren

rust - 数据融合中的索引

转载作者：行者123 更新时间：2023-12-04 13:07:34

26

4

上下文:我正在使用 datafusion为 csv 文件输入构建数据验证器。

需求:我想在输出报告中添加错误发生的行号。在 Pandas 中，我有能力添加可用于此目的的行索引。有没有办法在数据融合中实现类似的结果。

最佳答案

在打开 CSV 文件后，似乎没有任何简单的方法可以在数据融合中执行此操作。但您可以直接使用 arrow 打开 CSV 文件。，生成一个包含索引列的新 RecordBatch，然后使用 MemTable 将其提供给数据融合。这是假设我们只处理一批的例子......

use datafusion::prelude::*;
use datafusion::datasource::MemTable;
use arrow::util::pretty::print_batches;
use arrow::record_batch::RecordBatch;
use arrow::array::{UInt32Array, Int64Array};
use arrow::datatypes::{Schema, Field, DataType};
use arrow::csv;

use std::fs::File;
use std::sync::Arc;

#[tokio::main]
async fn main() -> datafusion::error::Result<()> {


    let schema = Schema::new(vec![
        Field::new("a", DataType::Int64, false),
        Field::new("b", DataType::Int64, false),
    ]);
    
    let file = File::open("tests/example.csv")?;
    
    let mut csv = csv::Reader::new(file, Arc::new(schema), true, None, 1024, None, None);
    let batch = csv.next().unwrap()?;

    let length = batch.num_rows() as u32;
    let idx_array = UInt32Array::from((0..length).collect::<Vec<u32>>());
    let a_array = Int64Array::from(batch.column(0).as_any().downcast_ref::<Int64Array>().unwrap().values().to_vec());
    let b_array = Int64Array::from(batch.column(1).as_any().downcast_ref::<Int64Array>().unwrap().values().to_vec());
    let new_schema = Schema::new(vec![
        Field::new("idx", DataType::UInt32, true),
        Field::new("a", DataType::Int64, false),
        Field::new("b", DataType::Int64, false),
    ]);

    let new_batch = RecordBatch::try_new(Arc::new(new_schema),
        vec![Arc::new(idx_array), Arc::new(a_array), Arc::new(b_array)])?;
    let mem_table = MemTable::try_new(new_batch.schema(), vec![vec![new_batch]])?;
    
    let mut ctx = ExecutionContext::new();

    // create the dataframe
    let df = ctx.read_table(Arc::new(mem_table))?;

    let results = df.collect().await?;

    print_batches(&results).unwrap();

    // do whatever you need to do
    // do whatever you need to do
    // do whatever you need to do
    
    Ok(())
}

我的example.csv 看起来像这样......

a,b
1,2
1,3
4,2
2,6
3,7

输出应该是...

+-----+---+---+
| idx | a | b |
+-----+---+---+
| 0   | 1 | 2 |
| 1   | 1 | 3 |
| 2   | 4 | 2 |
| 3   | 2 | 6 |
| 4   | 3 | 7 |
+-----+---+---+

不过，如果你真的只是在寻找一个像 python 中的 pandas 这样的功能的箱子，我会敦促你结帐 polars .

关于rust - 数据融合中的索引，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68692580/

26

4

0

文章推荐：带有文字类型的 Scala 3 "a match type could not be fully reduced"

文章推荐： python - 在 Python 中绘制 3D 矢量场

文章推荐： c# - 创建 C# 类的对象有哪些不同的方法？

文章推荐： c++ - 如何在 C++ 中使用派生聚合的指定初始化？

rust - 使用来自 Rust 动态库的损坏的 Rust 函数
编辑备注由于 Rust(版本:1.42)仍然没有稳定的 ABI ，推荐使用extern (目前相当于extern "C"(将来可能会改变))否则，可能需要重新编译库。 This article解释如
rust - 我可以使用 Rust 词法分析器或解析器来检索 Rust 文件中的函数列表吗？
词法分析器/解析器文件位于 here非常大，我不确定它是否适合只检索 Rust 函数列表。也许我自己编写/使用另一个库是更好的选择？最终目标是创建一种执行管理器。为了上下文化，它将能够读取包装在函数
rust - Rust 中枚举的展平向量
我试图在 Rust 中展平 Enum 的向量，但我遇到了一些问题: enum Foo { A(i32), B(i32, i32), } fn main() { let vf =
rust - Rust 中的裸机自旋锁实现
我正在 64 位模式下运行的 Raspberry Pi 3 上使用 Rust 进行裸机编程。我已经实现了一个自旋锁，如下所示: use core::{sync::atomic::{AtomicBool
rust - Rust 如何用循环特征边界编译这个例子？
我无法理解以下示例是如何从 this code 中提炼出来的, 编译: trait A: B {} trait B {} impl B for T where T: A {} struct Foo;
rust - Rust 移动语义实际上是如何工作的
在我写了一些代码和阅读了一些文章之后，我对 Rust 中的移动语义有点困惑，我认为值移动后，它应该被释放，内存应该是无效的。所以我尝试写一些代码来作证。第一个例子 #[derive(Debug)]
rust - Rust 引用书中的问题
https://doc.rust-lang.org/reference/types/closure.html#capture-modes struct SetVec { set: HashSe
rust - Rust 是否支持具有运行时确定值的常量泛型类型？
考虑 const-generic 数据结构的经典示例:方矩阵。 struct Matrix { inner: [[T; N]; N] } 我想返回一个结构体，其 const 参数是动态定义的:
rust - Rust 中的引用分配
以下代码无法编译，因为 x在移动之后使用(因为 x 具有类型 &mut u8 ，它没有实现 Copy 特性) fn main() { let mut a: u8 = 1; let x:
rust - Rust 中只有一个变量名和一个分号的语句是什么意思？
我在玩 Rust，发现了下面的例子: fn main() { let mut x = [3, 4, 5].to_vec(); x; println!("{:?}", x); }
rust - Rust 宏可以跨版本共享吗？
假设一个 Rust 2018 宏定义了一个 async里面的功能。它将使用的语法与 Rust 2015 不兼容。因此，如果您使用 2015 版编译您的 crate，那么宏中的扩展代码不会与它冲突吗？
rust - Rust 中的泛化迭代方法
假设我有一些 Foo 的自定义集合s: struct Bar {} struct Foo { bar: Bar } struct SubList { contents: Vec, }
rust - Rust 如何结合它的多个生命周期？
代码如下: fn inner(x:&'a i32, _y:&'b i32) -> &'b i32 { x } fn main() { let a = 1; { let b
rust - Rust 中的生命周期如何为函数工作？
在lifetime_things的定义中，'b的生命周期比'a长，但实际上当我调用这个函数时，x1比y1长，但是这样可以编译成功: //here you could see 'b:'a means
rust - 无法将内值移出Arc rust
我正在尝试检索 FLTK-RS Widget 周围的 Arc Mutex 包装器的内部值: pub struct ArcWidget(Arc>); impl ArcWidget{ pub
rust - Rust 元组参数的执行顺序是什么？
如下代码所示，我想封装一个定时函数，返回一个闭包的结果和执行时间。 use tap::prelude::Pipe; use std::time::{Instant, Duration}; pub fn
rust - Rust:特征中的类型引用
我想实现自己的通用容器，这是我正在使用的特征的片段: pub trait MyVec where Self: Default + Clone + IntoIterator, Self:
rust - Rust:如何在功能链中使用await
所需代码: 注释掉的块可以编译并工作，但是我想从嵌套的匹配样式转变为更简洁的函数链 async fn ws_req_resp(msg: String, conn: PgConn) -> Result>
rust - rust 特质问题特质不能制成对象
我正在尝试编写一些代码，该代码将生成具有随机值的随机结构。对于结构，我具有以下特征和帮助程序宏: use rand::{thread_rng, Rng}; use std::fmt; pub trai
rust - Rust:Fn成员签名中使用的Struct泛型类型参数需要命名生命周期
我有一个带有函数成员的结构: struct Foo { fun: Box, } type FooI = Foo; 这不起作用: error[E0106]: missing lifetime s

首页

博学

6Ren·AI

商城

rust - 数据融合中的索引