gpt4 book ai didi

rust - 如何在不重新分配的情况下将具有长度的 *const u8 转换为 &str?

转载 作者:行者123 更新时间:2023-12-05 08:12:19 29 4
gpt4 key购买 nike

我正在寻找实现此目标的最佳方式(希望是零成本):

fn to_str(str: *const u8, len: usize) -> Option<&str>;

len 是一个字符串的长度,它可以是也可以不是 null 终止的,str 是指向该字符串的指针。

我不想取得字符串的所有权,只需要将它作为 &str 传递。

最佳答案

Rust 的引用,例如 &strlifetime 相关联。此生命周期附加到拥有底层数据的值,通常是像 StringVec 或数组这样的容器。因此,要获得有效的 &str,您需要一个所有者。您不想获得数据的所有权,因为您不想复制它。然而,拥有并不意味着复制,它只是意味着对数据的变异和破坏承担全部责任。

要拥有由来自 C 的 malloc() 的指针表示的数据而不复制数据,您可以包装指针:

pub struct MyString {
data: *const u8,
length: usize,
}

impl MyString {
// safety: data must point to nul-terminated memory allocated with malloc()
pub unsafe fn new(data: *const u8, length: usize) -> MyString {
// Note: no reallocation happens here, we use `str::from_utf8()` only to
// check whether the pointer contains valid UTF-8.
// If panic is unacceptable, the constructor can return a `Result`
if std::str::from_utf8(std::slice::from_raw_parts(data, length)).is_err() {
panic!("invalid utf-8")
}
MyString { data, length }
}

pub fn as_str(&self) -> &str {
unsafe {
// from_utf8_unchecked is sound because we checked in the constructor
std::str::from_utf8_unchecked(std::slice::from_raw_parts(self.data, self.length))
}
}
}

impl Drop for MyString {
fn drop(&mut self) {
unsafe {
libc::free(self.data as *mut _);
}
}
}

这仅在使用 MyString::new() 构造包装器时需要不安全,因为它采用原始指针,其有效性无法在编译时检查。之后包装器给你 &str 你可以在没有任何不安全的情况下传递:

fn main() {
let raw_str = unsafe { libc::strdup(b"foo\0".as_ptr() as _) as *const u8 };
let s = unsafe { MyString::new(raw_str, 3) };
// from here on, it's all-safe code
let slice = s.as_str(); // now you get a slice to pass around
assert_eq!(slice, "foo");
}

Playground

如果您不希望MyString 释放数据,那么您可以简单地删除Drop 实现。在任何一种情况下,new() 都具有安全不变性,即当 MyString 处于事件状态时,不得释放数据。

C 字符串和 Rust &str 之间的最后一个区别是 Rust 字符串保证是 UTF-8,并且创建非 UTF-8 字符串(只能在不安全代码中完成)构成undefined behavior .这就是为什么 MyString::new()MyString::as_str() 需要验证字符串是否包含有效的 UTF-8。将检查放在 new() 中确保检查最多完成一次。您可以删除检查,但 new() 会得到另一个安全不变量,它不太可能被创建字符串的 C 代码遵守。

要表示任意二进制数据,您可以使用&[u8] 代替&str,或者使用类似bstr 的箱子这为您提供了具有 &str 所有便利的“字节字符串”,但不需要 UTF-8 要求。

关于rust - 如何在不重新分配的情况下将具有长度的 *const u8 转换为 &str?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70719073/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com