gpt4 book ai didi

结构体中的 Rust 生命周期范围

转载 作者:行者123 更新时间:2023-12-03 11:30:03 25 4
gpt4 key购买 nike

所以,我正在将我用 Python 编写的字符串标记器移植到 Rust,我遇到了一个问题,我似乎无法通过生命周期和结构来解决。

所以,这个过程基本上是:

  • 获取文件数组
  • 将每个文件转换为 Vec<String>代币
  • 用户 a CounterUnicase从每个 vec 中获取单个 token 实例的计数
  • 将该计数与其他一些数据一起保存在结构中
  • ( future )对结构集进行一些处理以在每个文件数据旁边累积总数据

  • struct Corpus<'a> {
    words: Counter<UniCase<&'a String>>,
    parts: Vec<CorpusPart<'a>>
    }

    pub struct CorpusPart<'a> {
    percent_of_total: f32,
    word_count: usize,
    words: Counter<UniCase<&'a String>>
    }

    fn process_file(entry: &DirEntry) -> CorpusPart {
    let mut contents = read_to_string(entry.path())
    .expect("Could not load contents.");

    let tokens = tokenize(&mut contents);
    let counted_words = collect(&tokens);

    CorpusPart {
    percent_of_total: 0.0,
    word_count: tokens.len(),
    words: counted_words
    }
    }

    pub fn tokenize(normalized: &mut String) -> Vec<String> {
    // snip ...
    }

    pub fn collect(results: &Vec<String>) -> Counter<UniCase<&'_ String>> {
    results.iter()
    .map(|w| UniCase::new(w))
    .collect::<Counter<_>>()
    }


    但是,当我尝试返回 CorpusPart 时它提示它试图引用一个局部变量 tokens .我可以/应该如何处理这个问题?我尝试添加生命周期注释,但无法弄清楚......

    基本上,我不再需要 Vec<String> ,但我确实需要一些 String s 里面有柜台。

    任何帮助表示赞赏,谢谢!

    最佳答案

    这里的问题是你扔掉了 Vec<String> ,但仍然引用其中的元素。如果您不再需要 Vec<String> ,但仍然需要里面的一些内容,你必须将所有权转让给其他东西。

    我想你想要 CorpusCorpusPart两者都指向相同的字符串,因此您不会不必要地复制字符串。如果是这种情况,请选择 CorpusCorpusPart必须拥有该字符串,以便不拥有该字符串的一方引用另一方拥有的字符串。 (听起来比实际更复杂)

    我将承担 CorpusPart拥有字符串,并且 Corpus只指向那些字符串

    use std::fs::DirEntry;
    use std::fs::read_to_string;

    pub struct UniCase<a> {
    test: a
    }

    impl<a> UniCase<a> {
    fn new(item: a) -> UniCase<a> {
    UniCase {
    test: item
    }
    }
    }

    type Counter<a> = Vec<a>;

    struct Corpus<'a> {
    words: Counter<UniCase<&'a String>>, // Will reference the strings in CorpusPart (I assume you implemented this elsewhere)
    parts: Vec<CorpusPart>
    }

    pub struct CorpusPart {
    percent_of_total: f32,
    word_count: usize,
    words: Counter<UniCase<String>> // Has ownership of the strings
    }

    fn process_file(entry: &DirEntry) -> CorpusPart {
    let mut contents = read_to_string(entry.path())
    .expect("Could not load contents.");

    let tokens = tokenize(&mut contents);
    let length = tokens.len(); // Cache the length, as tokens will no longer be valid once passed to collect
    let counted_words = collect(tokens);

    CorpusPart {
    percent_of_total: 0.0,
    word_count: length,
    words: counted_words
    }
    }

    pub fn tokenize(normalized: &mut String) -> Vec<String> {
    Vec::new()
    }

    pub fn collect(results: Vec<String>) -> Counter<UniCase<String>> {
    results.into_iter() // Use into_iter() to consume the Vec that is passed in, and take ownership of the internal items
    .map(|w| UniCase::new(w))
    .collect::<Counter<_>>()
    }


    我别名 Counter<a>Vec<a> ,因为我不知道您使用的是什么计数器。

    Playground

    关于结构体中的 Rust 生命周期范围,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61316003/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com