python - 如何在文本分割器(langchain)之后将代码分配给文件？-6ren

python - 如何在文本分割器(langchain)之后将代码分配给文件？

转载作者：行者123 更新时间：2023-12-02 22:47:45

27

4

我正在使用 Langchain 的 RecursiveCharacterTextSplitter 来分割 python 文件。这样做我会丢失哪个 block 属于哪个文件的信息。之后如何跟踪各个 block 并将其分配给文件名？

def index_repo(repo_url):

    os.environ['OPENAI_API_KEY'] = ""

    contents = []
    fileextensions = [
        ".py", ]


    print('cloning repo')
    repo_dir = get_repo(repo_url)

    print(repo_dir)

    for dirpath, dirnames, filenames in os.walk(repo_dir):
        for file in filenames:
            if file.endswith(tuple(fileextensions)):
                try:
                    with open(os.path.join(dirpath, file), "r", encoding="utf-8") as f:
                        contents.append(f.read())

                except Exception as e:
                    pass


    # chunk the files
    text_splitter =  RecursiveCharacterTextSplitter.from_language(language=Language.PYTHON, chunk_size=5000, chunk_overlap=0)
    texts = text_splitter.create_documents(contents)

    return texts

最佳答案

create_documents(texts: List[str], metadatas: Optional[List[dict]] = None) → List[Document]

在元数据中添加文件信息并将其传递给create_documents。

关于python - 如何在文本分割器(langchain)之后将代码分配给文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/77012240/

27

4

0

文章推荐： openai-api - OpenAI ChatGPT API - 使用传感器数据

文章推荐： python - 如何将 langchain 文档转换回字符串？

python - “langchain”不是一个包
尝试运行 langchain 的基本教程脚本时遇到此错误: ModuleNotFoundError: No module named 'langchain.llms'; 'langchain' is
python - “langchain”不是一个包
尝试运行 langchain 的基本教程脚本时遇到此错误: ModuleNotFoundError: No module named 'langchain.llms'; 'langchain' is
langchain:Prompt在手,天下我有
目录简介好的prompt 什么是prompt template 在langchain中创建prompt temp
python - 如何为使用 Langchain 的代理按特定顺序选择正确的工具？
我想我不明白代理如何选择工具。我有一个矢量数据库(Chroma)，其中嵌入了我希望代理首先查看的所有内部知识。然后，如果答案不在 Chroma 数据库中，它应该使用 OpenAI 用于训练的信息(外部
openai-api - Langchain 使用人工工具抛出解析响应错误
我正在尝试使用 langchain 代理为软件工程师生成一个月的面试计划。期望代理应该询问用户几个问题并制定计划。 import os from langchain.memory import Con
python - 如何将 langchain 文档转换回字符串？
我用 langchain 库构建了一个分割器函数，可以分割一系列 python 文件。在代码中的另一点，我需要将这些文档转换回 python 代码。只是我不知道该怎么做 def index_repo(
python - 如何在文本分割器(langchain)之后将代码分配给文件？
我正在使用 Langchain 的 RecursiveCharacterTextSplitter 来分割 python 文件。这样做我会丢失哪个 block 属于哪个文件的信息。之后如何跟踪各个 bl
chatbot - 如何使用 langchain 创建多用户聊天机器人
希望你做得很好。我根据以下 langchain 文档准备了一个聊天机器人: Langchain chatbot documentation 在上面的langchain文档中，提示模板有两个输入变量——
python - 如何在 Langchain 中传输代理的响应？
我在Python中使用带有Gradio接口(interface)的Langchain。我制作了一个对话代理，并尝试将其响应传输到 Gradio 聊天机器人界面。我查看了 Langchain 文档，但找
python - 如何使用 Langchain 获得更详细的结果来源
我正在尝试使用 Langchain 和特定 URL 作为源数据来整理一个简单的“带有来源的问答”。该 URL 由一个页面组成，其中包含大量信息。问题是 RetrievalQAWithSourcesC
chatbot - 如何使用 langchain 创建多用户聊天机器人
希望你做得很好。我根据以下 langchain 文档准备了一个聊天机器人: Langchain chatbot documentation 在上面的langchain文档中，提示模板有两个输入变量——
python - 如何在 Langchain 中传输代理的响应？
我在Python中使用带有Gradio接口(interface)的Langchain。我制作了一个对话代理，并尝试将其响应传输到 Gradio 聊天机器人界面。我查看了 Langchain 文档，但找
python - 如何使用 Langchain 获得更详细的结果来源
我正在尝试使用 Langchain 和特定 URL 作为源数据来整理一个简单的“带有来源的问答”。该 URL 由一个页面组成，其中包含大量信息。问题是 RetrievalQAWithSourcesC
python - 如何为使用 Langchain 的代理按特定顺序选择正确的工具？
我想我不明白代理如何选择工具。我有一个矢量数据库(Chroma)，其中嵌入了我希望代理首先查看的所有内部知识。然后，如果答案不在 Chroma 数据库中，它应该使用 OpenAI 用于训练的信息(外部
openai-api - Langchain 使用人工工具抛出解析响应错误
我正在尝试使用 langchain 代理为软件工程师生成一个月的面试计划。期望代理应该询问用户几个问题并制定计划。 import os from langchain.memory import Con
python - 如何将 langchain 文档转换回字符串？
我用 langchain 库构建了一个分割器函数，可以分割一系列 python 文件。在代码中的另一点，我需要将这些文档转换回 python 代码。只是我不知道该怎么做 def index_repo(
python - 如何在文本分割器(langchain)之后将代码分配给文件？
我正在使用 Langchain 的 RecursiveCharacterTextSplitter 来分割 python 文件。这样做我会丢失哪个 block 属于哪个文件的信息。之后如何跟踪各个 bl
SvelteKit:显示来自 Langchain 的聊天流 token
我正在开发一个使用 SvelteKit 和 Langchain 的项目。我想实现一个功能，我可以按下按钮并让 UI 在聊天流进入时显示它们的标记。但是，我当前使用表单操作的实现遇到了一些困难。这是我
python - 尝试跟踪 Langchain 中的代币使用情况时出现 ValueError
我正在关注langchain官方文档here中的本教程我是否尝试在使用时跟踪 token 的数量。但是，我想使用 gpt-3.5-turbo 而不是 text-davinci-003，因此我将使用的
python - 使用Vicuna + langchain + llama_index 创建自托管LLM模型
我想创建一个自托管的 LLM 模型，该模型将能够拥有我自己的自定义数据的上下文(就此而言，Slack 对话)。我听说 Vicuna 是 ChatGPT 的一个很好的替代品，所以我编写了以下代码: f

首页

博学

6Ren·AI

商城

python - 如何在文本分割器(langchain)之后将代码分配给文件？