machine-learning - 清洗 NLP 任务的文本数据-6ren

machine-learning - 清洗 NLP 任务的文本数据

转载作者：行者123 更新时间：2023-11-30 09:33:28

今天早上，我一直在尝试在康奈尔电影对话语料库数据集上训练聊天机器人，但在清理文本数据以输入我的算法时遇到问题。这是文本文件的片段

L1045 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ They do not!
L1044 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ They do to!
L985 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ I hope so.
L984 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ She okay?
L925 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ Let's go.

L924+++$+++ u2+++$+++ m0+++$+++ 卡梅伦+++$+++ 哇我只对每句话最后部分的对话感兴趣。我怎样才能清理这个文件并使其成为 csv 文档？

数据集链接 http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

最佳答案

将所有行作为字符串进行迭代。

假设您有:

str = "+++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ They do not!"

你想输出“他们不!”

喜欢:

str.split("+++$+++ ")[-1]

这将为您提供所需的输出。一旦您获得了所需的字符串输出，请将它们逐行写入您的 .csv 文件中。

希望这有帮助。

关于machine-learning - 清洗 NLP 任务的文本数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50431776/

文章推荐： Java - 用户映射部分打开错误

文章推荐： java - 没有容器的 JAX-RS

文章推荐： java - 如何将 Java 中的 groovy 作为一个单独的进程运行？

文章推荐： java - ClassNotFoundException 仅当 JAR 已签名时

高防服务器中的“清洗”是什么意思
在IDC服务里，有不少专用名词，没有深入行业了解，往往会感觉不知所云。在高防服务器租用中，我们会看到高防服务器清洗这样的说法，“清洗”是指什么服务呢?清洗的又是什么内容? 高防服务器“清洗”一
sql - 清洗/操作大数据的解决方案(目前使用Stata)
我目前正在使用一个非常大的数据集(10 个变量，超过 300m 行)的 10% 样本，当以 .dta 格式存储完整数据集时，其数据量超过 200 GB。当在具有约 50G RAM 和多核的 UNIX
machine-learning - 清洗 NLP 任务的文本数据
今天早上，我一直在尝试在康奈尔电影对话语料库数据集上训练聊天机器人，但在清理文本数据以输入我的算法时遇到问题。这是文本文件的片段 L1045 +++$+++ u0 +++$+++ m0 +++$+++

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

machine-learning - 清洗 NLP 任务的文本数据