gpt4 book ai didi

python - 如何处理句子中的换行符? - 斯帕西 NER

转载 作者:行者123 更新时间:2023-12-03 08:58:19 25 4
gpt4 key购买 nike

我正在尝试训练 spacy NER,并且收集了所有句子,但许多句子都嵌入了换行符“\n”,因此当我将训练数据输入我的 jupyter 笔记本时,它失败并出现错误

                 TRAIN_DATA = [('Who is 
^
SyntaxError: EOL when scanning string literal

我应该用这些做什么?

数据看起来像这样(

TRAIN_DATA = [('Who is 
Shaka Khan?', {'entities': [(7, 17, 'PERSON')]}),

最佳答案

Jupyter

如果问题出在 jupyter 中,您需要在位于多行的字符串周围放置 3 个 ' ,如下所示

string=""" This string has many lines
that continues here
and here """

在你的情况下是

TRAIN_DATA = [('''Who is 
Shaka Khan?''', {'entities': [(7, 17, 'PERSON')]})

如果我错了,请纠正我,但看起来您已经复制粘贴了数据,这就是为什么会发生这种情况。您只需删除换行符即可解决 Jupyter 中的问题。或者,我建议您将数据导入 Jupyter,而不是使用复制粘贴。

删除换行符

如果你想删除字符串中的换行符,有很多选项。这是一个

import re
string = re.sub('\n', '', string)

说明

  1. 行:导入正则表达式模块
  2. 行:使用方法“sub”将字符串中的第一个输入 '\n' 替换为 ''。

    输出:' 这个字符串有很多行在这里和这里继续 '

我猜测您可能正在使用 pandas,因此要在列上执行此操作,您可以执行以下操作:

df[col_name]=df[col_name].str.replace(r'^\n','')

关于python - 如何处理句子中的换行符? - 斯帕西 NER,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53236010/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com