gpt4 book ai didi

python - 来自 Pandas Dataframe 的 Spacy 训练数据

转载 作者:行者123 更新时间:2023-12-05 07:18:19 26 4
gpt4 key购买 nike

我是 Python 的新手,目前正在努力将数据帧转换为 followinf 格式。

例如,我有以下数据框 (df1):

   fulltext                                   text       start    end     text1     start1  end1
0 Android Pay expands to Canada Canada 23 29 0 0 0
1 Google Maps launches location sharing Google 0 6 location 21 29

我试图从此数据框获得的输出:

[
("Android Pay expands to Canada", {"entities": [(23, 29, "entity")]}),
("Google Maps launches location sharing", {"entities": [(0, 6, "entity"), (21, 29, "entity")]}),
]

我试过:1)

List =  []
for index, rows in df1.iterrows():
my_list = [rows.start, rows.end]
List.append(my_list)
my_list.append('entity')
print(List)

得到如下输出:

[[23, 29, 'entity'], [0, 6, 'entity']]

2)转换成元组:

List_tuple = [tuple(l) for l in List]

输出:

[(23, 29, 'entity'), (0, 6, 'entity')]

但这只是“start”和“end”列((21, 29, “entity”) 缺失,因为它是 start1 和 end 1)。您能否建议我如何继续为 n 行(我有大量行)制作这种列表,如果列“start1”、“end1”、“start2”、“end2"等 - 将它们放在列表中(在字典中),如此处所示?

[
("Android Pay expands to Canada", {"entities": [(23, 29, "entity")]}),
("Google Maps launches location sharing", {"entities": [(0, 6, "entity"), (21, 29, "entity")]}),
]

非常感谢您的任何建议!我一直在努力,我不知道如何继续...

最佳答案

试试这个

df['fulltext'].apply(lambda x: (x,{'entities':[(0,len(x),'entity')]})).tolist()

这是部分解决方案。您可以将其扩展到您的实体

关于python - 来自 Pandas Dataframe 的 Spacy 训练数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58384390/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com