gpt4 book ai didi

python - 通过python使用条件运算符分割文本文件

转载 作者:太空宇宙 更新时间:2023-11-03 19:08:20 25 4
gpt4 key购买 nike

我有一个巨大的文件,其中包含连续大约两天的过长转录语音。我猜超过 100,000 个单词。

在转录过程中,我通过“<-- 名称 -->”标记将演讲者和 session 分为不同的 block 。我的问题是,是否可以按照 name_speach.txt 的命名约定自动将它们处理成文件?

谢谢!!!

测试用例:

测试用例

<--测试0-->
这个是一段测试内容,a quick fox jumps over a lazy dog.

<——测试1——>
,a quick fox just over 啊 辣子 dog!!?是吗?

<——测试2——>
这是一段测试用的text,嗯!

<--Test case 3-->
/* sound track lost @153:12.236 -- 153.18.222 */

A quick fox jumps over a {lazy|lame} dog.

最佳答案

所以你想搜索文本文件中的每个模式“<-- Name -->”(我认为 100000 个单词对于计算机内存来说并不是很大)。

您可以使用正则表达式作为搜索标签。

在 Python 中,它类似于:

import re

NAMETAG = r'\<\-\- (?P<name>.*?) \-\-\>'

# find all nametags in your string
matches = re.findall(NAMETAG, yourtext)

offset_start_list = []
offset_end_list = []
name_list = []

for m in matches:
name = m.groups()['name']
name_list.append(name)

# find content offset after name tag
offset_start_list.append(m.end() + 1)

# the last content's end
offset_end_list.append(m.start())


offset_end_list.pop(0)
offset_end_list.append(len(yourtext))

for name, start, end in zip(name_list, offset_start_list, offset_end_list):
# save your files here

关于python - 通过python使用条件运算符分割文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13871292/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com