gpt4 book ai didi

nlp - Openrefine:按标记/字数拆分多值单元格?

转载 作者:行者123 更新时间:2023-12-01 01:45:40 33 4
gpt4 key购买 nike

我有大量的文本数据,我正在为 document classification with MALLET 进行预处理使用 openrefine .

一些单元格很长(> 150,000 个字符),我试图将它们分成 <1,000 个单词/标记段。

我可以使用按字段长度的“拆分多值单元格”将长单元格拆分为 6,000 个字符块,大致转换为 1,000 个单词/标记块,但它跨行拆分单词,所以我失去了一些数据。

有没有一个函数可以用来在每 6,000 个字符之后按第一个空格(“”)分割长单元格,或者更好的是,每 1,000 个单词分割一次?

最佳答案

这是我的简单解决方案:

转至 编辑单元格 -> 转换 并输入

value.replace(/((\s+\S+?){999})\s+/,"$1@@@")

这会将每 1000 个空格(连续的空格算作一个,如果它们出现在分割边界处被替换)替换为 @@@(您可以选择任何您喜欢的标记,只要它不出现在原始文本中)。

转至 编辑单元格 -> 拆分多值单元格 并使用标记@@@ 作为分隔符进行拆分。

关于nlp - Openrefine:按标记/字数拆分多值单元格?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49663436/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com