gpt4 book ai didi

Openrefine:通过计数对文本进行分面

转载 作者:行者123 更新时间:2023-12-03 09:12:51 27 4
gpt4 key购买 nike

我有一个巨大文件,主要由图书元数据(作者、标题、日期、网址)组成。我的问题是,我想对作者姓名(经常重复:一个作者可以有数百条记录)进行操作,并且我想对这些作者中拥有超过 X 条记录的子集进行操作。

例如,我有 200 条与“William Shakespeare”相关的记录,但只有 1 条与“John Black”等相关的记录。重点是,作为一个经典的幂律,我有数十万作者,其中大多数是他们有1-2条记录。

使用“文本方面”>“计数”是不可能的,因为我的计算机死机了。

是否有查询仅根据某些记录的计数来获取其文本方面?

最佳答案

使用以下 GREL 表达式创建自定义文本构面(将 COLUMNS_NAME 替换为您的实际列名称):

facetCount(value, "value", "COLUMN_NAME") > 100

您可以编辑比较(在示例中,每个计数都大于 100)。

要仅显示精确的计数匹配,您需要使用两个==,如下所示:

facetCount(值, "值", "COLUMN_NAME") == 100

有关此的更多详细信息 video + tutorail on facet by facet count

关于Openrefine:通过计数对文本进行分面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40378685/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com