gpt4 book ai didi

data-cleaning - Google 优化行和列之间的交叉引用

转载 作者:行者123 更新时间:2023-12-04 06:10:00 25 4
gpt4 key购买 nike

我不确定这是否可以在 Google Refine 中实现。但基本上,我有这样的数据。

enter image description here

enter image description here

第一个表是所有用户的表。第二张表显示了所有的 friend 。但是,在 "friends" 列的第二个表中,并不是所有的 id 都存在于我想要删除的第一个表中。那么,如何在第二个表的friends列中搜索每个id,并去掉表1中不存在的id?

最佳答案

将这两个表放在不同的项目中(我们称它们为Table1Table2)。

Table2friends 列中:

  • 使用“拆分多值单元格”将每个值放在单独的行上
  • 将 visitors 列转换为数字(或相反地将 Table1 中的 user_id 转换为字符串)
  • 使用带有表达式 cross(cell,'Table1','user_id').length()
  • 的“基于此列添加新列”

如果不匹配则返回 0,如果匹配则返回 1,如果表 1 中有重复则返回 N>1

如果您希望数据恢复为原始格式,请设置一个面来过滤有效性列,清空所有错误值,然后使用“加入多值单元格”来反转您之前所做的拆分操作.

我用 cross() 为 OpenRefine 2.6 修复了一些缓存错误,所以如果交叉不起作用,请尝试停止并重新启动 Refine 服务器。

关于data-cleaning - Google 优化行和列之间的交叉引用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14636919/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com