gpt4 book ai didi

python - 如何提取具有非零列值的行?

转载 作者:行者123 更新时间:2023-11-28 21:32:28 25 4
gpt4 key购买 nike

给定一个像这样的 tsv 文件:

doc_id/query_id
1000001 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1000002 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

第一行是标题角色,以 doc_id/query_id 作为第一列标题,并使用来自 [1,150] 的 150 个整数。

值行由第一列中的 ID 和其他列中的零或一个组成。

目标是提取 ID 和非零列名称对,例如给定上面的两行数据,所需的输出是:

1000001 4
1000001 9
1000002 7
1000002 8

数据中有 800,000 行,因此我将避免使用 pandas 并使用 sframe,我已经尝试过:

import turicreate as tc
from tqdm import tqdm

df = tc.SFrame('data.tsv')

with open('ground_truth.non-zeros.tsv', 'w') as fout:
for i in tqdm(range(len(df))):
for j in range(1,151):
if df[i][str(j)]:
print(df[i]['doc_id/query_id', j)

是否有更简单的方法来提取非零值和行 ID?

Pandas 解决方案或其他数据框解决方案也受到赞赏!请说明限制(如果已知)和(如果有)=)

最佳答案

这是使用 stackquery 的 pandaic 方法:

(df.set_index('doc_id/query_id')
.stack()
.to_frame('tmp')
.query('tmp == 1')
.index
.values)

array([(1000001, '4'), (1000001, '9'), (1000002, '7'), (1000002, '8')],
dtype=object)

这是一种先优雅、后性能的方法。


您也可以从 numpy 开始,这是为了获得最佳性能。

arr = np.loadtxt(filename, skiprows=1, usecols=np.r_[1:151], dtype=int)
index = np.loadtxt(filename, skiprows=1, usecols=[0], dtype=int)

r, c = np.where(arr)
np.column_stack([index[r], c+1])

array([[1000001, 4],
[1000001, 9],
[1000002, 7],
[1000002, 8]])

关于python - 如何提取具有非零列值的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56436122/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com