gpt4 book ai didi

python - 读取 rho 分隔文件

转载 作者:行者123 更新时间:2023-11-28 17:28:14 27 4
gpt4 key购买 nike

我正在尝试使用 Pandas 读取带分隔符的文件。分隔符是希腊字符,小写 rho (þ)。

我正在努力定义正确的 read_table 参数,以便正确格式化生成的数据框。

有没有人对此有任何经验或建议?

文件示例如下

时间+用户-ID+广告商-ID+订单-ID+广告-ID+创意-ID+创意-版本+创意-尺寸-ID+网站-ID+页面-ID+国家/地区-ID+州/省+浏览器-ID+浏览器-版本+OS-ID+DMA-ID+城市-ID+Zip-Code+Time-Site-Site-ID03-28-2016-00:50:03+0+3893600+7786669+298662779+67802437+1+300x250+1722397+125754620+68+30+0.0+501012+0+0+39122503-28-2016-00:24:29+0+3893600+7352234+290743769+55727503+1+1x1+1602646+117915815+68+31+0.0+501012+0+37+11+659+103-28-2016-00:13:42+0+3893600+7352234+290743769+55727503+1+1x1+1602646+117915815+68+31+0.0+501012+0+37+11+4259+203-28-2016-00:21:09+0+3893600+7352234+290743769+55727503+1+1x1+1602646+117915815+68+31+0.0+501012+0+3+p71118+14659

最佳答案

我认为发生的事情是 C 引擎在这里不工作。如果我们切换到更强大但更慢的 Python 引擎,它似乎表现得很好。例如,使用默认的 C 引擎:

>>> df = pd.read_csv("out.rsv",sep="þ")
>>> df.iloc[:,:5]
TimeþUser-IDþAdvertiser-IDþOrder-IDþAd-IDþCreative-IDþCreative-VersionþCreative-Size-IDþSite-IDþPage-IDþCountry-IDþState/ProvinceþBrowser-IDþBrowser-VersionþOS-IDþDMA-IDþCity-IDþZip-CodeþSite-DataþTime-UTC-Sec
0 03-28-2016-00:50:03þ0þ3893600þ7786669þ29866277...
1 03-28-2016-00:24:29þ0þ3893600þ7352234þ29074376...
2 03-28-2016-00:13:42þ0þ3893600þ7352234þ29074376...
3 03-28-2016-00:21:09þ0þ3893600þ7352234þ29074376...

但是对于 Python:

>>> df = pd.read_csv("out.rsv",sep="þ", engine="python")
>>> df.iloc[:,:5]
Time User-ID Advertiser-ID Order-ID Ad-ID
0 03-28-2016-00:50:03 0 3893600 7786669 298662779
1 03-28-2016-00:24:29 0 3893600 7352234 290743769
2 03-28-2016-00:13:42 0 3893600 7352234 290743769
3 03-28-2016-00:21:09 0 3893600 7352234 290743769

.. 但说真的,þ?您使用 þ 作为分隔符?谷歌给我的唯一搜索结果是“rho delimited file”都与这个问题有关!

请注意,您说的是小写的 rho,但对我来说它看起来像 thorn。也许您这边是小写的 rho 并且在发帖时弄糊涂了?

关于python - 读取 rho 分隔文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36797696/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com