gpt4 book ai didi

machine-learning - 机器学习敏感数据的混淆

转载 作者:行者123 更新时间:2023-11-30 08:44:17 25 4
gpt4 key购买 nike

我正在为我的学术兴趣准备一个数据集。原始数据集包含交易中的敏感信息,例如信用卡号客户电子邮件客户端 IP原籍国等等。我必须在这些敏感信息离开我的原始数据源并将其存储用于我的分析算法之前对其进行混淆。数据中的某些字段可以是分类的,并且不难混淆。问题在于非分类数据字段,我应该如何最好地混淆它们,以保持数据的基本统计特征完整,但又不可能(至少在数学上很难)恢复到原始数据。

编辑:我使用 Java 作为前端来准备数据。然后,准备好的数据将由 Python 处理以进行机器学习。

编辑2:解释我的场景,作为评论的后续内容。我的数据字段如下:

'CustomerEmail', 'OriginCountry', 'PaymentCurrency', 'CustomerContactEmail',
'CustomerIp', 'AccountHolderName', 'PaymentAmount', 'Network',
'AccountHolderName', 'CustomerAccountNumber', 'AccountExpiryMonth',
'AccountExpiryYear'

我必须混淆每个字段(数据样本)中存在的数据。我计划将这些字段视为特征(带有模糊数据),并根据二进制类标签(我用于训练和测试样本的标签)训练我的模型。

最佳答案

没有通用的方法来混淆非分类数据,因为任何处理都会导致信息丢失。您唯一能做的就是尝试列出最重要的信息类型以及留下它的设计转换。例如,如果您的数据是纬度/经度地理位置标签,您可以执行任何类型的距离保留转换,例如平移、旋转等。如果不够好,您可以将数据嵌入到较低维空间中,同时保留成对距离(这样的方法有很多)。一般来说 - 每种类型的非分类数据都需要不同的处理,并且每种类型都会破坏信息 - 由您来列出重要属性并找到保存它的转换。

关于machine-learning - 机器学习敏感数据的混淆,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31378669/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com