gpt4 book ai didi

google-api - Google Cloud 数据丢失防护 (DLP) 扫描 GCS 中的 .parquet 文件

转载 作者:行者123 更新时间:2023-12-03 16:53:22 27 4
gpt4 key购买 nike

我是 Google Cloud DLP 的新手,我运行了一个 POST https://dlp.googleapis.com/v2beta1/inspect/operations扫描 Google Cloud Storage 目录中的 .parquet 文件并使用 cloudStorageOptions 保存 .csv 输出。

.parquet 文件是 53.93 M。

当我对 .parquet 文件进行 API 调用时,我得到:

"processedBytes": "102308122",
"infoTypeStats": [{
"infoType": {
"name": "AMERICAN_BANKERS_CUSIP_ID"
},
"count": "1"
}, {
"infoType": {
"name": "IP_ADDRESS"
},
"count": "17"
}, {
"infoType": {
"name": "US_TOLLFREE_PHONE_NUMBER"
},
"count": "148"
}, {
"infoType": {
"name": "EMAIL_ADDRESS"
},
"count": "30"
}, {
"infoType": {
"name": "US_STATE"
},
"count": "22"
}]

当我将 .parquet 文件转换为 .csv 时,我得到了一个 360.58 MB 的文件。然后,如果我对 .csv 文件进行 API 调用,我会得到:

"processedBytes": "377530307",
"infoTypeStats": [{
"infoType": {
"name": "CREDIT_CARD_NUMBER"
},
"count": "56546"
}, {
"infoType": {
"name": "EMAIL_ADDRESS"
},
"count": "372527"
}, {
"infoType": {
"name": "NETHERLANDS_BSN_NUMBER"
},
"count": "5"
}, {
"infoType": {
"name": "US_TOLLFREE_PHONE_NUMBER"
},
"count": "1331321"
}, {
"infoType": {
"name": "AUSTRALIA_TAX_FILE_NUMBER"
},
"count": "52269"
}, {
"infoType": {
"name": "PHONE_NUMBER"
},
"count": "28"
}, {
"infoType": {
"name": "US_DRIVERS_LICENSE_NUMBER"
},
"count": "114"
}, {
"infoType": {
"name": "US_STATE"
},
"count": "141383"
}, {
"infoType": {
"name": "KOREA_RRN"
},
"count": "56144"
}],

显然,当我扫描 .parquet 文件时,与在 .csv 文件,我在其中验证了是否检测到所有 EmailAddresses

我找不到任何关于压缩文件(例如 parquet)的文档,所以我假设 Google Cloud DLP 不提供此功能。

如有任何帮助,我们将不胜感激。

最佳答案

Parquet 文件目前被扫描为二进制对象,因为系统还不能智能地解析它们。在 V2 api 中,支持的文件类型在此处列出 https://cloud.google.com/dlp/docs/reference/rpc/google.privacy.dlp.v2#filetype .

关于google-api - Google Cloud 数据丢失防护 (DLP) 扫描 GCS 中的 .parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46008802/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com