gpt4 book ai didi

java - 清理 URL 以删除个人信息

转载 作者:行者123 更新时间:2023-12-01 15:22:51 25 4
gpt4 key购买 nike

是否存在从 URL 中识别和删除任何 PII 信息的规则?我希望它是通用的并处理我们可能在互联网上遇到的各种网址。

澄清:我有一个浏览互联网的人的网址列表,并希望从中删除 PII。

最佳答案

回答您在回复 snemarch 时重申的问题:

Yes I understand that. I meant what considerations I need to keep in mind to identify PII in urls? What are the various ways in which PII might occur in URls?

HTTP GET 信息可以通过多种不同的方式传输。有些(可能是大多数)看起来像这样:

example.com/form.php?key=value.

其他网站(包括 stackoverflow)可能会使用 URL 重写将链接“example.com/form/value”转换为等效链接:“example.com/form.php?key=value”。此 URL 重写完全依赖于服务器的配置,并且没有简单的方法来检测和剥离以这种方式呈现的 PII。

考虑到这一点,实际上没有办法 100% 从不同 URL 列表中删除所有 PII,因为此类信息可能无法从没有任何 PII 的 URL 中辨别出来。您至少可以删除绝对是 PII 的信息,例如“example.com/form.php?key=value”形式的 URL。我愿意打赌任何带有“=”的 URL 中都包含某种变量,并且应该被过滤。除此之外,您将必须手动解析列表的大部分内容。

根据列表有多大以及您对过滤它的认真程度,您可以研究流行产品的流行 mod_rewrite 方法并尝试在列表中匹配它们,抓取 URL 以确定有关 URL 的其他信息,并执行一些操作复杂且可能丑陋的算法试图猜测 URL 中的变量可能是什么 - 可能会考虑用户访问过的类似 URL 并比较 URL 的标记。给定 token 中文本略有不同的相似网址可能是变量,应该被过滤。

祝你好运!

关于java - 清理 URL 以删除个人信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10624173/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com