gpt4 book ai didi

algorithm - 在文档中查找个人信息(难题)

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:03:19 25 4
gpt4 key购买 nike

我的任务是尝试创建一个从文本文档中删除个人信息的自动化系统。

电子邮件、电话号码相对容易删除。名字不是。这个问题很难,因为文档中有需要保留的名称(例如,引用资料、名人、人物等)。需要从内容中删除作者姓名(也可能有多个作者)。

目前我想到了以下几点:

  • 个人姓名通常位于文档的开头
  • 查看姓名在文档中的使用频率(人名往往只写一次)
  • 搜索名字周围的词以找到模式(提及大学等...)

有什么想法吗?有人已经解决了这个问题吗??

最佳答案

使用当前技术,不可能以完全自动化的方式以低错误率执行您所描述的操作。

或许可以想出一个近似解,但它仍然会产生很多错误......要么是误报,要么是漏报,要么是两者的某种组合。

如果您仍然下定决心要尝试,我认为最好的方法是贝赛尔过滤 (as used in spam filtering)。这样做的原因是它非常擅长根据单词的相对位置和频率分配概率,并且还可以了解哪些名字更有可能/不太可能是名人等。

关于algorithm - 在文档中查找个人信息(难题),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5027801/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com