gpt4 book ai didi

language-agnostic - 有趣的NLP/机器学习风格项目——分析隐私政策

转载 作者:行者123 更新时间:2023-11-30 08:26:41 27 4
gpt4 key购买 nike

我想就分配给我的一个有趣问题提供一些意见。任务是分析数百个甚至数千个隐私政策并确定它们的核心特征。例如,他们是否获取用户的位置?他们是否与第三方共享/出售?等等。

我和一些人交谈过,阅读了很多有关隐私政策的内容,并且自己也思考过这个问题。这是我当前的攻击计划:

首先,阅读大量隐私内容并找到满足特定特征的主要“线索”或指标。例如,如果数百个隐私政策都有相同的内容:“我们将获取您的位置。”,则该行可能是 100% 确信该隐私政策包含获取用户位置的提示。其他线索对某个特征的置信度要小得多。例如,“位置”一词的存在可能会将用户位置存储的可能性增加 25%。

我们的想法是不断开发这些线索及其适当的置信区间,直到我可以高度自信地对所有隐私政策进行分类。这里可以与垃圾邮件捕获系统进行类比,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件。

我想问你们是否认为这是解决这个问题的好方法。您究竟会如何解决这样的问题?此外,是否有您推荐使用的特定工具或框架。欢迎任何意见。这是我第一次做一个涉及人工智能,特别是机器学习和NLP的项目。

最佳答案

The idea would be to keep developing these cues, and their appropriate confidence intervals to the point where I could categorize all privacy policies with a high degree of confidence. An analogy here could be made to email-spam catching systems that use Bayesian filters to identify which mail is likely commercial and unsolicited.

这是text classification 。鉴于每个文档有多个输出类别,它实际上是 multilabel classification 。标准方法是 manually label一组包含您想要预测的类/标签的文档,然后根据文档的特征训练分类器;通常是单词或 n-gram 出现次数或计数,可能由 tf-idf 加权。

流行的文档分类学习算法包括朴素贝叶斯和线性支持向量机,尽管其他分类器学习器也可能起作用。任何分类器都可以通过 one-vs.-rest 扩展为多标签分类器(OvR)构建。

关于language-agnostic - 有趣的NLP/机器学习风格项目——分析隐私政策,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9709293/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com