gpt4 book ai didi

java和nlp提取信息(恶意软件名称)和过滤

转载 作者:行者123 更新时间:2023-12-02 12:29:25 28 4
gpt4 key购买 nike

我一直在思考并研究一种自制算法,以从数据集中提取恶意软件名称。结果并不那么乐观。

我的数据集如下所示:

torrentlocker payment site
win32/somoto.e potentially unwanted
financial services;malicious sources/malnets;personal sites
tv/video streams;piracy/copyright concerns;entertainment;malicious sources/malnets
locky;malware;dark;stealing;infected

我想要的输出是:

torrentlocker payment site -> torrentlocker
win32/somoto.e potentially unwanted -> win32/somoto.e
financial services;malicious sources/malnets;personal sites -> null
tv/video streams;piracy/copyright concerns;entertainment;malicious sources/malnets -> null
locky;malware;dark;stealing;infected -> locky

总的来说,我认为可能有效的方法是提取具有含义的单词(版权、支付网站、不需要的......)。也许有一种简单的方法(比抓取在线词典更好)让所有单词都有意义,然后将它们与我的数据进行比较?我通过搜索发现NLP(自然语言处理)是一种方法。如果有更好的方法来做到这一点,我希望得到一些建议,特别是我更喜欢使用 Java。

最佳答案

您所描述的称为命名实体识别(NER)。有几个可用于 NER 的开源库,例如此处找到的斯坦福 NLP NER 系统 https://nlp.stanford.edu/software/CRF-NER.html 。这也是用 Java 编写的。

如果您可以组合一个相当大的训练集,您应该能够使用斯坦福大学的 NER 实现来训练模型。

关于java和nlp提取信息(恶意软件名称)和过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45351640/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com