gpt4 book ai didi

确定抓取内容类别的算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:17:17 28 4
gpt4 key购买 nike

我正在用食谱抓取几个网站,我真的不想尝试创建某种算法将食谱分为不同的类别。我想不能完全完美,但什么是最佳实践。我是否首先在数据库中创建静态类别,然后使用静态关键字创建另一个表,该表具有类别的外键,然后检查抓取的文本是否包含其中一个关键字,或者什么是正确的方法?

最佳答案

在我看来,您正在寻找的是一种分类算法,它通过预定义的食谱或食谱的属性来定义类(读取类别)。

实现这一点的一种方法是创建一个大型词典,该词典包含在指南、食谱甚至所有食谱的标题中。然后定义静态数量的类别(此方法不适用于可变数量的类别)并定义字典中的每个词在多大程度上预测包含该词的食谱属于该类别。

你可以通过让 100 个食谱手动告诉算法它们属于哪个类别,这样你的算法将创建这些食谱所具有的单词的权重(例如,包含单词“水果”的沙漠食谱将增加 future 包含“水果”一词的食谱被归类为沙漠食谱的机会。

然后当你的算法已经针对这 100 个食谱进行了校准(显然数字 100 可以更大或更小,虽然通常越大越好)你可以通过将已知的食谱插入算法来测试你的算法并查看算法获得的频率对的。您可以通过让算法从他的结果中学习来升级您的算法,但只要您对算法的准确性感到满意,就应该没问题。

关于确定抓取内容类别的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39533281/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com