gpt4 book ai didi

url - 来自 URL 的内容分类

转载 作者:行者123 更新时间:2023-12-04 16:01:53 27 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

6年前关闭。




Improve this question




给定 n 个原始 URL,我希望能够通过以下方式对它们进行分类:
新闻、博客、照片和视频。

一个例子是,如果链接将用户定向到照片,是否足以说原始链接包含图像的文件扩展名,以便能够将原始 URL 归类为照片?

至于视频、博客和新闻,似乎只有一组域(如 http://www.youtube.com )来对原始 URL 进行分类是不够的。

可以通过检查网络内容来进行分类吗?或者是否有任何开源工具?

最佳答案

唯一可能在某种程度上可靠分类的 URL 是那些指向不同媒体的 URL(即 http://foo.com/foo.jpg 肯定是一个图像)。否则,您必须分析页面的内容。

这可能有点棘手,因为 Flash 可能包含照片、视频或两者都不包含,而没有提供有关 Flash 对象内容的任何可搜索线索。通过足够的努力,这显然可以克服(谷歌做到了!),但我不知道有任何开源资源提供了与媒体相关的域库。这些数据来自无数程序员小时的努力——这种努力通常寻求投资返回 (ROI)。例如,ClueWeb09只是一个下载页面的数据集,用于测试搜索算法——没有真正排序或分类。

“有时没有帮助就是答案。”

关于url - 来自 URL 的内容分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5024704/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com