gpt4 book ai didi

nlp - 关于从 TripAdvisor 抓取数据的任何建议

转载 作者:行者123 更新时间:2023-12-01 18:50:03 27 4
gpt4 key购买 nike

我们目前正在开展一个 NLP 项目,需要一个旨在从 tripadvisor.com 中提取的语料库。我们期望输出有两种类型:评论和该评论的评级。我的问题是:

  • 有没有最适合此目的的抓取工具?一定要简单易用,最好是python。 Beautiful Soup 是我找到的,但我想在这里询问它是否有其他建议。

  • 是否有专门用于此目的的完整工具?我的意思是为 tripadvisor.com 编写的程序?

  • 任何其他有关从大型网站抓取数据(评论/评级)的建议将不胜感激。

该语料库将用于大学研究的情感分析,我们需要尽快抓取它。

最佳答案

对于python可以使用scrapy,这是一个熟练的爬虫框架,http://scrapy.org/

此外,我邀请您分享您收集的数据。如果 tripadvisor 数据已准备就绪,则无需进行抓取。或者至少,您可以共享爬虫脚本。

关于nlp - 关于从 TripAdvisor 抓取数据的任何建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14361493/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com