gpt4 book ai didi

erlang - Erlang 是网络爬虫的正确选择吗?

转载 作者:行者123 更新时间:2023-12-04 00:57:04 25 4
gpt4 key购买 nike

我计划为 NLP 项目编写一个网络爬虫,它每次在特定时间间隔内读取论坛的线程结构,并用新内容解析每个线程。通过正则表达式,提取新帖子的作者、日期和内容。然后将结果存储在数据库中。

用于爬虫的语言和平台必须符合以下条件:

  • 在多核和 cpu 上轻松扩展
  • 适合高 I/O 负载
  • 快速正则表达式匹配
  • 易于维护/很少的运营开销

  • 经过一些研究,我认为 Erlang 可能是一个合适的候选人,但我读到它在字符串处理(以及正则表达式匹配)方面不是很好。我对维护因素也没有任何经验。

    对于上述场景,Erlang 是一种很好的技术吗?如果没有,什么是一个好的选择?

    最佳答案

    我还在评估将 erlang 用作网络爬虫,目前它看起来不错。

    现有许多有用的模块:HTML parser , HTTP client , XPath , regex , cache .

    other people对相同的用例感兴趣,因此您可以向他们学习。

    但是,如果这只是一个一次性项目,我推荐 Python/Ruby/Perl,因为它更容易上手。

    关于erlang - Erlang 是网络爬虫的正确选择吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9152174/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com