gpt4 book ai didi

c# - 从一堆网页中以编程方式提取结构化数据的最简单方法是什么?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:08:01 26 4
gpt4 key购买 nike

以编程方式从一堆网页中提取结构化数据的最简单方法是什么?

我目前正在使用我编写的 Adob​​e AIR 程序来跟踪一页上的链接并从后续页面中获取一部分数据。这实际上工作得很好,对于程序员我认为这(或其他语言)提供了一种合理的方法,可以根据具体情况编写。也许有一种特定的语言或库可以让程序员非常快速地做到这一点,如果是的话,我很想知道它们是什么。

是否存在任何工具可以让非程序员(例如客户支持代表或负责数据采集的人员)无需进行大量复制和粘贴即可从网页中提取结构化数据?

最佳答案

如果您在 Stackoverflow 上搜索 WWW::Mechanize & pQuery您将看到许多使用这些 Perl 的示例 CPAN模块。

但是,因为您提到了“非程序员”,那么也许 Web::Scraper CPAN 模块可能更合适?更多 DSL喜欢,所以对于“非程序员”来说可能更容易上手。

这是文档中用于从 Twitter 检索推文的示例:

use URI;
use Web::Scraper;

my $tweets = scraper {
process "li.status", "tweets[]" => scraper {
process ".entry-content", body => 'TEXT';
process ".entry-date", when => 'TEXT';
process 'a[rel="bookmark"]', link => '@href';
};
};

my $res = $tweets->scrape( URI->new("http://twitter.com/miyagawa") );

for my $tweet (@{$res->{tweets}}) {
print "$tweet->{body} $tweet->{when} (link: $tweet->{link})\n";
}

关于c# - 从一堆网页中以编程方式提取结构化数据的最简单方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1930290/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com