gpt4 book ai didi

.net - 如何抓取网站,客户端或服务器端?

转载 作者:行者123 更新时间:2023-11-30 13:43:47 25 4
gpt4 key购买 nike

我正在创建一个小书签按钮,当用户在他的浏览器中点击这个按钮时,它将抓取当前页面并从此页面获取一些值,例如价格、项目名称和项目图像。

这些字段是可变的,这意味着获取这些值的逻辑对于每个域“amazon、ebay”都是不同的。

我的问题是:

  • 我应该使用 javascript 抓取这些数据然后发送到服务器吗?
  • 或者只是将 URL 发送到我的服务器端,然后使用 .net 代码来抓取值?
  • 最好的方法是什么?为什么它更好?优点,缺点?

看看这个视频,你就会明白我到底想做什么http://www.vimeo.com/1626505

最佳答案

如果您想从另一个站点提取信息以用于您的站点(例如,用 ASP.NET 编写),那么您通常会在服务器端执行此操作,以便您拥有丰富的资源处理结果的语言(例如 C#)。您将通过 .NET 中的 WebRequest 对象执行此操作。

客户端处理的主要用途是使用 Javascript 提取信息以显示在您的网站上。一个例子是天气 channel 提供的脚本,用于在您的网站上显示一个小天气框或用于非常简单的操作,例如将页面添加到收藏夹。

更新:Amr 写道,他正在尝试重新创建一些流行的屏幕抓取软件的功能,这需要一些非常复杂的处理。 Amr,我会考虑创建一个使用 IE 浏览器对象来显示网页的应用程序 - 这非常简单。然后您可以直接拉取 InnerHTML(我想,自从我实现基于 IE 对象的程序以来已经有几年了)来检索页面的内容并发挥您的魔力。当然,您可以使用 WebRequest 对象(只需将浏览器对象中使用的 URL 传递给它),但这效率不高,因为它会第二次下载该页面。

这就是你想要的吗?

关于.net - 如何抓取网站,客户端或服务器端?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/718998/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com