- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我刚刚开始从网页上抓取基本文本,目前正在使用 HTMLAgilityPack C# 库。我在 rivals.yahoo.com 的 boxscores 上取得了一些成功(体育是我的爱好,所以为什么不抓取一些有趣的东西呢?)但我被困在 NHL 的比赛摘要页面上。我认为这是一个有趣的问题,所以我会把它贴在这里。
我正在测试的页面是: http://www.nhl.com/scores/htmlreports/20102011/GS020079.HTM
乍一看,这似乎是没有 ajax 或其他东西的基本文本,会把基本的抓取工具搞得一团糟。然后我意识到由于某些 javascript,我无法右键单击,所以我解决了这个问题。我右键单击 firefox 并使用 XPather 获取主队的 xpath,我得到:
/html/body/table[@id='MainTable']/tbody/tr[1]/td/table[@id='StdHeader']/tbody/tr/td/table/tbody/tr/td[3]/table[@id='Home']/tbody/tr[3]/td
当我尝试获取该节点/内部文本时,htmlagilitypack 找不到它。有没有人在页面的源代码中看到任何可能阻止我的奇怪内容?
我是新手,仍在学习人们如何阻止我进行抓取,非常感谢任何提示或技巧!
附注我遵守有关机器人等的所有站点规则,但我注意到这种奇怪的行为并将其视为挑战。
最佳答案
好的,看来我的 xpath 中有 tbody。当我从 xpath 中手动删除这些 tbody 时,HTMLAgilityPack 可以很好地处理它。
我仍然想知道为什么我得到无效的 xpath,但现在我已经回答了我的问题。
关于c# - 无法抓取 .HTM 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3984064/
我正在尝试从 htm 文件中获取查询字符串。但是,当我在 .htm url 末尾写入“?param=1”时 - 文件未加载,并且我在此页面中看不到任何内容 - 我得到的错误是:“文档语法不正确”。当我
我们的网站流量很大,当我们向应用程序部署更新时,应用程序服务将重新启动。重新启动大约需要 4-5 分钟,并且每个访问该页面的用户都会看到“应用程序服务不可用”消息。 在 wwwroot 中使用 app
我是 twisted 的新手,需要一些进步。我正在寻找一种方法来提供动态生成的文件而不是 htm 页面 - 例如 csv 文件。 编辑:碰巧的是,虽然 csv 文件更改“内容类型”就足够了,但我需要的
如何在保存图像时禁用保存图像并将后缀更改为.htm? 事实上,我需要在保存期间更改后缀,就像在这个网站上所做的那样:www.alexbuga.com 最佳答案 您链接到的网站使用图像作为背景,因此不是
我想将默认签名添加到从 Excel 中的用户表单发送的电子邮件的末尾。但是,由于正文是 HTML(出于我无法更改的原因)它没有显示的签名。 我有以下代码是 default.htm 签名的位置: str
我正在阅读的教程说要这样做,但我使用的网站都没有这样做。为什么不? 最佳答案 none of the websites I use [put .htm into urls] Why not? 简单的答
看到后Hanselman "You are doing it wrong" video我开始使用 Web Publish VS2010 的特性。 我真正缺少的是网站在发布时有时会出错,因为该功能不会复
如果您从 Visual Studio 中发布 Clickonce 应用程序,它将生成 publish.htm 。这似乎是 Visual Studio 生成的,如果应用程序是从命令行使用 msbuild
正如标题所说,如果我放置一个 app_offline.htm在应用程序根目录中,它会切断当前正在运行的请求,还是只是新的请求? 最佳答案 这是我的蹩脚实验;我使用以下代码创建了一个 ASPX 页面:
我的 Azure 应用服务上有一个 Umbraco 网站,并且运行良好。我想很好地关闭网站以进行一些维护,因此我添加创建了一个“app_offline.htm”文件,当我将其放在本地网站的根目录中(在
我正在尝试构造一个PowerShell脚本来检查文件夹中的文件扩展名,如果不重命名为.htm。事实证明,把这些放在一起比较困难。 我所拥有的是: New-Item -ItemType Director
我正在尝试将此 htm 文件发送到 Web 浏览器并让浏览器显示该文件的内容。当我运行我的代码时,所发生的只是浏览器显示 htm 文件的名称,而不显示其他内容。 try { B
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: how to use javascript to open a folder and list html f
我正在尝试诊断为什么在使用 IE 时尝试对 facebook 进行身份验证时出现空白弹出窗口。 首先,我想确保我的环境设置正确。我的网站根目录中没有 xd_receiver.htm。 问:xd_rec
我试图将粘性页脚居中但无济于事。这是我尝试过的: HTML:
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and t
我是 html 和 css 的新手,我的 .htm 文件如下所示: &nbs
我在使用以下代码时遇到问题,总是想加载 2 月份的页面而不是当前月份的页面。我没有看到任何问题,但希望有更好的 javascript 眼睛的人可以提供帮助。 基本上,代码非常简单。在页面加载时获取当前
普通的: http://labvc.x10hosting.com/AT/site/home.htm 对比 奇数: http://labvc.x10hosting.com/AT/site/home.ph
我刚刚开始从网页上抓取基本文本,目前正在使用 HTMLAgilityPack C# 库。我在 rivals.yahoo.com 的 boxscores 上取得了一些成功(体育是我的爱好,所以为什么不抓
我是一名优秀的程序员,十分优秀!