java - 从外部网站获取数据(它的结构可能会改变)-6ren

java - 从外部网站获取数据(它的结构可能会改变)

转载作者：行者123 更新时间：2023-11-30 09:42:32

24

4

让我们从例子开始。有一个网站，据说它是 Twitter 的克隆版，名为 Tlitter。 Tlitter，就像推特一样，不断更新新内容(其中大部分只是垃圾，因此得名)。与 twitter 不同，没有 JSON/XML API 可以方便地获取内容。为了从中获取数据，您必须获取良好的旧 HTML 并解析它。这是获取该内容的唯一途径。

Titter 管理员有时会改变主意。他们可能会更改网站外观和 HTML 代码，从而导致提取数据的代码无法正常工作。您无法预测何时会进行更改。它可以每周制作一次，每月制作一次，也可能……永远不制作。

您创建了一个 Android 应用程序，它使用来自 Tlitter 的内容来补充来自其他来源(比如 Twitter)的内容。 Twitter 是至关重要的并且没有问题，因为它有一个很好的 api，但是当 Tlitter 停止工作时可能会让你头疼。假设 Twitter 为您提供商店价格，而 Tlitter 为您提供折扣。应用程序在没有 Tlitter 的情况下仍然可以正常运行，但有了 Tlitter，它会变得更好、更完整。

您不想仅仅为了修复所有与 Tlitter 相关的功能而发布新版本，因此您在 Google Appspot 上创建了一个应用程序，它充当您的应用程序和 Tlitter 之间的代理。如果 Tlitter 发生变化，您只需更新代理应用程序，所有用户都可以再次使用。

但是，您的应用程序越来越受欢迎，Google 改变了他们的定价政策，为 Appspot 引入了“实例小时数”。这两件事使您的应用几乎使用了所有免费配额。您不想为 Appspot 付费，您只需要以某种方式解决这个问题。

解决方案不止一种，而且可能没有完美的解决方案。我问你，你会如何解决这个问题？我的想法如下:

放弃代理应用程序的想法，在移动应用程序中处理所有内容
- 优点:Appspot 没问题
- 缺点:需要在 Tlitter 更改时更新应用，用户端的网络流量更多
在代理应用程序中缓存数据并尝试对其进行优化，或寻找更好的云服务
- 优点:更新没有问题，响应时间可能更快
- 缺点:如果应用程序继续流行，它最终将使用所有免费资源，无论是否进行了优化
结合两种解决方案。让应用程序维护一些 'Titter 结构定义文件”，在线托管。 Tlitter 的内容根据文件中指定的规则提取，应用程序检查(每天或每小时)该文件的更新。
- 优点:Tlitter 时间改变时无需更新应用
- 缺点:一个非常复杂的解决方案，目前我不知道如何实现它、可能的安全风险等。

提供的示例可能看起来很普通，但它几乎完美地模拟了我的问题。你会怎么解决？如果我能找到实现它的好方法，我会选择解决方案 1 或 3。

最佳答案

对于解决方案 3，您需要寻找一些可以更新的 DSL 或脚本语言。也许jsoup是一个很好的基地。您将加载一个包含选择器字符串 的文件来检索该数据。在下面的示例中(来自 jsoup 网页)，您实际上将从 Web 服务加载字符串 (#mp-itn b a)。

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

Jsoup 在 android 上直接运行。

关于java - 从外部网站获取数据(它的结构可能会改变)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8624718/

24

4

0

文章推荐： java - 如何将 Neo4j 与 Zest 连接起来？

文章推荐： r - ranger.forest 的组件含义

文章推荐： javascript - 访问在外部函数中定义的属性

Julia 变量消失/改变
我有以下MWE function f(p) ans = zeros(p, 2) return ans end ans = f(2) ans b=ans.+1.0 ans 起初，ans是正确的，
OWIN 改变 UseStatic？
OWIN AppBuilder“UseStatic”位从本地文件系统传送文件，这在某些情况下很方便，但我希望它从我在应用程序启动时预先填充的内存中 IDictionary 传送内容。任何人都可以指出一
Javascript 改变 Typeof
我是 JavaScript 新手。我的代码允许我列出 JSON 文档的元素及其类型，并将所有元素连接到一个字符串 donnees_types 中。问题是 JavaScript 中的 typeof
javascript - 背景图像 - 改变
我想在每次刷新时更改主页上的背景图像。我怎样才能做到这一点？我认为 jquery 是可能的，但我不太清楚。感谢您对此主题的任何帮助或评论。最佳答案我不知道“如何”，但我找到了以下链接: http
java - for循环中的除数值正在神秘地(？)改变
所以我已经在这上面花了几个小时了，老实说我完全陷入困境。我写了一个 for 循环来计算整数中的数字数量，但我发现一旦我输入 10 位以上的数字，除数值就会发生变化，而且我不明白为什么。我在互联网上搜索
java - 改变 Activity
当我在使用表面 View 的游戏 Activity 和使用膨胀菜单的其他 Activity 之间切换时，我会收到错误消息。日志猫: 07-13 15:15:34.464: ERROR/Android
改变 RGB 颜色的亮度
听说很简单 R*=f; G*=f; B*=f; 其中 f 是标量值 0 .. 1.0 或更大改变亮度的方法不太正确颜色，但我找不到一些代码片段获得更好的东西(无需太多学习色彩理论)也许有人可以在这里给
java - 改变 ThreadPoolExecutor
如以下链接所述:- How to get the ThreadPoolExecutor to increase threads to max before queueing? 我将队列实现更改为在进入
javascript - 改变 slotMinutes
我只显示最初提供 20 分钟 slotMinutes 的日历。我试图让用户即时更改为 10 分钟的 slotMinutes。我有一个触发以下代码的按钮: $('#calendar').fullCal
ios - 改变 UIViewController
我的问题是:我的应用程序中有一个新闻列表(UITableView)当我点击 1 个"new"时，我打开它，里面有一个后退按钮，可以让我回到列表。现在的问题是我必须在滑动时实现"new"更改，所以我制作
postgresql - 改变 pg_config
我面临着与 I'm trying to install psycopg2 onto Mac OS 10.6.3; it claims it can't find "stdarg.h" but I ca
javascript - 改变。通过基于索引数组进行过滤来显示数组中的可见属性
需要通过为 array2 中不存在的索引设置 visible false 来从 array1 创建一个新的 array3。在下面的示例中，我有索引 0,2。所以对于 1,3，结果数组必须具有 vis
JavaScript 改变 this 的所有权
我有一个对象，类似这样 var Egg = function(){ this.test = $(.slider .label); $('.slider').slider({
swift - 改变 NSLayoutConstraint
我想改变 ScrollView 的宽度。首先，我这样做了: var scrollWidthConstraint: NSLayoutConstraint! 然后设置它: scrollWidthConst
javascript动画后不透明度有时会(随机)改变
我有两个动画，一个是“过渡”，它在悬停时缩小图像，另一个是 animation2，其中图像的不透明度以周期性间隔重复变化。我有 animation2 在图像上进行，当我将鼠标悬停在它上面时，anim
jQuery 改变 id!
我是一个 jQuery 新手，一直在尝试添加一个脚本来更改 div onClick 的 id。这是一个jsfiddle example . $(function accept() { $("
改变 C 中字母的大小写？
我正在尝试更改用户输入的字母的大小写，并将该字母的小写和大写版本存储在变量中。我已经编写了下面的代码，但它在运行时遇到了问题。有人指出是什么导致了问题吗？ #include #include #i
改变 char* 指向几位偏移量
假设我有这段代码: char num[2] = {15, 240}; char* p_num; 现在，如果我理解的一切正确，数组中的位应该像这样对齐: 00001111 11110000 我的问题是
JavaScript 改变 css
var html = '' + count + '' + i.Description + '' + i.Priority + '' + i.Status + 'johnsmith- ' + creat
改变 Minix3 的优先级队列
我在虚拟机上安装了 minix3，并希望我可以操纵当前的队列选择算法，以便我可以将其从优先级顺序更改为包括随机分类的低优先级作业的优先级顺序。我发现我需要更改的代码部分在 proc.c 中，具体部分是

首页

博学

6Ren·AI

商城

java - 从外部网站获取数据(它的结构可能会改变)