- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
作为基于 Laravel 的应用程序的一部分,我正在尝试编写一个 PHP 脚本来获取某些数据,这些数据不断更新,来自在网络上谈论某些产品,确切地说是书籍。
书籍由 ISBN 标识,ISBN 是一个 10 位数字标识符。前 9 位可以是 0-9,而最后一位可以是 0-9 或 X。但是,最后一位是根据前 9 位计算的校验位,因此实际上只有 1 位可能的数字最后一个地方。
既然如此,我们得出:
10*10*10*10*10*10*10*10*10*1 = 1,000,000,000
数字正确的 ISBN。如果我将搜索限制在英语书籍上,我可以做得更好,因为它们的第一个数字只包含 0 或 1。因此我会得到:
2*10*10*10*10*10*10*10*10*1 = 200,000,000
数字正确的 ISBN。
现在对于每个 ISBN,我有 3 个http 请求来获取数据,每个请求大约需要 3 秒才能完成。因此:
3seconds*3requests*200,000,000ISBNs = 1,800,000,000 seconds
1,800,000,000seconds/60seconds/60minutes/24hours/365days = ~57 years
希望在57年后,不再有书这种东西,这个算法也将过时。
实际上,由于我关注的数据在不断变化,要使该算法有用,它必须在短短几天内完成每次传递(理想情况下为 2 - 7 天)。
那么问题是如何优化这个算法,让它的运行时间从 57 年缩短到只有一周?
1) 您会注意到的第一件事是,虽然有 200,000,000 个可能的 ISBN,但实际存在的 ISBN 几乎没有那么多,这意味着该算法的大多数将 < strong>花时间对错误的 ISBN 进行http 请求(我可以在第一次失败的 http 请求后转到下一个 ISBN,但仅此一项并不能显着缩短时间)。因此,解决方案 1 将是获取/购买/下载一个已经包含正在使用的 ISBN 列表的数据库,从而显着减少要搜索的 ISBN 数量。 p>
我对解决方案 1 的问题是不断有新书出版,我希望算法再次运行时能找到新书。使用现有书籍的数据库只适用于创建数据库时最新的书籍。 (一个潜在的解决方案是不断更新他们的数据库并让我每周下载一次的服务,但这似乎不太可能,而且我真的希望通过编程来解决这个问题!)
2) 虽然此算法需要很长时间才能运行,但大部分时间它实际上只是闲置等待 http 响应。因此,一种选择似乎是使用线程。
如果我们算一下,我认为等式应该是这样的:
(numISBNs/numThreads)*secondsPerISBN = totalSecondsToComplete
如果我们隔离 numThreads:
numThreads = (numISBNs * secondsPerISBN) / totalSecondsToComplete
如果我们的阈值是一周,那么:
totalSecondsToComplete = 7days * 24hrs * 60min * 60sec = 604,800seconds
numISBNs = 200,000,000
secondsPerISBN = 3
numThreads = (200,000,000 * 3) / 604,800
numThreads = ~992
因此 992 线程必须同时运行才能工作。这是在 DigitalOcean 服务器上运行的合理数量的线程吗?我的 mac 现在说它运行了 2000 多个线程,所以这个数字实际上是可以管理的。
1) 992 是否是在 DigitalOcean 服务器上运行的合理数量的线程?
2) 由于每个 http 请求都完全独立于任何其他请求,是否有更有效的方法来异步执行此算法?在等待所有 http 请求返回时,让 CPU 保持忙碌的最佳方法是什么?
3) 是否有我应该寻找的特定服务可能有助于实现我正在寻找的目标?
最佳答案
保留一个ISBN的DB,不断爬取保持更新,类似于google所有网页
分析ISBN生成逻辑,尽量避免获取不可能的ISBN
在爬行级别,您不仅可以拆分成不同的线程,还可以将它们拆分为多个服务器,每个服务器都可以访问数据库服务器,该服务器专用于数据库,不会因爬行而产生开销
如果可以提高性能,您也可以使用某种网络缓存,例如谷歌缓存或网络存档
对于 Web 服务来说 3 秒很多,您确定没有可以在更短时间内回答您的服务吗?搜索一下,也许
如果你设法列出某个日期所有出版的书籍,你可以尝试只抓取该日期的新书,通过只找到它们的一些来源,这种刷新会比搜索任何书籍快得多
关于php - 优化具有大量线程的 PHP 算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34906425/
我在 JavaScript 文件中运行 PHP,例如...... var = '';). 我需要使用 JavaScript 来扫描字符串中的 PHP 定界符(打开和关闭 PHP 的 )。 我已经知道使
我希望能够做这样的事情: php --determine-oldest-supported-php-version test.php 并得到这个输出: 7.2 也就是说,php 二进制检查 test.
我正在开发一个目前不使用任何框架的大型 php 站点。我的大问题是,随着时间的推移慢慢尝试将框架融入应用程序是否可取,例如在创建的新部件和更新的旧部件中? 比如所有的页面都是直接通过url服务的,有几
下面是我的源代码,我想在同一页面顶部的另一个 php 脚本中使用位于底部 php 脚本的变量 $r1。我需要一个简单的解决方案来解决这个问题。我想在代码中存在的更新查询中使用该变量。 $name)
我正在制作一个网站,根据不同的情况进行大量 PHP 重定向。就像这样...... header("Location: somesite.com/redirectedpage.php"); 为了安全起见
我有一个旧网站,我的 php 标签从 因为短标签已经显示出安全问题,并且在未来的版本中将不被支持。 关于php - 如何避免在 php 文件中写入
我有一个用 PHP 编写的配置文件,如下所示, 所以我想用PHP开发一个接口(interface),它可以编辑文件值,如$WEBPATH , $ACCOUNTPATH和 const值(value)观
我试图制作一个登录页面来学习基本的PHP,首先我希望我的独立PHP文件存储HTML文件的输入(带有表单),但是当我按下按钮时(触发POST到PHP脚本) )我一直收到令人不愉快的错误。 我已经搜索了S
我正在寻找一种让 PHP 以一种形式打印任意数组的方法,我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the max key size for an array in PHP? 正如标题所说,我想知道
我正在寻找一种让 PHP 以一种形式打印任意数组的方法,我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
我在 MySQL 数据库中有一个表,其中存储餐厅在每个工作日和时段提供的菜单。 表结构如下: i_type i_name i_cost i_day i_start i_
我有两页。 test1.php 和 test2.php。 我想做的就是在 test1.php 上点击提交,并将 test2.php 显示在 div 中。这实际上工作正常,但我需要向 test2.php
我得到了这个代码。我想通过textarea更新mysql。我在textarea中回显我的MySQL,但我不知道如何更新它,我应该把所有东西都放进去吗,因为_GET模式没有给我任何东西,我也尝试_GET
首先,我是 php 的新手,所以我仍在努力学习。我在 Wordpress 上创建了一个表单,我想将值插入一个表(data_test 表,我已经管理了),然后从 data_test 表中获取所有列(id
我有以下函数可以清理用户或网址的输入: function SanitizeString($var) { $var=stripslashes($var); $va
我有一个 html 页面,它使用 php 文件查询数据库,然后让用户登录,否则拒绝访问。我遇到的问题是它只是重定向到 php 文件的 url,并且从不对发生的事情提供反馈。这是我第一次使用 html、
我有一个页面充满了指向 pdf 的链接,我想跟踪哪些链接被单击。我以为我可以做如下的事情,但遇到了问题: query($sql); if($result){
我正在使用 从外部文本文件加载 HTML/PHP 代码 $f = fopen($filename, "r"); while ($line = fgets($f, 4096)) { print $l
我是一名优秀的程序员,十分优秀!