php - 使用 cURL 从网页获取 html 并使用 preg-replace 去除 html-6ren

php - 使用 cURL 从网页获取 html 并使用 preg-replace 去除 html

转载作者：可可西里更新时间：2023-11-01 00:35:09

26

4

我想获取海盗湾的统计数据，统计数据可以在 TPB 上的以下 div 中找到:

<div id="stats">5.695.184 registered users Last updated 14:46:05.<br />35.339.741 peers (25.796.820 seeders + 9.542.921 leechers) in 4.549.473 torrents.<br />    </div>

这是我的代码:

<?php
    $ch = curl_init();
    $timeout = 5;
    curl_setopt($ch, CURLOPT_URL,"http://thepiratebay.se"); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
    curl_setopt($ch,CURLOPT_COOKIE,"language=nl_NL; c[thepiratebay.se][/][language]=nl_NL");
    $data=curl_exec($ch);
    $data = preg_replace('/(.*?)(<div id="stats">)(.*?)(<\/div>)(.*?)/','$2',$data);
    echo $data; 
    curl_close($ch); 
    exit;
?>

如您所见，我使用以下 preg-replace 模式来去除 HTML:

$data = preg_replace('/(.*?)(<div id="stats">)(.*?)(<\/div>)(.*?)/','$2',$data);

但这不起作用。我得到了 TPB 的整个页面，而不仅仅是统计数据。有人有答案吗？

提前致谢。

最佳答案

忘记使用正则表达式进行屏幕抓取，使用 domDocument相反，看看它是多么简单:

<?php 
function curl_get($url){
    $useragent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.0.3705; .NET CLR 1.1.4322; Media Center PC 4.0)';
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,5);
    curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
    curl_setopt($ch,CURLOPT_COOKIE,"language=nl_NL; c[thepiratebay.se][/][language]=nl_NL");
    $data=curl_exec($ch);
    curl_close($ch);
    return $data;
}

function get_pb_stats(){
    $html = curl_get("http://thepiratebay.se");
    // Create a new DOM Document
    $xml = new DOMDocument();

    // Load the html contents into the DOM
    @$xml->loadHTML($html);

    $return = trim($xml->getElementById('stats')->nodeValue);
    //regex to add the brake tag after 15:04:05. 
    $return = preg_replace('/\d{2}[:]\d{2}[:]\d{2}[.]/','${0}<br />',$return);
    return $return;
}

echo get_pb_stats();

/*
5.695.213 geregistreerde gebruikers Laatste update 15:04:05.<br />35.505.322 peers (25.948.185 seeders + 9.557.137 leechers) in 4.546.560 torrents.
*/
?>

关于php - 使用 cURL 从网页获取 html 并使用 preg-replace 去除 html，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10449200/

26

4

0

文章推荐： php - 避免 zip 文件内容的绝对路径名

文章推荐： ios - 如何更改 CGRect 的 x 和 y？

文章推荐： Swift 字符串和整数下标

文章推荐： PHP 避免静态类以避免依赖，但我需要在任何地方使用全局

sql-server - 我如何摆脱 .. Replace(Replace(Replace(Replace(Replace( …?
我正在从一个旧数据库中选择数据，该数据库有一个滥用状态列。状态列中包含多条信息。值如“新联系人 YYYY”、“在线 YYYY”、“更新 YYYY”、“撤回 YYYY”等……。您可能已经猜到了，YYYY
replace - 在gradle中使用ant.replace
我想使用ant的replace任务替换这样的文件之一中的 token : 版本.txt version.number=${versionNumber} build.gradle task writeV
Python replace() - 如何避免重复 replace()？
sorted_elems 列表中有一些元素将被更改为 str 例如: sorted_elems = ['[abc]', '[xyz]', ['qwe']] 我想删除定义的字符 - [, ], ' 并打
replace - 替换 : replacement evaluation
如果替换在变量中传递，第一次和第二次替换是否等效？ #!/usr/bin/env perl6 use v6; my $foo = 'switch'; my $t1 = my $t2 = my $t3
c# - 为什么是 str = str.Replace().Replace();比 str = str.Replace(); 快str = str.替换()？
我正在做一个本地测试来比较 C# 中 String 和 StringBuilder 的 Replace 操作性能，但是对于 String 我使用了以下代码: String str = "String
replace - 如何在 wkhtmltopdf 中使用 "--replace"
我看到了所有内容，没有看到使用“--replace”的方式的内容。如何在 wkhtmltopdf 中使用“--replace”。请给我一个例子，谢谢。:) 最佳答案假设您有一个页脚 my_foo
replace - 崇高文本 : interactive confirm for replace?
我需要在 50 多个文件中进行大量搜索/替换，并且正在使用 Sublime Text 3。有没有办法逐步执行并交互确认每个更改？我不想要只执行所有替换的一揽子“全部替换”操作。我正在思考 vi/v
replace - "replace"属性如何与 Composer 一起使用？
那么“replace ”属性如何与 composer 一起使用？？我已经阅读了 Composer 文档，但仍然不明白。搜索更多信息并没有回答我的问题。当我查看Laravel/Framework上的
replace - F#:替换为 .Replace ("oldValue","newValue")
我在玩 F# 句法。在瑞典，我们有一个游戏叫做“Backslang”(谷歌翻译自“Rövarspråk”) 规则很简单。你说的所有话都必须以特定的方式说出来。虽然人声是相同的，但每个辅音都必须用“o
replace - 原子: Find and Replace with Incrementing Number
是否可以在Atom或Sublime Text中对“item”一词使用“查找和替换”并将其替换为“item [i]”，其中[i]是从1开始的数字？我有一堆看起来像这样的物品: item1 item1
javascript - 无限函数调用，例如 'string' .replace().replace()
我不太确定如何解释，所以我将从输出开始。我需要返回这个: { replies: [ { type: 'text', content: 'one' } { type:
c# - string.Replace 或 stringBuilder.Replace()
我是 C# 的新手，所以请原谅我的错误。我想在每次调用该段代码时(每次调用 2-4 次)替换字符串的某些部分。我想知道哪种方法在性能方面更好:string.Replace 或 stringBuild
regex - [Regex]::Replace() 和 -replace 之间有什么区别？
我了解.Replace() 和-replace 之间的区别，但是什么是-replace 和[Regex]: :替换()? 我测试了以下 2 个代码，但对我来说结果完全一样。我还引用了 PowerSh
regex - 用单个 Regex.Replace() 替换多个字符串 Replace()
如果我正在做类似的事情: someString.Replace("abc","").Replace("def","").Replace(@"c:\Windows","") 我怎样才能把它替换成 Reg
c# - string.Replace 或 stringBuilder.Replace()
我是 C# 的新手，所以请原谅我的错误。我想在每次调用该段代码时(每次调用 2-4 次)替换字符串的某些部分。我想知道哪种方法在性能方面更好:string.Replace 或 stringBuild
javascript - String.prototype.replace === String.replace
当我使用 call() 或 apply() 时，我遇到了问题。 console.log(String.prototype.replace === String.replace);//false 我认为
Java String.replace() 或 StringBuilder.replace()
在我使用 5-10 个替换的情况下是否有必要使用 stringbuilder。 String someData = "......"; someData = someData.replaceAll("
c# - String.Replace() 与 StringBuilder.Replace()
我有一个字符串，我需要用字典中的值替换其中的标记。它必须尽可能高效。使用 string.replace 进行循环只会消耗内存(记住，字符串是不可变的)。 StringBuilder.Replace()
android - 工具 : replace not replacing in Android manifest
我正在使用具有许多不同库依赖项的 gradle 项目并使用新的 list 合并。在我的标签我已经这样设置了: .... 但我收到错误消息: /android/MyApp/app/src/main
replace - SQLAlchemy - 属性错误 : 'Table' object has no attribute replace
我正在尝试从一个数据库中的表中提取模式并将其传输到另一个数据库。以下是执行此操作的函数的一部分。当 Table( ... ) 时出错被称为。功能示例: def transfer_data(self

首页

博学

6Ren·AI

商城

php - 使用 cURL 从网页获取 html 并使用 preg-replace 去除 html