- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是网络抓取新手,我有一个关于 Google 搜索结果抓取的问题。假设我想根据搜索查询抓取 Google 前 100 页的搜索结果并提取这些网址的文本。我已经尝试了几个代码,到目前为止我还没有能够得到想要的结果任何人都可以帮助我。下面是附加的代码,用于获取当前页面的 url 并消除已访问的 url,以防它们被多次访问。
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.parse import urljoin
import requests
base_query = 'inurl:www.bbc.com/urdu/pakistan'
base ="http://www.bbc.com.pk/"
google_search_url = 'https://www.google.com.pk/search?q=inurl:www.bbc.com/urdu/pakistan&filter=0&biw=1366&bih=638'
resp = requests.get(google_search_url)
soup = BeautifulSoup(resp.text, "html.parser")
url = []
to_crawl_urls = set()
visited = [] # to check if page was already visited
visited = ["http://www.bbc.com.pk/"]
for cite in soup.find_all('cite'):
url .append( cite.text)
# skip urls already visited
if url in visited or url == google_search_url:
print('... skiping:', url)
# remember new page as visited
visited.append(url)
print("loading:", url)
subpage = urlopen(url)
subsoup = BeautifulSoup(subpage, "html.parser")
# find div with text
for story_body in subsoup.find_all('div', class_='story-body'):
# find title
h1 = story_body.find('h1', class_='story-body__h1')
if h1:
print('title:', story_body.find('h1', class_='story-body__h1').get_text(strip=True))
# find div with paragraphs
div = story_body.find('div', class_='story-body__inner')
# find all paragraphs in dive
for p in div.find_all('p'):
print(p.get_text(strip=True))
最佳答案
您发送请求的方式存在问题。
您使用网址列表而不是网址发送请求。
请确认这是否是您正在寻找的输出。
代码:
from bs4 import BeautifulSoup
import requests
base_query = 'inurl:www.bbc.com/urdu/pakistan'
base = "http://www.bbc.com.pk/"
google_search_url = 'https://www.google.com.pk/search?q=inurl:www.bbc.com/urdu/pakistan&filter=0&biw=1366&bih=638'
resp = requests.get(google_search_url)
soup = BeautifulSoup(resp.text, "html.parser")
url = []
to_crawl_urls = set()
visited = [] # to check if page was already visited
visited = ["http://www.bbc.com.pk/"]
for cite in soup.find_all('cite'):
url .append(cite.text)
# skip urls already visited
if url in visited or url == google_search_url:
print('... skiping:', url)
# remember new page as visited
visited.append(url)
print("loading:", url)
for i in url:
subpage = requests.get('http://' + i)
subsoup = BeautifulSoup(subpage.text, "html.parser")
# find div with text
for story_body in subsoup.find_all('div', class_='story-body'):
# find title
h1 = story_body.find('h1', class_='story-body__h1')
if h1:
print('title:', story_body.find('h1', class_='story-body__h1').get_text(strip=True))
# find div with paragraphs
div = story_body.find('div', class_='story-body__inner')
# find all paragraphs in dive
for p in div.find_all('p'):
print(p.get_text(strip=True))
输出:
title: تف ہے ایسی جمہوریت پر!
کچھ ممالک اور ان کے رہنما ایک عجب مرض میں مبتلا ہیں۔ یعنی بات بات پر ریفرنڈم اور انتخابات کی جانب بھاگنے کا مرض۔ سوئٹزر لینڈ کا تو یہ حال ہے کہ اگر چند لاکھ لوگ اس یاداشت پر بھی دستخط کر دیں کہ انہیں چھینک لینے کے لیے اوپر کے بجائے نیچے دیکھنے کا اختیار چاہیے تو اس پر بھی ریفرنڈم ہو جاتا ہے۔
برطانیہ میں ڈیوڈ کیمرون کو نہ آئین نے مجبور کیا تھا اور نہ ہی پارلیمنٹ نے کہ وہ یورپی یونین میں رہنے یا نکلنے کے سوال پر ریفرنڈم کروائیں۔ مگر بھولے ڈیوڈ نے چونکہ انتخابی مہم کے دوران جیتنے کے حربے کے طور پر بریگزٹ کے بارے میں عوامی رائے لینے کا وعدہ کر لیا تھا۔ کوئی بتانے والا نہیں تھا کہ میاں ڈیوڈ ایسے سیاستیں نہیں ہوتیں۔ ایک انتخابی وعدے کی اوقات ہی کیا ہے۔ وعدے قرآن و حدیث تھوڑا ہیں۔ مگر نہیں صاحب بریگزٹ کروا کے ہی دم لیا اور اب آدھے برطانوی رو رہے ہیں۔
تاج محل اور ٹرک کی بتی
کچی عمر کا حسن
رہے گا نہ یہ جاہل کا جاہل!
اور یہ سپین میں کیا ہو رہا ہے؟ کاتالونیا میں ملک سے علیحدگی کے سوال پر ریفرنڈم کے نتائج سامنے آنے کے بعد چھتر پھیرنے کا کیا فائدہ؟ ان سے پہلے ہی سختی سے نمٹنا چاہیے تھا۔ لیکن اب بھی وقت ہے۔ سری لنکا، بھارت، پاکستان، ترکی، اسرائیل یا روس وغیرہ کی مشاورت و چھترولی مہارت کاتالونیا کو قابو میں رکھنے کے لیے استعمال کرنے میں کوئی حرج نہیں۔ بعض اوقات ڈاکٹر بدلنے سے بھی افاقہ ہو جاتا ہے۔
سب سے زیادہ ہنسی جاپان پر آتی ہے۔ کوئی ان بے وقوفوں کو بتانے والا نہیں کہ انتخابی عمل ٹشو پیپر نہیں ہوتا کہ جب چاہا استعمال کر لیا۔ دوسری عالمی جنگ کے دوران جاپانیوں نے چلتی لڑائی میں سات اور جنگِ عظیم کے خاتمے سے اب تک 35 وزیرِ اعظم بدلے۔ ان میں سے موجودہ وزیرِ اعظم شنزو آبے سمیت بس پانچ ایسے ہیں جنھوں نے اپنی مدتِ اقتدار مکمل کی۔ لگتا ہے جاپانی زبان میں یہ جملہ ہے ہی نہیں 'مجھے کیوں نکالا‘۔
حالانکہ 11 سابق جاپانی وزرائےاعظم آج بھی زندہ ہیں۔ ملک آج بھی تیسری بڑی اقتصادی سپر پاور ہے۔ پر شوقِ انتخابات بچپنے کی حد تک جواں ہے۔
اب پچھلے سات برس سے اچھے بھلے حکومت چلانے والے شنزو آبے کو اچانک تیسری بار درمیانی مدت کے انتخابات جیتنے کا شوق چرایا ہے اور بہانہ یہ تراشا کہ شمالی کوریا سے لاحق حظرے سے نمٹنے کے لیے نیا مینڈیٹ لینا ضروری ہے۔
پیرانِ سیاست کے پیر
بڑے ہو کے کیا بنو گے؟
گلاب جامن اور سانولی لڑکیاں
ہاں بھئی یہ مٹھی بھر ممالک ایسی پیٹ بھرے کی عیاشیاں کر سکتے ہیں کیونکہ ان کے ہاں انتخابات کے ساتھ صاف و شفاف کا لاحقہ لگانے کا رواج نہیں۔ یہ فقرے بھی سننے کو نہیں ملتے کہ حکومت خیرات میں نہیں عوام کے ووٹوں سے ملی ہے لہذا ہر حال میں مدتِ اقتدار پوری کرے گی۔ ان پیٹ بھرے جمہوری ممالک میں استعفیٰ بھی بہانے بہانے دیا جاتا ہے، لیا نہیں جاتا کیونکہ اہلِ سیاست کو یہ خوف نہیں ہوتا کہ اگلی بار اقتدار کا منہ دیکھنا نصیب ہوگا بھی کہ نہیں۔ اسی لیے ان کے ہاں حکومتیں بالک ہٹ پر اڑنے کے بجائے خود ہی ہٹ جاتی ہیں ہٹائی نہیں جاتیں۔
یقیناً ان مٹھی بھر جمہوری ممالک میں بھی جوڑ توڑ، مار کٹائی اور سازشیں ہوتی ہیں مگر پارلیمنٹ کے اندر ہی اندر۔ ان کی ڈکشنریوں میں بھی اسٹیبلشمنٹ کی اصطلاح ہے مگر مراد بادشاہ گر ٹولہ نہیں بلکہ ماتحت بیورو کریسی ہے۔
ان کے ہاں بھی فوج ہے مگر عام آدمی اپنے انتخابی حلقے سے ہارنے یا جیتنے والے کا تو نام جانتا ہے فوج کے سربراہ کا نام نہیں جانتا۔ ان کے ہاں بھی اعلیٰ عدالتیں اور اعلیٰ جج ہیں مگر صرف وکیل برادری ہی ان کے ناموں سے واقف ہوتی ہے۔ اسی لیے ان ممالک کا میڈیا انتہائی بور اور تھکا ہوا ہے۔
ایسے بے نمک ماحول میں شنزو آبے کی جگہ شیدا مکینک بھی ہوتا تو مڈٹرم الیکشن جیت لیتا۔ پر یہ کیسی ابلی ہوئی جمہوریت ہے؟ نہ دھرنا، نہ سازش، نہ عدالتی کارروائیوں کی پل پل مصالحے دار خبریں، نہ ایک دوسرے کے طفلی، خاندانی، اخلاقی راز اور لغتِ دشنام بھرے بازار میں کھولنا۔۔۔
نہ طلال، نہ فواد، نہ نثار، نہ آئی ایس پی آر، نہ اپنے اپنے آئینی دائرے یا ریاستی رٹ کی بحث، نہ اپنی یا غیر ایجنسیوں کی کارستانیوں کا تذکرہ۔ حتیٰ کہ 'ایک صفحے پر ہونے' کی اصطلاح تک نہیں۔ تو پھر لوکی کی جمہوریت؟ بے ذائقہ، بے رنگ، بے بو ۔۔۔
ایسی جمہوریت تو ہمارے ہاں ہر قبرستان میں ہوتی ہے۔ تف ہے۔۔۔
title: ’پاکستان واقعی ایک حیران کن ملک ہے‘
امریکی شہری کیسنڈرا ڈی پیکول تن تنہا دنیا کے سفر پر ہیں اور 190 ممالک کا سفر طے کرنے بعد وہ پاکستان پہنچی ہیں اور ان کا کہنا ہے کہ 'پاکستان ایک چھپا ہوا جوہر ہے جس کی خوبصورتی تاحال دنیا کے سامنے نہیں آسکی‘۔
27 سالہ امریکی خاتون کیسنڈرا ڈی پیکول نے 15 جولائی 2015 کو دنیا کے تمام 196 خودمختار ممالک دیکھنے کے لیے اپنے سفر کا آغاز کیا تھا۔
ان کا پہلا پڑاؤ مغربی بحرالکاہل کے ایک چھوٹے سے ملک پلاؤ میں ہوا اور ان کا سفر مسلسل جاری رہا اور 190 ممالک کا سفر کرنے کے بعد وہ پاکستان پہنچیں۔
ان کا مقصد کم از کم وقت میں تمام ممالک کا سفر کرکے گینس بک آف ورلڈ ریکارڈ میں اپنا نام شامل کرنا اور دنیا کو سیاحت کے لیے پرامن اور اس شعبے کو مستحکم بنانے کا پیغام دینا ہے۔
اسلام آباد میں بی بی سی اردو سے بات کرتے ہوئے ان کا کہنا تھا کہ 'پاکستان آنے سے قبل ان کے کچھ خدشات تھے جو اب دور ہوچکے ہیں اور وہ دوبارہ یہاں آنا چاہیں گی۔'
'دنیا کے 190 ممالک گھومنے کے بعد میں کہہ سکتی ہوں کہ جن تین ممالک نے مجھے سب سے زیادہ متاثر کیا ان پاکستان، اومان اور بھوٹان سرفہرست ہیں۔'
کیسنڈرا کا کہنا تھا کہ انھوں نے نومنتخب امریکی صدر ڈونلڈ ٹرمپ کا پاکستان کے حوالے سے حالیہ بیان نہیں سنا لیکن ان کا ذاتی تجربہ ہے کہ 'پاکستان واقعی ایک حیران کن ملک ہے مجھے اندازہ نہیں تھا کہ یہاں کے لوگ اور یہاں کی ثقافت انتہائی خوبصورت ہے۔'
کیسنڈرا ڈی پیکول کا کہنا ہے کہ ان کا مقصد تمام دنیا میں امن کا پیغام پہنچانا ہے۔ وہ ایک مسافر بھی ہیں اور سیاحت و سفر کے حوالے سے نوجوانوں کو تربیت اور رہنمائی بھی فراہم کرتی ہیں۔
وہ کہتی ہیں کہ 'پاکستان آنے سے پہلے میں نے اس ملک کے بارے میں بہت کچھ پڑھا اور تحقیق کی لیکن جو کچھ میڈیا دکھاتا ہے پاکستان اس کے بالکل برعکس ہے۔'
ان کا کہنا تھا کہ 'میں نے اپنا برقع اور عبایا بھی ساتھ رکھا ہوا تھا کہ پاکستان میں اس کی ضرورت ہوگی لیکن ابھی تک اس کی ضرورت پیش نہیں ہے۔'
پاکستانی خواتین کے بارے میں ان کا کہنا تھا کہ 'پاکستان میں قیام کے دوران میں بہت سی نوجوان خواتین سے ملی اور مجھے ان کی قابلیت اور اعتماد دیکھ کر بہت اچھا محسوس ہوا۔'
کیسنڈرا نے اس خواہش کا اظہار کیا کہ پاکستان کی شمالی علاقہ جات اور چھوٹے شہروں اور قصبوں کو دیکھنا چاہتی ہیں لیکن اس بار یہ ممکن نہیں ہو سکا۔ ان کا کہنا تھا کہ وہ بہت جلد پاکستان دوبارہ آئیں گی اور اپنی یہ تمنا پوری کریں گی۔
پاکستان میں ان کا قیام کراچی، لاہور اور پھر اسلام آباد میں رہا جہاں یونیورسٹی اور کالجوں کے طالب علموں کے ساتھ انھوں نے مختلف مذاکروں میں حصہ لیا اور انھیں بتایا کہ کیسے اپنے ملک کو اچھے انداز میں پیش کیا جاسکتا اور ایک کامیاب سیاحتی لکھاری بننے کے لیے کیا کچھ کیا جاسکتا ہے۔
ان کا کہنا تھا کہ انھوں نے انڈیا کا بھی سفر کیا ہے اور انھوں نے پاکستان کو انڈیا کی ثقافت، رنگ اور انداز زندگی کو بہت مخلتف پایا۔
انھوں نے بتایا کہ بلاشبہ سیاحت ایک مہنگا شعبہ ہے لیکن آپ پیسے بچاتے ہوئے بھی کئی نئی جگہوں کی سیر کرسکتے ہیں۔
'ایسا نہیں ہے کہ آپ جہاں جائیں بڑے بڑے ہوٹلوں میں رہیں یا پرآسائش گاڑیوں میں سفر کریں۔ آپ ضرورت کے مطابق کسی کم قیمت جگہ پر قیام کر سکتے، وہی کھا سکتے ہیں جو وہاں عام لوگ کھاتے ہیں، ویسے ہی سفر کر سکتے ہیں جیسے مقامی عام لوگ کرتے ہیں۔'
اپنے تجربات بیان کرتے ہوئے ان کا کہنا تھا کہ انھوں نے تقریبا 25 ممالک کا دورہ صرف 2000 ڈالر میں کیا۔ اس دوران وہ ٹرین سٹیشنوں پر سوئیں، بغیر کھائے پیے رہیں اور 'ہچ ہائیکنگ' کرتی ہوئی مشرق وسطیٰ، افریقہ، جنوبی امریکہ اور ایشیا میں گھومیں۔
ان کا کہنا تھا کہ سوشل میڈیا کے ذریعے اب نوجوان بلاگروں اور سیاحت کے حوالے سے لکھنے والوں کے لیے بہت سے دروازے کھل گئے ہیں جن کا بھرپور استعمال کیا جا سکتا ہے۔
کیسنڈرا کا کہنا تھا کہ ان کا اگلی منزل افریقی ملک ارٹیریا ہے اور وہ جلد جنگ زدہ یمن کے سفر پر ہوں گی۔
.
.
.
etc.
关于python - 从谷歌搜索结果中抓取的旧新闻文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46877488/
如本answer所述,如果浏览器不支持 e,可以设置后备游标。 G。 光标:抓取;。我现在的问题是获取这些图像。在我的驱动器上本地搜索“.cur”只给了我系统光标,其中 grab.cur 和 grab
以下代码在计算机上运行以从 Instagram 帐户中抓取数据。当我尝试在 VPS 服务器上使用它时,我被重定向到 Instagram 登录页面,因此脚本不起作用。 为什么当我在电脑上或服务器上时,I
我在使用 Ruby 和 Mechanize 将 POST 查询传递到站点的网站上。访问站点的查询基于 firebug,如下所示 param.PrdNo=-1¶m.Type=Prop¶m
我正在尝试抓取一个具有多个页面结果的网站,例如“1、2、3、4、5...”。 每个分页号都是到另一个页面的链接,我需要抓取每个页面。 到目前为止,我想出了这个: while lien = page.l
我正在使用 HtmlAgilityPack 在 C# Asp.Net 中执行 Scraping,到目前为止,我在从多个 Web 执行 Scratch 时没有遇到问题,但是,尝试弹出以下代码时出现错误
如果我有一个 css 文件做这样的事情 #foo:after{content:"bar;} ,有没有办法用 javascript 获取 :after 的内容?获取父元素的内容只返回 #foo 元素的内
问题是这样的: 我有一个 Web 应用程序 - 一个经常更改的通知系统 - 在一系列本地计算机上运行。该应用程序每隔几秒刷新一次以显示新信息。计算机仅显示信息,没有键盘或任何输入设备。 问题是,如果与
我想制作一个程序来模拟用户浏览网站和点击链接。必须启用 Cookie 和 javascript。我已经在 python 中成功地做到了这一点,但我想把它写成一种可编译的语言(python ide 不会
我制作了这个小机器人,它通过搜索参数列表进行处理。它工作正常,直到页面上有几个结果: product_prices_euros 给出了一半为空的项目列表。因此,当我与 product_prices_c
我需要找到一个单词的匹配项,例如: 在网上找到所有单词“学习”https://www.georgetown.edu/(结果:4个字)(您可以看到它按CTRL + F并搜索) 我有我的 Python 代
有一个站点\资源提供一些一般统计信息以及搜索工具的界面。这种搜索操作成本高昂,因此我想限制频繁且连续(即自动)的搜索请求(来自人,而不是来自搜索引擎)。 我相信有很多现有的技术和框架可以执行一些情报抓
这并不是真正的抓取,我只是想在网页中找到类具有特定值的 URL。例如: 我想获取 href 值。关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗?我猜 html 抓取库,比如 B
我正在使用 scrapy。 我正在使用的网站具有无限滚动功能。 该网站有很多帖子,但我只抓取了 13 个。 如何抓取剩余的帖子? 这是我的代码: class exampleSpider(scrapy.
我正在尝试从这个 website 中抓取图像和新闻 url .我定义的标签是 root_tag=["div", {"class":"ngp_col ngp_col-bottom-gutter-2 ng
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭上个月。 Improve this ques
我在几个文件夹中有数千个 html 文件,我想从评论中提取数据并将其放入 csv 文件中。这将允许我为项目格式化和清理它。例如,我在这个文件夹中有 640 个 html 文件: D:\My Web S
我在编写用于抓取网页的实用程序时遇到了一个问题。 我正在发送 POST 请求来检索数据,我模仿我正在抓取的网络行为(根据使用 fiddler 收集的信息)。 我已经能够自动替换我的 POST 中除 V
对于 Googlebot 的 AJAX 抓取,我在我的网站中使用“_escaped_fragment_”参数。 现在我查看了 Yandex 对我网站的搜索结果。 我看到搜索结果中不存在 AJAX 响应
我正在尝试抓取网站的所有结果页面,它可以工作,但有时脚本会停止并显示此错误: 502 => Net::HTTPBadGateway for https://website.com/id/12/ --
我是一个学习网络爬虫的初学者,由于某种原因我无法爬网this地点。当我在 Chrome 中检查它时,代码看起来不错,但是当我用 BeautifulSoup 阅读它时,它不再是可刮的。汤提到“谷歌分析”
我是一名优秀的程序员,十分优秀!