- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我对如何提取每篇文章的内容感到困惑..请你们帮我继续我的代码..
这就是我所拥有的:
import pandas as pd
import requests
from bs4 import BeautifulSoup
for i in range(1,11):
link = requests.get("https://turnbackhoax.id/page/{}".format(i))
soup = BeautifulSoup(link.text, "html.parser")
container = soup.select('div#main-content.mh-loop.mh-content')
titles = []
contents = []
for data in container:
if data.select('h3.entry-title.mh-loop-title') is not None:
title = data.h3.a.text
titles.append(title)
非常感谢您的帮助^^
最佳答案
使用以下CSS选择器获取网页的title
和content
并加载到dataframe
中。
代码:
import pandas as pd
import requests
from bs4 import BeautifulSoup
titles = []
contents = []
for i in range(1,11):
link = requests.get("https://turnbackhoax.id/page/{}".format(i))
soup = BeautifulSoup(link.text, "html.parser")
for title , content in zip(soup.select('.mh-loop-content h3>a'),soup.select('.mh-excerpt>p')):
titles.append(title.text.strip())
contents.append(content.text.strip())
df = pd.DataFrame({"Title":titles,"Content":contents})
print(df)
输出:
Content Title
0 Sebuah akun facebook bernama Naliya Safitry Az... [SALAH] “Gue Tunggu Cebong di Grup Ini Coment”
1 Bukan 40 ribu tapi sekitar 5.000 pekerja tamu ... [SALAH] “ada 40 ribu tenaga kerja asal china d...
2 Sebuah akun Facebook @KazahraTanzania mengungg... [SALAH] Rumah Sakit Kanusojo Balikpapan Telah ...
3 Berita bahwa sejumlah warga Cina melempar kuci... [BERITA] Warga Cina Lempar Kucing dan Anjingny...
4 Kepala Subdirektorat Penyakit Infeksi Emerging... [SALAH] Virus Corona Dapat Menular Melalui Tat...
5 Periksa fakta dilakukan oleh Anissa Antania Ha... [SALAH] Pedagang Cina Ngamuk Karena Jeruk Tida...
6 Hoaks daur ulang, modifikasi dari hoaks pesan ... [SALAH] “Virus Corona masuk makanan kalengan C...
7 Direktur RS H.M. Rabain Muara Enim membantah d... [SALAH] “Hati-hati untuk wilayah Tanjung Enim,...
8 TIDAK hanya menyemprotkan antiseptik. Selain d... [SALAH] “Mereka menyebutnya disinfeksi?”
9 NOT just sprayed by antiseptic. Besides of 14 ... [FALSE] “They call it disinfection?”
10 Ramai di media sosial sebuah postingan berupa ... [SALAH] Dettol Antiseptik Disebut Dapat Membun...
11 Melalui media sosial Facebook dan pesan berant... [SALAH] Pasien Positif Corona Dirawat di Rumah...
12 Video berita simulasi yang disunting dan hanya... [SALAH] Video “5 Pasien Suspect Infeksi Virus ...
13 Judul dan isi artikel tidak nyambung dengan fo... [SALAH] Foto “China Dilaporkan Diam-diam Krema...
14 BUKAN di Cuba, video yang dibagikan adalah vid... [SALAH] Video di Cuitan “Gempa dan Tsunami di ...
15 “Apa saja gejala yang disebabkan oleh virus da... [EDUKASI] “Apa itu coronavirus dan seberapa kh...
16 Yang diteriakkan adalah “Wuhan Jiayou!”, BUKAN... [SALAH] “Wuhan China Orang² berteriak gak karuan”
17 Informasi mengenai Passing Grade Universitas I... [SALAH] Passing Grade Universitas Indonesia
18 Tidak ada media arus utama yang mengangkat ber... [SALAH] Nadiem Makarim Bayar 6 Triliun Rupiah ...
19 Gadis asal Malaysia yang meninggal dalam video... [SALAH] Virus Corona Sudah Sampai di Shah Alam...
20 Tidak ditemukan pernyataan Presiden Xi Jinping... [SALAH] Presiden China Mengumumkan Virus Coron...
21 Bukan pasar di Wuhan, video itu direkam di Pas... [SALAH] Video “EXPLORE Pasar Wuhan – Virus Cor...
22 Beredar sebuah surat yang mengatasnamakan Peng... [SALAH] Surat Ajakan Debat Terbuka Yang Diadak...
23 Pelintiran daur ulang. Foto yang dibagikan ada... [SALAH] “Info orang hilang Ciri2 wapres”
24 Tidak ada pasien suspect virus Corona di Kabup... [SALAH] “Corona virus sudah ada di RS. Bhayang...
25 Pelintiran daur ulang. BUKAN mengenai TKA, fak... [SALAH] Narasi TKA di Video Demo PT IMIP Morowali
26 Kementerian Kesehatan menyatakan tidak pernah ... [SALAH] “Pemberitahuan Kementerian Kesehatan: ...
27 Pelintiran daur ulang. Foto yang dibagikan ada... [SALAH] “MEREKA JUGA MEMAKAN JANIN BAYI”
28 Video proses pembangunan Gedung “Mini Sky City... [SALAH] “CHINA Baru Saja Bangun Rumah Sakit 57...
29 Bukan sabotase. Penimbunan dengan karung pasir... [SALAH] “Sabotase sepanjang Jalan Kramat Raya,...
.. ... ...
170 Aa Gym melalui media sosial resmi Instagram mi... [KLARIFIKASI] Aa Gym Angkat Bicara Terkait Bro...
171 Beredar sebuah pesan berantai yang mengatasnam... [SALAH] Informasi 12 Tempat Rawan Begal Di Sur...
172 Tidak ada satupun informasi yang membuktikan M... [SALAH] “MENHAN PRABOWO meminta Pada MENHAN CH...
173 Foto hasil suntingan. Foto kedua pemain sepakb... [SALAH] Foto “mata Cristiano Ronaldo dan Zlata...
174 Bukan Rp688 miliar, tapi Rp688 juta. Sekretari... [SALAH] “DKI Kucurkan Rp688 Miliar Tebus Ijaza...
175 Hoaks lama beredar kembali karena Din Syamsudi... [SALAH] “Ini sumbernya Din Syamsudin, Presiden...
176 Happened in Kuwait. NOT an attempted assasinat... [FALSE] “Attempted assassination of a Saudi pr...
177 Peristiwa di Kuwait, BUKAN upaya pembunuhan me... [SALAH] “Upaya pembunuhan pangeran Arab Saudi”
178 Tidak ada bukti yang menyebutkan keterkaitan H... [SALAH] “Legenda Hello Kitty berasal dari gadi...
179 Kedua foto tidak berhubungan. Foto wanita meng... [SALAH] Foto “Fatimah Aynur, Muslimah cantik U...
180 Beredar Surat Keputusan Bersama yang mengatasn... [SALAH] Surat Berisi Cuti Libur Natal Tanggal ...
181 Isu Menteri Pertahanan (Menhan) Prabowo Subian... [SALAH] Menhan Prabowo Ditekan Untuk Beli Pesa...
182 Pelintiran daur ulang. Hasil suntingan foto ba... [SALAH] “All Jakarta Water Park”
183 Hoaks lama beredar kembali. Pada tahun 2016 Ba... [SALAH] Video “Kerupuk dan Crispy Crackers mud...
184 Tidak ada satupun foto yang diunggah oleh sumb... [KLARIFIKASI] Penjelasan terkait foto-foto yan...
185 Yang beredar adalah versi zoom/crop. Tidak ada... [KLARIFIKASI] Pesan Berantai Foto Tol Japek
186 Vice President Corporat Communication and CSR ... [KLARIFIKASI] PLN Bantah Meminta Uang untuk Pe...
187 Bukan pembukaan gereja Katolik. Peristiwa di v... [SALAH] Video “Pembukaan Gereja Katolik di Ara...
188 Bukan sandiwara. HA (30), pelaku persekusi sud... [SALAH] “Sandiwara Dagelan koplax, di perskusi...
189 Hukuman pancung tersebut bukan diberlakukan un... [SALAH] Judul artikel “Habib Rizieq Terancam H...
190 Melalui media sosial Facebook, beredar informa... [SALAH] Bawang Merah Mampu Tangkal Racun Ular ...
191 Mesut Ozil tidak menyinggung soal Indonesia at... [SALAH] Mesut Ozil Sindir Indonesia dan Wapres...
192 Informasi seputar kesehatan yang tidak mempuny... [SALAH] Parutan Kelapa Bisa Sebabkan Kremian
193 Pelintiran daur ulang tahun 2018. Disebabkan o... [SALAH] Cacing Berkembang di Mata Karena Mengu...
194 Foto kedua adalah foto Sungai Citarum yang sec... [SALAH] “Inilah perubahan besar yg telah dilak...
195 Beredar kembali sebuah video yang diklaim bahw... [SALAH] Video Garam Dapur Yang Mengandung Serp...
196 Pesan berantai yang beredar bukan berasal dari... [SALAH] Air Nanas Panas Sembuhkan Kanker
197 Atas munculnya kabar yang menyebutkan adanya p... [BERITA] Kemenpan RB: Tidak Ada Pengangkatan C...
198 Juru Bicara Kepala BIN, Wawan Hari Purwanto me... [SALAH] Dirut Garuda, Ari Askhara adalah Anggo...
199 Pria di foto itu adalah Jeremy Meeks dan bukan... [SALAH] “SEBELUM DI SETRUM MATI, PERMINTAAN PR...
[200 rows x 2 columns]
关于python - BeautifulSoup 抓取新闻文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60065910/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!