- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我想抓取网页上的新闻正文,但是目前还没有成功。
部分网页源代码如下:http://www.legaldaily.com.cn/locality/node_32245.htm .
</HR><A class="f14 blue001" href="content/2013-11/01/content_4983464.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>玉门工商清理整顿一批无照经营户 <SPAN class="f12 black">2013-11-01</SPAN></A> <BR><A class="f14 blue001" href="content/2013-11/01/content_4983441.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>临夏州举办涉法涉诉信访工作改革培训班 <SPAN class="f12 black">2013-11-01</SPAN></A> <BR><A class="f14 blue001" href="content/2013-11/01/content_4983439.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉市肃州区马营河水闸道路工程顺利通车 <SPAN class="f12 black">2013-11-01</SPAN></A> <BR><A class="f14 blue001" href="content/2013-11/01/content_4983401.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉狠抓四环节推进涉法涉诉信访工作改革 <SPAN class="f12 black">2013-11-01</SPAN></A> <BR><A class="f14 blue001" href="content/2013-10/30/content_4974324.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉瓜州工商局开展群众路线教育实践活动 <SPAN class="f12 black">2013-10-30</SPAN></A> <BR><A class="f14 blue001" href="content/2013-10/29/content_4971723.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉市瓜州县工商局开展酒类市场集中整治 <SPAN class="f12 black">2013-10-29</SPAN></A> <BR><A class="f14 blue001" href="content/2013-10/21/content_4948889.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉市信访局开设“道德讲堂” <SPAN class="f12 black">2013-10-21</SPAN></A> <BR><A class="f14 blue001" href="content/2013-10/21/content_4948876.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>打造制度建设新亮点 推动酒泉经济发展 <SPAN class="f12 black">2013-10-21</SPAN></A> <BR><A class="f14 blue001" href="content/2013-10/18/content_4944212.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉加强行政程序建设提高依法行政水平 <SPAN class="f12 black">2013-10-18</SPAN></A> <BR><A class="f14 blue001" href="content/2013-10/16/content_4940043.htm?node=32245" target=_blank><SPAN class="f14 blue001">·</SPAN>酒泉肃州西峰乡进一步落实矛盾排查制度 <SPAN class="f12 black">2013-10-16</SPAN></A> <BR>
到目前为止我的工作是:
from bs4 import BeautifulSoup
import re
import urllib2
url = "http://www.legaldaily.com.cn/locality/node_32245.htm"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
xinwen = soup.find_all('span')
for xw in xinwen:
print xw
然而并没有成功。出了什么问题,我怎样才能正确地做到这一点?谢谢。
最佳答案
我发现你可以这样做:
for child in soup.findAll(attrs={'class': "f14 blue001"}):
print child.getText()
由于您要查找的文本不在 html 标记内,因此获取您想要的确切元素有点棘手。但基本上 - 它们就在这里。
这几乎得到了你想要的:
·嘉峪关社管中心学习十八届三中全会公报 2013-11-18
·
·嘉峪关落实城乡一体化各项民生保障政策 2013-11-13
·
·甘肃省工商局发布“双11”消费警示 2013-11-11
·
·玉门工商强化执法原则增强柔性执法理念 2013-11-11
·
·嘉峪关城乡一体化服务中心多举措树形象 2013-11-11
·
·酒泉市瓜州县工商局开展道德讲堂活动 2013-11-07
·
·张掖山丹工商推行“三位一体”维权平台 2013-11-06
·
·酒泉市肃州区统计局三结合深化廉政教育 2013-11-05
·
·兰州工商系统全面开展“冬防”整治活动 2013-11-05
·
·玉门市玉门镇工商分局确保秋季市场稳定 2013-11-04
·
·敦煌市各乡镇“法律赶集”开展普法宣传 2013-11-04
·
·玉门工商清理整顿一批无照经营户 2013-11-01
·
·临夏州举办涉法涉诉信访工作改革培训班 2013-11-01
·
·酒泉市肃州区马营河水闸道路工程顺利通车 2013-11-01
·
·酒泉狠抓四环节推进涉法涉诉信访工作改革 2013-11-01
·
·酒泉瓜州工商局开展群众路线教育实践活动 2013-10-30
·
·酒泉市瓜州县工商局开展酒类市场集中整治 2013-10-29
·
·酒泉市信访局开设“道德讲堂” 2013-10-21
·
·打造制度建设新亮点 推动酒泉经济发展 2013-10-21
·
·酒泉加强行政程序建设提高依法行政水平 2013-10-18
·
·酒泉肃州西峰乡进一步落实矛盾排查制度 2013-10-16
·
·甘肃省农产品质量安全检测技能竞赛举行 2013-10-14
·
·甘肃省财政厅封存所有公务车辆 杜绝浪费 2013-10-09
·
·酒泉肃州总工会做好国庆期间综治维稳工作 2013-10-09
·
·酒泉市瓜州县工商局四举措加强队伍建设 2013-10-08
·
·甘肃严查教育乱收费:公示之外收费可拒缴 2013-10-08
·
·酒泉市瓜州县工商局开展棉花市场联合大检查 2013-09-30
·
·酒泉瓜州工商局“绿色通道”助力大学生创业 2013-09-29
·
·瓜州非工委召开“非公党建组建周”部署会 2013-09-27
·
·酒泉瓜州工商局四措施加强高危行业监管 2013-09-26
·
·甘肃省市旅游局联合开展市场大检查 2013-09-25
·
·肃州三墩镇组织领导干部参加六五普法考试 2013-09-25
·
·酒泉市肃州区总工会着力构建和谐劳动关系 2013-09-22
·
·酒泉瓜州非工委“三建”破解非公团建难题 2013-09-17
·
·省教育厅重申严禁利用休息日给学生补课 2013-09-16
·
·甘肃旅游局发通知 确保《旅游法》实施 2013-09-16
·
·瓜州工商局“四措施”加强高危行业监管 2013-09-16
·
·酒泉肃州建立工会系统劳动关系预警机制 2013-09-12
·
·甘肃省旅游局将开展旅游市场大检查 2013-09-11
·
·甘肃省教育厅将对民办学校进行大检查 2013-09-11
·
·酒泉市惠民政策添新项为新增高龄老人发放补助 2013-09-24
·
·酒泉肃州农牧局召开政风行风评议质询会议 2013-09-06
·
·天水麦积区工商局专项整治农村市场秩序 2013-09-05
·
·酒泉肃州西文化街社区“四抓四促”保稳定 2013-09-05
·
·酒泉瓜州新区工商所调处一起汽车消费纠纷 2013-09-04
·
·访酒泉市瓜州县工商局局长殷正国 2013-09-03
·
·省教育厅:禁止教师借教师节向学生收取礼物 2013-09-03
·
·酒泉肃州总寨镇打响矛盾纠纷专项调处攻坚战 2013-09-03
·
·肃州环保局中央农村环境整治项目通过检查 2013-08-30
关于python - 使用Python(Beautifulsoup)在网页上提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20050421/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!