gpt4 book ai didi

python - 查询 : Why is my regex code not reading all characters?

转载 作者:太空宇宙 更新时间:2023-11-04 09:11:20 24 4
gpt4 key购买 nike

我有以下描述我想使用我的程序抓取。

<hr>为 AFROTC 学员提供多达 13 种实践领导力和专业培训选项通过接触美国空军的职能、部署和就业行动。外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实习。所有计划都在选定的空军基地以及美国和国外的其他地点进行。 <br>

我有以下代码:

findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)

我得到以下输出:

['通过接触美国空军的职能、部署和就业行动,为 AFROTC 学员提供多达 13 种实践领导力和专业培训的选择。\xc2\xa0 外语和文化浸入也可用/可能,但总体重点仍然是领导力发展和实习。\xc2\xa0 所有项目都在选定的空军基地和美国和国外的其他地点进行。']

为什么我会收到像 \xc2\xa0 这样奇怪的东西?在这里?我的代码也被引号 " 绊倒了。 .坦率地说,我相信时期.在我的正则表达式代码中应该接受所有字符串。出了什么问题?

我很感激任何快速提示。我周五才听说正则表达式,我已经取得了巨大的进步,但是这个真的让我绊倒了几个小时。

亲切的问候,极客欧米茄

最佳答案

\xC2\xA0是unicode字符0xA0的UTF-8编码,通常写成 在 html 文件中。

关于python - 查询 : Why is my regex code not reading all characters?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14677397/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com