python - 如何从我收到的电子邮件中的超链接中提取 URL？-6ren

python - 如何从我收到的电子邮件中的超链接中提取 URL？

转载作者：行者123 更新时间：2023-12-04 10:07:07

我正在尝试使用 beautifulsoup 从我的电子邮件中提取 URL。当我使用 google API 从我的 get 请求返回原始 HTML 时，这就是我得到的(我已经删除了敏感信息并将其替换为 a 和 1)。在这中间，href=3D"后跟一个 URL 是我需要的 URL。它包含 2 行，但是当我复制和粘贴它(删除 = 时)它是正确的 URL。

<html><head></head><body><div class=3D"ydp20dc8582yahoo-style-wrap" style=
=3D"font-family:Helvetica Neue, Helvetica, Arial, sans-serif;font-size:13px=
;"><div></div>
        <div><br></div><div><br></div>
       =20
        </div><div id=3D"ydp475be88byahoo_quoted_8442876516" class=3D"ydp47=
5be88byahoo_quoted">
            <div style=3D"font-family:'Helvetica Neue', Helvetica, Arial, s=
ans-serif;font-size:13px;color:#26882a;">
                <div>----- Forwarded Message -----</div>
                <div><b>From:</b> auto-confirm@aaaaaaaaaaaaaaaaaaaaaaa.com =
&lt;auto-confirm@aaaaaaaaaaaaaaaaaaaaaaa.com&gt;</div><div><b>To:</b> "aaaa=
aaaa@yahoo.com" &lt;aaaaaaaa@yahoo.com&gt;</div><div><b>Sent:</b> Thursday,=
 April 23, 2020, 1:39:28 PM CDT</div><div><b>Subject:</b> You chose a Virtu=
aaaaaaaaaaaa!</div><div><br></div>
                <div><div id=3D"ydp475be88byiv6890824975"><div><p> Hello aa=
aaaaaaaaaa, </p><p> Thanks for visiting <a href=3D"https://www.aaaaaaaaaaaa=
aaaaaaaaaaa.com/token/111111111aaaaa11111aaaa111111111" rel=3D"nofollow" ta=
rget=3D"_blank">https://www.aaaaaaaaaaaaaaaaaaaaaaa.com</a>. You recently s=
elected a aaaaaaaaaaaaaaaaaaaaaaaaaaaa. </p><p><a href=3D"https://www.aaaaa=
aaaaaaaaaaaaaaaaaa.com/token/111111111aaaaa11111aaaa111111111" rel=3D"nofol=
low" target=3D"_blank">Click here</a> to aaaaaaaaaaaaaaaaaaaaaaaa details, =
spend history and more. <br>Enjoy aaaaaaaaa!</p><p> https://www.aaaaaaaaaaa=
aaaaaaaaaaaa.com </p><p>Digital token: 1111-111111-1111</p><hr><p>Please do=
n=E2=80=99t reply to this email. If you have questions, please <a href=3D"h=
ttps://www.aaaaaaaaaaaaaaaaaaaaaaaaa.com/ContactUs" rel=3D"nofollow" target=
=3D"_blank"> click here. </a></p></div></div></div>
            </div>
        </div></body></html>

我需要在 2 行的 href 标签中提取 URL。当我把它做成beautifulsoup 项目时，它似乎在= 符号处剪掉了所有的标签。这是当我将上述内容分配给一个漂亮的汤项目然后打印它时显示的内容。

<html><head></head><body><div arial="" class='3D"ydp20dc1111yahoo-style-wrap"' helvetica="" 
neue="" sans-serif="" style='=3D"font-family:Helvetica'><div></div>
<div><br/></div><div><br/></div>
       =20
        </div><div class='3D"ydp47=' id='3D"ydp47511111yahoo_quoted_8445876516"'>
<div arial="" helvetica="" neue="" s='ans-serif;font-size:13px;color:#26282a;"' 
style="3D&quot;font-family:'Helvetica">
<div>----- Forwarded Message -----</div>
<div><b>From:</b> auto-confirm@aaaaaaaaaaaaaaaaaaaa.com =
&lt;auto-confirm@aaaaaaaaaaaaaaaaaaaaaaa.com&gt;</div><div><b>To:</b> "aaaa=
aaaa@yahoo.com" &lt;aaaaaaaa@yahoo.com&gt;</div><div><b>Sent:</b> Thursday,=
 April 23, 2020, 1:39:28 PM CDT</div><div><b>Subject:</b> You chose a Virtu=
aaaaaaaaaaa!</div><div><br/></div>
<div><div id='3D"ydp475be88byiv6890824975"'><div><p> Hello aa=
aaaaaaaaa, </p><p> Thanks for visiting <a alsolutions.com="" 
href='3D"https://www.aaaaaaaaaaaa=' rel='3D"nofollow"' 
ta='rget=3D"_blank"'>https://www.aaaaaaaaaaaaaaaaaaaaaaaaa.com</a>. You recently s=
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa. </p><p><a href='3D"https://www.aaaaa=' 
aaaaaaaaaaaaaaaaaaa.com="" low="" rel='3D"nofol=' target='3D"_blank"'>Click here</a> to 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa =
aaaaaaaaaaaaaaaaaaaa. <br/>Enjoy aaaaaaaaaaaaa</p><p> https://www.aaaaaaaaaaaaaaa=
aaaaaaaaaaaaaa.com </p><p>Digital token: aaaa-aaaaaa-aaaa</p><hr/><p>Please do=
n=E2=80=99t reply to this email. If you have questions, please <a href='3D"h=' 
rel='3D"nofollow"' target='=3D"_blank"' ttps:=""> click here. </a></p></div></div></div>
</div>
</div></body></html>

如您所见，当 google api 切断它时，beautifulsoup 似乎丢失了 URL。我不知道为什么谷歌的 api 会这样分解。这是我用来从我的电子邮件中提取 html 的代码。

for item in msg_id:
        message = service.users().messages().get(userId = user_id, id = item, format = 
                  'raw').execute()
        msg_raw = base64.urlsafe_b64decode(message['raw'].encode('ASCII'))
        msg_str = email.message_from_bytes(msg_raw)
        content_types = msg_str.get_content_maintype()
        if content_types == 'multipart':
            part1, part2 = msg_str.get_payload()
            # print(part2.get_payload())
            return part2.get_payload()
        else:
            return msg_str.get_payload()

关于如何更改我的 google API 请求或 beautifulsoup 请求的任何帮助都会非常有帮助。提前致谢。

编辑:我做了@fedeCalendino 的建议，这是输出。它仍然将 URL 分成 2 行，中间有一个 =。

  soup = BeautifulSoup(content)
[<a href="https://www.aaaaaaaaaaaaaaa=
aaaaaaaaaaaaa.com/token/aaaaaaa111111111aaaaaaaaaa11111111" rel="nofollow" 
ta='rget="_blank"'>https://www.aaaaaaaaaaaaaaaaaaaaaaaaaa.com</a>, <a 
href="https://www.aaaaa=    
iddigitalsolutions.com/token/aaaaaaa111111111aaaaaaa1111111" rel="nofol= 
low" target="_blank">Click here</a>, <a href="h=
ttps://www.aaaaaaaaaaaaaaaaaaaaaaaaa.com/ContactUs" rel="nofollow" 
target='="_blank"'> click here. </a>]

最佳答案

您可以先清理内容，然后再放入 bs。

   content = google_api.get_email()
   content = content.replace("=3D", "=")

   soup = BeautifulSoup(content)
   all_as = soup.find_all("a")

关于python - 如何从我收到的电子邮件中的超链接中提取 URL？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61529755/

文章推荐： mongodb - 如何在 MongoDB 上创建包含数组的数组

文章推荐： Python 目录 hell

文章推荐： c# - 使用多个表和组将 SQL 转换为 LINQ

文章推荐： java - 如何使用 Jackson 反序列化混合类型的匿名数组

javascript - 在同一选项卡中打开下 zipper 接
我使用下拉菜单提供一些不同的链接，但我希望这些链接在同一选项卡中打开，而不是在新选项卡中打开。这是我找到的代码，但我对 Javascript 非常缺乏知识 var urlmenu = docume
javascript - 删除双击下 zipper 接
我对 javascript 不太了解。但我需要一个垂直菜单上的下拉菜单，它是纯 JavaScript，所以我从 W3 复制/粘贴脚本:https://www.w3schools.com/howto/t
html - 为什么我的导航栏不垂直显示下 zipper 接？
我已经坐了 4 个小时，试图让我的导航显示下 zipper 接垂直，但它继续水平显示它们。我无法弄清楚为什么会发生这种情况或如何解决它。如果有人能告诉我我做错了什么，我将不胜感激。我有一个潜移默化的
jquery - 事件下 zipper 接
我正在尝试创建选项卡式 Accordion 样式下拉菜单。我使用 jQuery 有一段时间了，但无法使事件状态达到 100%。我很确定这是我搞砸的 JS。 $('.service-button').
css - 如何像在保管箱上一样创建下 zipper 接
对于那些从未访问过 Dropbox 的人，这里是链接 https://www.dropbox.com/ 查看“登录”的下拉菜单链接。我如何创建这样的下 zipper 接？最佳答案这是 fiddle
css - Liferay 样式导航栏下 zipper 接
我正在制作一个 Liferay 主题，但我在尝试设计导航菜单的样式时遇到了很多麻烦。我已经为那些没有像这样下拉的人改变了导航链接上的经典主题悬停功能: .aui #navigation .nav li
html - 如果事件下 zipper 接，文本下划线
如果您将鼠标悬停在 li 上，则会出现一个下拉菜单。如果您将指针向下移至悬停时出现的 ul，我希望链接仍然带有下划线，直到您将箭头从 ul 或链接移开。这样你就知道当菜单下拉时你悬停在哪个菜单上。知
javascript - 如果用户单击第二个下 zipper 接，则关闭下拉菜单
我有一个带有多个下拉菜单的导航栏。因此，当我单击第一个链接时，它会打开下拉菜单，但是当我单击第二个链接时，第一个下拉菜单不会关闭。 (所以如果用户点击第二个链接我想关闭下拉菜单) // main.js
html - 具有多个文本对齐方式的导航栏下 zipper 接(Bootstrap)
我正在尝试制作一个导航下拉菜单(使用 Bootstrap 3)，其中链接文本在同一行上有多个不同的对齐方式。在下面的代码中，下拉列表 A 中的链接在 HTML 中有空格字符来对齐它们，但是空白被忽略
html - Bootstrap 3底部垂直对齐图像并链接右 zipper 接
我希望有人能帮我解决这个 Bootstrap 问题，因为我很困惑。有人要求我在底部垂直对齐图像和其中包含图像的链接。我面临的问题是他们还希望链接在链接/图像组合上具有 pull-right，这会杀
javascript - 用于显示索引 View 中页面的下 zipper 接 Rails
我正在构建一个 Rails 应用程序，并希望指向我的类的每个实例的“显示”页面的链接显示在“索引”页面的下拉列表中。我目前正在使用带有 options_from_collection_for_sele
css - style single bootstrap 3 导航下 zipper 接
我有以下 Bootstrap3 导航菜单 ( fiddle here )。我想设置“突出显示”项及其子链接与下拉列表 1 和 2 链接不同的链接文本(和悬停)的样式。我还希望能够以不同于 Highli
css - Bootstrap 4 - H3 inside 下 zipper 接
我对导航栏中的下拉菜单有疑问。对于普通的导航链接(无下拉菜单)，我将菜单文本放在 H3 中，但是当我尝试对下 zipper 接执行相同操作时，箭头不在标题旁边，而是在标题下方。我决定用 span 替换

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何从我收到的电子邮件中的超链接中提取 URL？