gpt4 book ai didi

html - python从html文件中提取电子邮件地址到另一个文件中

转载 作者:行者123 更新时间:2023-11-28 01:20:52 25 4
gpt4 key购买 nike

基本上我想做的是:

我下载了一个 HTML 文件,该文件中包含大量文本和大量不同的电子邮件地址。我想做的是仅从该文件中收集电子邮件地址并使用 Python 3.4 输入到 1 个 excel 文件中。有人可以帮忙吗?

HTML 文件如下所示:

    <span style="display: none;"></span>
</td>
<td>Customer Care
- <a href="?team_search=Team%20Resera" >Team Resera</a>
<br>(<a href="team.html?orgunit_id=50012581">team page &amp; map</a>)
</td>
<td>Berlin (BER2): Sesamestreet 11-12 </td>
<td><a href="mailto:blablabla.@blabla.com">blablabla.blabla@blabla.com</a><br />
(<a href="jabber://blablabla.blabla@blabla.com">jabber</a>)
(<a href="xmpp://blablabla.blabla@blabla.com">xmpp</a>)
</td>
<td>
work: <a href="tel:72496532">72496532</a> (<a href="skype:72496532">Skype</a>)<br />
</td>

最佳答案

这应该让你开始,从它输出的示例 html

import re
file = open('example.html')
line = file.readline()
while line:
line = file.readline()
if bool(re.search(r'([\w.])+@([\w.])+', line)):
email = line.split('//',1)[-1]
email = email.split('\"',1)[0]
print email
file.close()
#outputs blablabla.blabla@blabla.com

关于html - python从html文件中提取电子邮件地址到另一个文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33969166/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com