- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想访问标签的文本,但是 get_text()
和 text
属性都不适用于以下 HTML:
<label class="checkbox">
<input type="checkbox" value="BATSMC">
BATS Multicast PITCH
</label>
例如,这里我想获取值:BATS Multicast PITCH
。
在 Selenium-Python 代码中:
print e.text
给出空格并且 get_text()
给出以下错误:
AttributeError: 'WebElement' object has no attribute 'get_text'
我得到了正确的网络元素,并且能够访问其他属性,如大小、位置、父级等。我希望“文本”能够工作。谁能帮忙?
最佳答案
<label>
上述 HTML 中的标记没有文本属性。
如果你想检索 BATS Multicast PITCH
字符串,那么你需要从 <input>
中获取它标签代替。例如,下面的代码将打印这个字符串:
e = driver.find_element_by_tag_name('input')
print e.text
如果您想检索 <label>
的整个 内部 HTML标签,那么你可以使用:
e = driver.find_element_by_tag_name('label')
print e.get_attribute('innerHTML')
这将打印 "<input type="checkbox" value="BATSMC">BATS Multicast PITCH
.
当然,你可能还有其他<label>
和 <input>
HTML 中的标记,因此您需要使用不同的方法(find_element_by_tag_name
除外)才能找到这些特定元素。
顺便说一句,我刚刚注意到 <input>
上面 HTML 中的标记未正确关闭...
关于python - get_text() 或文本属性不适用于标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22231048/
我想访问标签的文本,但是 get_text() 和 text 属性都不适用于以下 HTML: BATS Multicast PITCH 例如,这里我想获取值:BATS Multicast PIT
我可以使用此代码块从网站解析我需要的字段: response = requests.get(index_url) soup = bs4.BeautifulSoup(response.text, "lx
我正在尝试提取下一页的文本并将其保存到 CSV 文件的单个单元格中。但是,我总是在看不到任何“特殊”字符的地方换行(即即使文本中没有“\n”、“\t”等)。 CSV 文件的第二行也有多个非空单元格,而
我试图通过解析 html 来编译以下代码,但出现错误: import string, urllib2, urlparse, csv, sys from urllib import quote from
我正在尝试使用 beautifulsoup get_text() 方法从 html 标签中获取所有文本。我使用 Python 2.7 和 Beautifulsoup 4.4.0。它适用于大多数时间。但
问候, 想知道我们是否需要使用 get_text() 显式释放由 xmldomnodeptr 分配的字符串 即 IXMLDOMNodePtr pNode; /*some code*/
这个问题在这里已经有了答案: Can I remove script tags with BeautifulSoup? (3 个答案) 关闭 7 年前。
我正在用 解析 HTML 文本 Telephone = soup.find(itemprop="telephone").get_text() 如果电话号码位于 itemprop 标记之后的 HTML
我想创建一个顶级窗口并在其中使用此函数。 没有任何例子...... 完整说明位于 /usr/share/ada/adainclude/gtkada/gtk-gentry.ads function Ge
这个问题在这里已经有了答案: how to get text from within a tag, but ignore other child tags (2 个答案) 关闭 6 年前。 假设我有
这可能看起来很简单,但我无法让它发挥作用。最近刚开始学习scraping,也遇到了这个问题。尝试了 python REPL 中的代码,它似乎可以工作,但是不确定为什么当我编码它时,它无法工作。 这是我
我正在尝试使用 BeautifulSoup 从网页中获取文本。 下面是我为此编写的脚本。它有两个参数,第一个是输入的 HTML 或 XML 文件,第二个是输出文件。 import sys from b
在BeautifulSoup中,.text和.get_text()有什么区别吗? 获取元素的文本应该首选哪个? >>> from bs4 import BeautifulSoup >>> >>> ht
我正在尝试使用 bs4 删除所有 html/javascript,但是,它并没有摆脱 javascript。我仍然在文本中看到它。我该如何解决这个问题? 我尝试使用 nltk 效果很好,但是 clea
我正在尝试从以下 html 结构中提取文本: Text to extract 我有以下 B
我正在学习 bs4 的一些教程。我正在尝试使用“a”获取以下示例的 get_text()。教程返回结果 McDermott International 和 MDR 没有问题。但是当我这样做时,我得到了
我正在尝试从网站上抓取文本,同时保留其 使用 '\n' 格式化我的输出的标签秒。但是,我找不到一种有效的方法来做到这一点。 (注意:我不能使用 get_text(separator='\n'),因为像
我有一大块用 bs4 提取的 html 如下 Satin Smooth Universal Protective Wax Pot Collars by Satin Smooth 我使用 text
我想从 https://www.medindia.net/doctors/drug_information/abacavir.htm 的多个页面中提取多个药品信息, https://www.medin
我使用 BS4 (python3) 从 html 文件中提取文本。我的文件如下所示: Hello World! 当我调用 get_text() 方法时,输出是 Hello Wor
我是一名优秀的程序员,十分优秀!