gpt4 book ai didi

python - 解析 Quora 中包含代码的答案

转载 作者:行者123 更新时间:2023-12-01 04:23:49 33 4
gpt4 key购买 nike

我想从 Quora 或带有代码的通用帖子中解析这篇文章。
示例:http://qr.ae/Rkplrt

通过使用 Selenium(一个 Python 库),我可以获取帖子中的 HTML:

 h = html2text.HTML2Text()
content = ans.find_element_by_class_name('inline_editor_value')
html_string = content.get_attribute('innerHTML')
text = h.handle(html_string)
print text

我希望它全部成为一个文本 block 。但对于包含代码的表,html2text 会插入许多 \n 并且不处理行的索引。

所以我可以看到这个:
https://imageshack.com/i/paEKbzT4p (这是包含带有代码的表的主要 div。) https://imageshack.com/i/hlIxFayop (html2text提取的文本)
https://imageshack.com/i/hlHFBXvQp (相反,这是文本的最终打印,但索引行和额外的 \n 存在问题。)

我已经尝试过不同的设置,例如 github 上的本指南中的bypasse_tables:( https://github.com/Alir3z4/html2text/blob/master/docs/usage.md#available-options ),但没有成功。

有人可以告诉我在这种情况下如何使用 html2text 吗?

最佳答案

您实际上根本不需要使用 HTML2Text

selenium 可以直接获取“文本”:

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://qr.ae/Rkplrt")

print(driver.find_element_by_class_name('inline_editor_content').text)

它打印帖子的内容:

The single line of code must be useful, not something meant to be confusing or obfuscating.

...

What examples have you created or encountered ?

关于python - 解析 Quora 中包含代码的答案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33373597/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com