- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 site 上遇到了问题。我想以表格形式提取我的本地语言及其含义
import requests
from bs4 import BeautifulSoup
res2 = requests.get('https://steemit.com/nigeria/@leopantro/50-yoruba-proverbs-and-idioms')
soup2 = BeautifulSoup(res2.content,'html')
Yoruba = []
English = []
for ol in soup2.findAll('ol'):
proverb = ol.find('li')
Yoruba.append(proverb.text)
我成功地将本地语言提取到列表,我还想将以字符串 Meaning:
开头的每个句子提取到另一个列表,例如:['Your status in生活决定了你对同龄人的态度”、“以成熟的方式行事,以避免坏名声。”等等。]
最佳答案
该脚本抓取谚语、翻译和含义,并从中创建一个 pandas DataFrame。 含义列表位于data['Meaning']
内:
import re
import requests
import pandas as pd
from bs4 import BeautifulSoup
res = requests.get('https://steemit.com/nigeria/@leopantro/50-yoruba-proverbs-and-idioms')
soup = BeautifulSoup(res.content,'html.parser')
data = {'Yoruba':[], 'Translation':[], 'Meaning':[]}
for youruba, translation, meaning in zip(soup.select('ol'), soup.select('ol + p'), soup.select('ol + p + p')):
data['Yoruba'].append(youruba.get_text(strip=True))
data['Translation'].append(re.sub(r'Translation:\s*', '', translation.get_text(strip=True)))
data['Meaning'].append(re.sub(r'Meaning:\s*', '', meaning.get_text(strip=True)))
# print(data['Meaning']) # <-- your meanings list
df = pd.DataFrame(data)
print(df)
打印:
Yoruba Translation Meaning
0 Ile oba t'o jo, ewa lo busi When a king's palace burns down, the re-built ... Necessity is mother of invention, creativity i...
1 Gbogbo alangba lo d'anu dele, a ko mo eyi t'in... All lizards lie flat on their stomach and it i... Everyone looks the same on the outside but eve...
2 Ile la ti n ko eso re ode Charity begins at Home A man cannot give what he does not have good o...
3 A pę ko to jęun, ki ję ibaję The person that eat late, will not eat spoiled... It is more profitable to exercise patience whi...
4 Eewu bę loko Longę, Longę fun ara rę eewu ni There is danger at Longę's farm (Longę is a na... You should be extremely careful of situations ...
5 Bi Ēēgun nla ba ni ohùn o ri gontò, gontò na a... If a big masquerade claims it doesn't see the ... If an important man does not respect those les...
6 Kò sí ęni tí ó ma gùn ęşin tí kò ní ju ìpàkó. ... No one rides a horse without moving his head, ... Your status in life dictates your attitude tow...
7 Bí abá so òkò sójà ará ilé eni ní bá; He who throws a stone in the market will hit h... Be careful what you do unto others it may retu...
8 Agba ki wa loja, ki ori omo titun o wo. Do not go crazy, do not let the new baby look. Behave in a mature manner so avoid bad reputat...
9 Adìẹ funfun kò mọ ara rẹ̀lágbà The white chicken does not realize its age Respect yourself
10 Ọbẹ̀ kìí gbé inú àgbà mì The soup does not move round in an elder’s belly You should be able to keep secrets
... and so on
关于python - 如何从网站上包含特定字符串的所有段落中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59708109/
我有一个类似于以下的结构。 class A { string title; List bItem; } class B { int pric
本地流 和 远程流 两者都是“媒体流列表 ”。 本地流 包含“本地媒体流 ” 对象 但是,远程流 包含“媒体流 ” 对象 为什么差别这么大? 当我使用“本地流 “- 这个对我有用: localVide
我正在尝试将 8 列虚拟变量转换为 8 级排名的一列。 我试图用这个公式来做到这一点: =IF(OR(A1="1");"1";IF(OR(B1="1");"2";IF(OR(C1="1");"3";I
我正在使用面向对象编程在 Python 中创建一个有点复杂的棋盘游戏的实现。 我的问题是,许多这些对象应该能够与其他对象交互,即使它们不包含在其中。 例如Game是一个对象,其中包含PointTrac
有没有办法获取与 contains 语句匹配的最深元素? 基本上,如果我有嵌套的 div,我想要最后一个元素而不是父元素: Needle $("div:contains('Needle')")
出于某种原因,我无法在 Google 上找到答案!但是使用 SQL contains 函数我怎么能告诉它从字符串的开头开始,即我正在寻找等同于的全文 喜欢 'some_term%'。 我知道我可以使用
我正在尝试创建一个正则表达式来匹配具有 3 个或更多元音的字符串。 我试过这个: [aeiou]{3,} 但它仅在元音按顺序排列时才有效。有什么建议吗? 例如: 塞缪尔 -> 有效 琼 -> 无效 S
嘿所以我遇到了这样的情况,我从数据库中拉回一个客户,并通过包含的方式包含所有案例研究 return (from c in db.Clients.Include("CaseStudies")
如果关键字是子字符串,我无法弄清楚为什么这个函数不返回结果。 const string = 'cake'; const substring = 'cak'; console.log(string.in
我正在尝试将包含特定文本字符串的任何元素更改为红色。在我的示例中,我可以将子元素变为蓝色,但是我编写“替换我”行的方式有些不正确;红色不会发生变化。我注意到“contains”方法通常写为 :cont
我想问一下我是否可以要求/包含一个语法错误的文件,如果不能,则require/include返回一个值,这样我就知道所需/包含的文件存在语法错误并且不能被要求/包含? file.php语法错误 inc
我想为所有包含youtube链接的链接添加一个rel。 这就是我正在使用的东西-但它没有用。有任何想法吗? $('a [href:contains(“youtube.com”)]')。attr('re
我正在尝试在 Elasticsearch 中查询。除搜索中出现“/”外,此功能均正常运行。查询如下所示 GET styling_rules/product_line_filters/_search {
我正在开发名为eBookRepository的ASP.NET MVC应用程序,其中包含在线图书。 电子书具有自己的标题,作者等。因此,现在我正在尝试实现搜索机制。我必须使用Elasticsearch作
我已阅读Firebase Documentation并且不明白什么是 .contains()。 以下是文档中 Firebase 数据库的示例规则: { "rules": { "rooms"
我的问题是我可以给出条件[ 'BookTitleMaster.id' => $xtitid, ] 如下所示 $bbookinfs = $this->BookStockin->BookIssue->fi
我需要能够使用 | 检查模式在他们中。例如,对于像“dtest|test”这样的字符串,像 d*|*t 这样的表达式应该返回 true。 我不是正则表达式英雄,所以我只是尝试了一些事情,例如: Reg
我想创建一个正则表达式来不匹配某些单词... 我的字符:var test = "é123rr;and;ià456;or;456543" 我的正则表达式:test.match(\((?!and)(?!o
我在 XSLT 中有一个名为 variable_name 的变量,如果相关产品具有名称为 A 或 B 或两者均为 A & 的属性,我将尝试将其设置为 1 B.
您好,我想让接待员和经理能够查看工作类型和费率并随后进行更新。但是技术人员只能查看不能更新。该图是否有效? 我读到扩展用例是由发起基本用例的参与者发起的。我应该如何区分技术人员只能启动基本案例而不能启
我是一名优秀的程序员,十分优秀!