gpt4 book ai didi

linux - 如何从网页中提取数据(用户名)

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:42:52 25 4
gpt4 key购买 nike

我想像这样从成员列表页面收集用户名: http://www.marksdailyapple.com/forum/memberslist/

我想从所有页面中获取每个用户名,

我想在 linux 中用 bash 来做这个

我应该从哪里开始,有人可以给我一些提示吗?

最佳答案

这就是我的 Xidel专为:

xidel http://www.marksdailyapple.com/forum/memberslist/ -e 'a.username'  -f '(//a[@rel="Next"])[1]'

通过这个简单的行,它将使用适当的 html 解析器解析页面,使用 css 选择器查找所有带名称的链接,使用 xpath 查找下一页并重复它直到处理完所有页面

你也可以只使用 css 选择器来编写它:

xidel http://www.marksdailyapple.com/forum/memberslist/ -e 'a.username'  -f 'div#pagination_top span.prev_next a'

或者模式匹配。在那里,您基本上只需从页面源代码中复制要查找的 html 元素,并将文本内容替换为 {.}:

xidel http://www.marksdailyapple.com/forum/memberslist/ -e '<a class="username">{.}</a>*'  -f '<a rel="next">{.}</a>'

关于linux - 如何从网页中提取数据(用户名),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19610715/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com