gpt4 book ai didi

python - 如何将每个抓取的项目组织到 csv 行中?

转载 作者:行者123 更新时间:2023-12-01 06:18:40 25 4
gpt4 key购买 nike

将抓取的数据组织到 csv 中的最佳方法是什么?更具体地说,每个项目都采用这种形式

url
"firstName middleInitial, lastName - level - word1 word2 word3, & wordN practice officeCity."
JD, schoolName, date

示例:

http://www.examplefirm.com/jang
"Joe E. Ang - partner - privatization mergers, media & technology practice New York."
JD, University of Chicago Law School, 1985

我想将此项目放入以下形式:

(http://www.examplefirm.com/jang, Joe, E., Ang, partner, privatization mergers, media & technology, New York, University of Chicago Law School, 1985)

这样我就可以将其写入 csv 文件以导入到 django 数据库。

最好的方法是什么?

谢谢。

最佳答案

这确实没有捷径。 1号线很容易。只需将其分配给 url 即可。第 3 行可能可以在 , 上拆分,而不会产生任何不良影响,但第 2 行必须手动解析。你对word1-wordN了解多少?你确定“实践”永远不会成为“言语”吗?你确定这些词只有一个词长吗?可以引用它们吗?它们可以包含破折号吗?

然后我会解析出开始和结束位,这样你就剩下一个单词列表,用逗号和/或 & 分隔它。 (&之前是否有一致的逗号?您的格式说是,但您的示例说否。)如果单词数量可变,您不想像那样将它们内联到元组中,因为您不这样做知道如何把他们救出来。根据您的单词创建一个列表,并将其添加为元组的一个元素。

>>> tup = (url, first, middle, last, rank, words, city, school, year)
>>> tup
('http://www.examplefirm.com/jang', 'Joe', 'E.', 'Ang', 'partner',
['privatization mergers', 'media & technology'], 'New York',
'University of Chicago Law School', '1985')

更具体地说?你只能靠自己了。

关于python - 如何将每个抓取的项目组织到 csv 行中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1841903/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com