- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想从 https://archive.org/download/stackexchange 中提取问题/答案对,特别是来自任何转储的 Posts.xml
文件(我随机选择了 Anime
转储,因为它相当小并且靠近顶部)。我对该文件布局方式的理解是,有两种 PostTypeId
类型,1
是问题(包括问题正文、标题和其他元数据) 2
是答案(包括分数、答案正文和其他元数据)。
数据很容易关联,如果我们有这样的条目
<row Id="1" PostTypeId="1" AcceptedAnswerId="8" CreationDate="2012-12-11T20:37:08.823" Score="69" ViewCount="22384" Body="<p>Assuming the world in the One Piece universe is round, then there is not really a beginning or an end of the Grand Line.</p>

<p>The Straw Hats started out from the first half and are now sailing across the second half.</p>

<p>Wouldn't it have been quicker to set sail in the opposite direction from where they started? </p>
" OwnerUserId="21" LastEditorUserId="1398" LastEditDate="2015-04-17T19:06:38.957" LastActivityDate="2015-05-26T12:50:40.920" Title="The treasure in One Piece is at the end of the Grand Line. But isn't that the same as the beginning?" Tags="<one-piece>" AnswerCount="5" CommentCount="0" FavoriteCount="2" />
相应的答案是:
<row Id="8" PostTypeId="2" ParentId="1" CreationDate="2012-12-11T20:47:52.167" Score="60" Body="<p>No, there is a reason why they can't. </p>

<p>Basically the <a href="http://onepiece.wikia.com/wiki/New_World">New World</a> is beyond the <a href="http://onepiece.wikia.com/wiki/Red_Line">Red Line</a>, but you cannot "walk" on it, or cross it. It's a huge continent, very tall that you cannot go through. You can't cross the <a href="http://onepiece.wikia.com/wiki/Calm_Belt">Calm Belt</a> either, unless you have some form of locomotion such as the Navy or <a href="http://onepiece.wikia.com/wiki/Boa_Hancock">Boa Hancock</a>.</p>

<p>So the only way is to start from one of the Four Seas, then to go the <a href="http://onepiece.wikia.com/wiki/Reverse_Mountain">Reverse Mountain</a> and follow the Grand Line until you reach <em><a href="http://onepiece.wikia.com/wiki/Raftel">Raftel</a></em>, which supposedly is where One Piece is located.</p>

<p><img src="http://i.stack.imgur.com/69IZ0.png" alt="enter image description here"></p>
" OwnerUserId="15" LastEditorUserId="1528" LastEditDate="2013-05-06T19:21:04.703" LastActivityDate="2013-05-06T19:21:04.703" CommentCount="1" />
在第一个 xml 片段中,PostTypeId="1"
表示该行是一个问题,AcceptedAnswerId="8"
表示 Id
的答案。在第二个 xml 片段中,Id="8"
是问题中的 AcceptedAnswerId
,PostTypeId="2"
表示这是答案,ParentId
是问题 Id
。
话虽这么说,我如何才能轻松地轮询这些数据以获取问题/答案对。理想情况下,如果我可以将其转换为我熟悉这些类型的数据结构的 SQLite3 或 Mysql 数据库,那将会很有用。如果那不可能(通过数据库函数本身或通过脚本包装器来填充数据库),我将如何在 Ruby
中解析此数据,以便我可以通过整个 XML 文档提取 title
和 body
问题,然后将其与适当的 answer
正文配对。
感谢您的宝贵时间。
最佳答案
Stack Exchange Creative Commons 数据转储只是来自 Stack Exchange 生产 Microsoft SQL Server 数据库的(经过净化的)转储。因此,考虑到数据来自 SQL 数据库并且确实是 关系数据,您可以将其导入回数据库。
数据库模式在 Data Dump's README 中描述。 ,您可以在 Meta Stack Exchange 上找到一些将其导入数据库的旧脚本。 .当然,如果你想要的只是类似 SQL 的关系查询接口(interface),你可以只使用 Stack Exchange Data Explorer .
关于mysql - 从 XML stackexchange 转储中提取问答对,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41796294/
我是一名优秀的程序员,十分优秀!