gpt4 book ai didi

excel - 尝试从推文中提取坐标[Excel 中字符串的子字符串]

转载 作者:行者123 更新时间:2023-12-03 02:24:22 24 4
gpt4 key购买 nike

我已使用 Twitter ID 从 Twitter 中提取了推文。我使用的工具提取大量特征并将它们一起附加到 .csv 文件的一个单元格中。有多个文件,每个文件的大小各不相同,但包含大约一百万行。我现在正处于将每个字符串拆分为列的痛苦过程中,其中每列代表一个功能。

到目前为止,我已经能够使用以下 Excel 函数组合来拆分要素,因为每个要素名称都是唯一的(它在整个单元格中仅出现一次):

=MID(A4,FIND("retweet_count",A4)+15,FIND("favorite_count",A4)-FIND("""retweet_count",A4)-18)

在此示例中,我只能选择“retweet_count”和“fovourite_count”之间的文本,它是一个整数值,显示收到的推文的转发次数。数字(“+15”和“-18”)只是删除了功能名称本身。此方法不适用于推文坐标。

下面是我的文件示例(我的一个驱动器)的链接,其中包含 4 个字符串以及迄今为止我已成功拆分的功能:

https://1drv.ms/f/s!At39YLF-U90fhJwCdEuzAc2CGLC_fg

只有推文 3 和 4 包含坐标(其他 2 条没有地理标记)。使用上述方法不起作用,正如在单元格 M4 和 M5 中看到的那样,当单元格 A4 和 A5 包含坐标时,它们显示“null”。

如果有人能建议一种基于 A 列中字符串的结构从 A 列中的字符串中提取坐标的动态方法,我将非常感激。我说动态,因为您不能简单地选择固定位置在字符串中,因为每条推文的长度都会不同。到目前为止,我尝试使用包含多个功能的更大字符串,例如“点”、“坐标”而不仅仅是“坐标”,但这导致了处理语音标记的困难。然后我尝试使用 char(34),我在其他一些帖子中说过,但这种方法没有成功。

预先感谢您的帮助,

克里斯

最佳答案

您所做的不是解析 JSON 的正确方式,但仍然足以满足中小型需求。

此公式将从单元格 A4 中的推文中额外添加一组坐标:

=MID(A4,FIND("""coordinates"":[",A4)+15,FIND("]",A4,FIND("""coordinates"":[",A4)+15)-(FIND("""coordinates"":[",A4)+15))

...因此将其放入示例电子表格的 M4 中,它会返回:

-26.8321,-71.1199

但是,我怀疑你的最终目标...如果你的目标是实时地震位置数据,除非有特殊原因需要你专门使用 Twitter,否则它就是一个糟糕的数据源,由于许多原因,并且有许多比这更好的免费地方来获取(或抓取)实时地震数据。

另一方面,如果这是一个学习项目并且数据无关紧要,那么这是学习文本函数的好方法(但仅此而已!)。

<小时/>

也许您专门抓取推文是有原因的,但为了以防万一,这里有一个(众多)实时(并且值得信赖)的示例)数据来源...

要检索包含今年阿拉斯加和不列颠哥伦比亚省沿海地区之间震级 >= 3.0 的所有地震事件的 XML:

或者,要获取与下载的 CSV 文件相同的数据(直接导入 Excel),只需将 URL 中的“XML”更改为“CSV”,或 click this link .

csv data

同一来源提供多种格式的数据。

最后要考虑的一件事:Excel 有各种内置的数据解析方法,例如 XML、JSON、CSV 等。您可能正在尝试重写 Excel 中已内置的功能。

关于excel - 尝试从推文中提取坐标[Excel 中字符串的子字符串],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48607719/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com