gpt4 book ai didi

java - 选择包含有关智能手机信息以及其他数据的条目

转载 作者:行者123 更新时间:2023-11-30 05:34:27 24 4
gpt4 key购买 nike

我不确定如何解决以下问题,我正在寻找一些指导:

我有一个文件,其中每行包含一个随机广告标题。我需要做的是将每个标题分类为智能手机非智能手机,具体取决于广告是否销售手机。

很抱歉,该文件不是英文的,但这里有一个屏幕截图,显示了其中的一小部分: complete file here enter image description here

我遇到的问题:

  • 一些广告标题与智能手机相关,但它们实际上并不是销售手机,而是销售与之相关的商品(配件)。示例:销售 Iphone X 手机壳的广告

  • 有些广告标题甚至没有手机品牌,而只有型号。示例:“白色小米 Mi Mix 2s Global 64GB”或“J7 Pro 64GB 4g J730”。

  • 如果有一种方法可以从标题中提取准确的手机型号,那就完美了,但由于每个广告标题的格式不同,我找不到实现此目的的方法。

  • 通常品牌会生产多种产品,而智能手机只是其中一种产品。因此,当我按品牌名称进行过滤时,它通常会返回与智能手机根本无关的广告(平板电脑、电视、充电器等)。需要更多过滤

  • 即使我被允许使用它,我也找不到包含所有智能手机型号列表的数据库,或者我不知道如何从中检索信息。

到目前为止我的想法:

  • 如果我可以访问包含大量智能手机型号的数据库,我可以直接在文件中搜索每个型号名称(例如“Iphone 5s”或“Moto G6”)。

  • 我尝试使用 FonoAPI https://fonoapi.freshpixl.com (这是一个智能手机数据库,用于使用java、php等查询有关手机的数据)搜索特定品牌的智能手机型号,但API每次最多只能返回100个结果。因此,为了使用它,我需要从标题中提取产品型号名称,以便我可以检查它是否在 FonoAPI DB 中列出

因此,由于文件中每个广告标题的格式不同,我正在寻找一些关于如何执行此操作的想法,因为我找不到从标题中提取产品模型以与 FonoAPI 数据库进行比较的方法,两者都无法访问包含大量模型的大型数据库来直接在文件中查找它们。

最佳答案

我的答案不是很精确,更像是我想提出的想法(因为我喜欢这个问题并且很高兴获得该文件,似乎不可能从您的链接中获取它)。

首先,对于所有 NLP 问题,您需要确保所有文本的格式都相同。

获取手机型号数据库。我会尝试获取包含手机品牌的数据库。然后去销售网站进行网络抓取。这样你就会得到很多手机型号。

我会尝试使用一些 NLP 模型,例如 LDA,但采用另一种格式化方式(例如去掉 gb 和手机品牌后面超出限制的单词。我们希望所有手机都接近这些单词)。

这可能是愚蠢的想法,但我想分享(而且我无法评论:D)。

关于java - 选择包含有关智能手机信息以及其他数据的条目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56894649/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com