gpt4 book ai didi

php - 网站内容如何存储?

转载 作者:行者123 更新时间:2023-11-30 00:29:23 27 4
gpt4 key购买 nike

我编写了 PHP 脚本,它应该抓取一个域的所有子页面,将文本(所有关键字)从子页面上传到数据库(MySQL)。接下来,我想快速查找具有特定关键字的网址。在我的例子中,如何保存和处理大文本数据?它应该像谷歌的网站抓取工具一样工作

我找到了两个解决方案:

  1. 将文本上传到一列并包含全文
  2. 创建 2 个表:关键字、关键字子页面,其中键为:关键字 ID、子页面 ID

您能推荐其他解决方案、方法吗?

最佳答案

您可以使用正则表达式在内存中处理完整的 html,然后仅将相关数据保存到数据库中,或者将全文保存到数据库中进行批处理。这是一篇关于 regular expression crawling 的文章.

例如,此正则表达式模式将匹配 html 中的超链接:

preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

关于php - 网站内容如何存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22629011/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com