gpt4 book ai didi

search - 寻找易于被搜索引擎索引的唯一 ID 模式

转载 作者:行者123 更新时间:2023-12-02 17:46:34 25 4
gpt4 key购买 nike

例如来自 Microsoft - “KB2756872” 或来自 National Vulnerability数据库 - “CVE-2010-1428” 或来自 Red Hat - “RHSA-2010:0376” 或来自 OID - “1.3.6.1.4.1.311” 或来自 UUID/GUID- “550e8400-e29b-41d4-a716-446655440000”

我想将多个作业放入 UID。看下一个...

我开发博客软件并想在正文中放入唯一 ID每个帖子都可以轻松识别本地存储中的副本对应于远程发布的副本。

我还想发布到许多不同的博客服务,所以如果一个是下文章将可以从另一个访问。所以链接可以死了,但如果我添加 UID - 任何人都可以尝试网络搜索来查找帖子另一项服务!

这也允许收集一些文章传播统计数据。许多网站只是复制内容(文案写作和重写机器人和人)来破坏搜索引擎。使用 UID 我可以轻松识别此类网站...

所以我的问题是如何制作 UID(以何种形式)很容易被搜索引擎(网络,如谷歌/雅虎,和公司,如 Lucene/Solr/Sphinx/Xapian/等)。

我知道搜索引擎的一些限制,例如:

  • 每个搜索部分只有 >= 3 个字符
  • 它不是像 gfh6wytrh6wu56he5gahj763 这样的索引灰尘

所以这个任务并不容易......

如有任何建议(书籍/博客文章/等),我们将不胜感激。

最佳答案

你可以使用 Tag URIs ,定义为 RFC 4151 .

它们在全局范围内都是独一无二的,任何拥有域名或电子邮件地址至少一天的人都可以类型转换它们。

请注意,这些 URI 仅识别,它们不定位。因此,标签 URI 不会说明内容的发布位置。

假设您网站的域名是“example.com”。如果您创建博客文章,您可以创建以下标签 URI:

tag:example.com,2012-12:cute-cat

请注意,此 URI 中的日期不是发布日期!它必须是您拥有域(resp. 电子邮件地址)的(过去)日期。如果您在 2003 年注册了域,则始终可以使用以 tag:example.com,2004: 开头的标记 URI(不是“2003”,因为“2003”表示“2003-01-01” ,这可能是您还没有拥有该域的时间),后跟一个由您控制的(唯一)字符串。但是,如果您愿意,当然可以随时使用发布日期。但不要使用 future 的日期。

关于search - 寻找易于被搜索引擎索引的唯一 ID 模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13904733/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com