- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
对于读写密集型应用程序,在 mysql 中有效存储 url 的最佳方法是什么?
我将存储超过 500,000 个网址(全部以 http://或 https://开头。没有其他协议(protocol))并保存整个 url (http://example.com/path/?variable=a ) 放在一列中似乎在很大程度上是多余的,因为相同的域名和路径将多次保存到 mysql。
因此,最初,我想将它们分解(即域、路径和变量等)以消除冗余。但是看到有帖子说不推荐。对此有什么想法吗?
此外,应用程序通常必须在没有主键的情况下检索 url,这意味着它必须搜索文本以检索 url。 URL 可以被索引,但我想知道如果它们都在 innodb 下被索引(没有全文索引),那么存储整个 url 和分解的 url 之间会有多大的性能差异。
broken-down-url 必须经过额外的步骤来组合它们。此外,这意味着我必须从不同的表(协议(protocol)、域、路径、变量)中检索数据 4 次,但它也会使每行中存储的数据更短,并且每个表中的行也会更少。这可能会加快这个过程吗?
最佳答案
我已经广泛处理过这个问题,我的一般理念是使用使用频率方法。这很麻烦,但它可以让您对数据进行一些出色的分析:
CREATE TABLE URL (
ID integer unsigned NOT NULL PRIMARY KEY AUTO_INCREMENT,
DomainPath integer unsigned NOT NULL,
QueryString text
) Engine=MyISAM;
CREATE TABLE DomainPath (
ID integer unsigned NOT NULL PRIMARY KEY AUTO_INCREMENT,
Domain integer unsigned NOT NULL,
Path text,
UNIQUE (Domain,Path)
) Engine=MyISAM;
CREATE TABLE Domain (
ID integer unsigned NOT NULL PRIMARY KEY AUTO_INCREMENT,
Protocol tinyint NOT NULL,
Domain varchar(64)
Port smallint NULL,
UNIQUE (Protocol,Domain,Port)
) Engine=MyISAM;
作为一般规则,您将在单个域上具有相似的路径,但每个路径具有不同的查询字符串。
我最初设计它是为了让所有部分都在一个表(协议(protocol)、域、路径、查询字符串)中建立索引,但我认为上面的内容占用的空间更少,更有助于从中获取更好的数据。
text
往往很慢,因此您可以在使用一段时间后将“Path”更改为 varchar。大多数服务器在 URL 大约 1K 后就死机了,但我见过一些大服务器,宁愿不丢失数据也会犯错。
您的检索查询很麻烦,但如果您在代码中将其抽象化,没问题:
SELECT CONCAT(
IF(D.Protocol=0,'http://','https://'),
D.Domain,
IF(D.Port IS NULL,'',CONCAT(':',D.Port)),
'/', DP.Path,
IF(U.QueryString IS NULL,'',CONCAT('?',U.QueryString))
)
FROM URL U
INNER JOIN DomainPath DP ON U.DomainPath=DP.ID
INNER JOIN Domain D on DP.Domain=D.ID
WHERE U.ID=$DesiredID;
如果端口号不是标准的(http 非 80,https 非 443),则存储它,否则将其存储为 NULL 以表示不应包含它。 (您可以将逻辑添加到 MySQL,但它会变得更丑陋。)
我总是(或从不)从路径中去掉“/”以及“?”来自 QueryString 以节省空间。只有损失才能区分
http://www.example.com/
http://www.example.com/?
如果它很重要,那么我会改变你的策略,从不剥离它,只包含它。技术上,
http://www.example.com
http://www.example.com/
都是一样的,所以去除 Path 斜杠总是可以的。
因此,要解析:
http://www.example.com/my/path/to/my/file.php?id=412&crsource=google+adwords
我们将在 PHP 中使用类似 parse_url
的东西来生成:
array(
[scheme] => 'http',
[host] => 'www.example.com',
[path] => '/my/path/to/my/file.php',
[query] => 'id=412&crsource=google+adwords',
)
然后您将检查/插入(使用适当的锁,未显示):
SELECT D.ID FROM Domain D
WHERE
D.Protocol=0
AND D.Domain='www.example.com'
AND D.Port IS NULL
(如果不存在)
INSERT INTO Domain (
Protocol, Domain, Port
) VALUES (
0, 'www.example.com', NULL
);
然后我们的 $DomainID
继续......
然后插入DomainPath:
SELECT DP.ID FORM DomainPath DP WHERE
DP.Domain=$DomainID AND Path='/my/path/to/my/file.php';
(如果不存在,同样插入)
然后我们的 $DomainPathID
继续......
SELECT U.ID FROM URL
WHERE
DomainPath=$DomainPathID
AND QueryString='id=412&crsource=google+adwords'
并在必要时插入。
现在,让我注意重要,上述方案对于高性能站点来说会很慢。您应该修改所有内容以使用某种散列来加速 SELECT
。简而言之,该技术如下:
CREATE TABLE Foo (
ID integer unsigned PRIMARY KEY NOT NULL AUTO_INCREMENT,
Hash varbinary(16) NOT NULL,
Content text
) Type=MyISAM;
SELECT ID FROM Foo WHERE Hash=UNHEX(MD5('id=412&crsource=google+adwords'));
为了简单起见,我特意从上面删除了它,但是将一个 TEXT 与另一个 TEXT 进行比较以进行选择很慢,并且会中断非常长的查询字符串。也不要使用固定长度的索引,因为那样也会中断。对于精度很重要的任意长度字符串,哈希失败率是可以接受的。
最后,如果可以的话,执行 MD5 哈希客户端以节省将大 blob 发送到服务器以执行 MD5 操作。大多数现代语言都支持内置 MD5:
SELECT ID FROM Foo WHERE Hash=UNHEX('82fd4bcf8b686cffe81e937c43b5bfeb');
但我离题了。
关于mysql - 在 mysql 中为读写密集型应用程序存储 url 的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5147867/
我用 chown 不行。 Bilals-MBP:~ $ sudo mkdir -p /data/db Password: mkdir: /data/db: Read-only file system
我陷入了一个非常简单的问题。 我正在尝试制作一个Qt GUI应用程序以从GUI控制我的Arduino(而不是从Arduino IDE的串行监视器控制它)。我能够使用QSerialPort write(
我正在尝试使用 Win32 的 CreateFile 函数打开一个 COM 端口。我已经在 MSDN 以及几个论坛上阅读了有关如何执行此操作的文档,但无论我做什么,我仍然收到错误代码 #2(端口不存在
我正在尝试使用系统调用 read() 和 write()。以下程序创建一个文件并将一些数据写入其中。这是代码.. int main() { int fd; open("stud
我对 Xcode 和 sqlite 有点陌生。现在我有一个名为“mydb.db”的数据库文件,它已经有一些表和数据。我把它放在我的 mac 文件夹中,然后将它拖到“支持文件”下的 Xcode 项目中。
背景:如果需要,请跳至问题部分 我正在研究测试设备的前端。前端的目的是为了更容易编写长测试脚本。几乎只是让它们更易读和可写。 设备将使用 Prologix GPIB-USB Controller 进行
本文实例讲述了python文件常见操作。分享给大家供大家参考,具体如下: 1.文件是什么? 文件是存储在外部介质上的数据或信息集合,程序中源程序、数据中保存的数据、图像中的像素数据等等; 文件
C++0x 指定 std::atomic线程安全原子访问变量的模板。这个模板有一个成员函数 std::atomic::exchange原子地在“this”中存储一个新值并检索“this”的现有值。 W
VBA 中是否有任何方法可以读取和写入 INI 文件?我知道我可以使用; Open "C:\test.ini" For Input As #1 ...并解析数据。相反,我试图查看已有哪些工具可用。 我
我最近在 GitHub 存储库 system-design-primer 上看到了系统设计示例,它显示了读/写 API。我正在尝试实现 this one 以进行练习。大纲是这样的。 它分离了读写API
我在使用 DEVMODE 结构的 dmColor 字段时遇到问题。 我的默认打印机是彩色打印机,如果我通过控制面板将打印机属性的颜色默认输出为黑白,则 DEVMODE.dmColor 字段始终返回 D
我知道套接字等如何与 java/android 配合使用,但是如何使用 java 或 python 连接到桌面上的 COM 端口?您想使用地址吗?或者查找您想要的端口是否可用或者什么? 我不知道该怎么
什么构成 DynamoDB 中的实际读取? 它是读取表格中的每一行还是返回什么数据? 这就是扫描如此昂贵的原因 - 您读取整个表格并为读取的每一行表格付费吗? 能否将 ElasticCache (Me
我想用Java编写一个程序来检查src是否存在(如果不抛出FileNoot的话) 并将src.txt的内容复制到des.txt 并在开头和结尾处打印两个文件的大小 输出为: src.txt is in
我在 C++ 中有一个 float 数组,我想将它保存到一个二进制文件中(以节省空间),以便以后能够再次读取它。为此,我编写了以下代码来编写数组: float *zbuffer = new float
我试图为 websocket 创建一个 Read\Write 函数,但我遇到了一个问题...... var inarrivo = 0; var risposta = ""; function RDW_
在我的应用程序中是用 Qt 编写的,我有一个 QGraphicsScene。在这个 QgraphicsScene 中有一个图像和一些由用户绘制的项目。我想保存这个包含所有内容的 QgraphicsSc
我正在编写一个程序,该程序应该无限期运行并保持变量的值。其他两个程序可以更改变量的值。我使用命名管道接收变量值并将其发送到外部程序。 这是我的变量管理器代码。 manager.c: #includ
我和一位老师谈过,他告诉我读写系统调用使用缓冲区,因为在你的系统规范中有一个变量控制你可以访问你想要读/写的设备的次数on,系统在他等待写入设备时使用buffer来存储数据。 我在另一篇 Stack
我运行一个方法,有三个部分,第 1 部分和第 3 部分都是“读取文本文件”, 第二部分是将字符串保存到文本文件, // The Save Path is the text file's Path, u
我是一名优秀的程序员,十分优秀!