MySQL数据目录结构(1)
[晏子]
从概念上讲,大多数关系数据库系统是相似的:它们有一系列数据库组成,每个数据库包含一系列数据库表,但每个系统有各自组织其管理的数据方式,MySQL也不例外。
缺省地,所有由MySQL服务器mysqld管理的数据存储在一个称为MySQL数据目录的地方,所有数据库都存放在哪儿,也包括提供服务器操作信息的状态文件。如果你对一个MySQl安装执行管理任务,你应该熟知数据目录的布局及用途。
本文介绍下列专题:
- 如何确定数据目录的位置。
- 服务器如何组织并提供对数据库和它管理的表的访问。
- 在哪里找到由服务器生成的状态文件记忆它们包含什么内容。
- 如何改变缺省地点或数据目录或单独数据库的组织结构。
1、数据目录的位置
一个缺省数据目录被编译进了服务器,如果你从一个源代码分发安装MySQL,典型的缺省目录为/usr/local/var,如果从RPM文件安装则为/var/lib/mysql,如果从一个二进制分发安装则是/usr/local/mysql/data。
在你启动服务器,通过使用一个--datadir=/path/to/dir选项可以明确指定数据目录位置。如果你想把数据目录置于其它缺省位置外的某处,这很有用。
作为一名MySQL管理员,你应该知道你的数据目录在哪里。如果你运行多个服务器,你应该是到所有数据目录在哪里,但是如果你不知道确切的位置,由多种方法找到它:
- 使用mysqladmin variables从你的服务器直接获得数据目录路径名。查找datadir变量的值,在Unix上,其输出类似于:
%mysqladmin variables
+----------------------+----------------------+| variable_name | Value |+----------------------+----------------------+| back_log | 5 || connect_timeout | 5 || basedir | /var/local/ || datadir | /usr/local/var/ |....
在Windows上,输出可能看上去像这样:
c:\mysqladmin variables +----------------------+----------------------+| variable_name | Value |+----------------------+----------------------+| back_log | 5 || connect_timeout | 5 || basedir | c:\mysql\ || datadir | c:\mysql\data\ |....
如果你有多个服务器在运行,它们将在不同的TCP/IP端口或套接字上监听,通过提供连接服务器正在监听的端口或套接字的--port或--socket选项,你可以轮流获得它们每一个的数据目录信息:
%msqladmin --port=port_name variables
%mysqladmin --socket=/path/to/socket variables
mysqladmin命令可运行在任何你能从其连接服务器的主机上,如果你想在一个远程主机连接服务器,使用一个--host=host_name选项:
%mysqladmin --host=host_name variables
在Windows上,你可以通过使用--pipe强制一个命令管道连接和--socket=pipe_name指定管道名来连接监听一个命令管道的NT服务器:
c:\mysqladmin --pipe --socket=pipe_name variables - 你可以使用ps命令查看任何正在运行mysqld 进程的命令行。
试一下下列命令之一并寻找--datadir:
%ps axww | grep mysql BSD风格
%ps -ef | grep mysqld System V风格
如果你的系统运行多个服务器,ps命令可能特别有用,因为你能马上发现多个数据目录位置,缺点是必须在服务器上运行,而且可能没有有用的信息产生,除非在mysqld命令行上明确指定了--datadir选项。 - 如果MySQL是从一个源代码分发安装的,你可以检查其配置信息确定数据目录位置。例如,位置可从顶级Makefile中获得,但是注意,位置是Makefile中的localstatedir值,不是datadir,而且,如果分发位于一个NFS挂载的文件系统并用来为多个主机构建MySQL,配置信息反映了分发被最新构建的主机,这可能不能提供你感兴趣的主机的数据目录信息。
- 如果上述方式失败,你可以用find寻找数据库文件,下列命令寻找“.frm”文件,它是任何MySQL安装的一部分:
% find / -name ".frm" -print
在下文各例中,用DATADIR表示MySQL数据目录位置。
2、数据目录结构
MySQL数据目录包含了服务器管理的所有数据目录,这些文件被组织成一个树状结构,通过利用Unix或Windows文件系统的层次结构直接实现。
- 每个数据库对应于数据目录下的一个目录。
- 在一个数据库中的表对应于数据目录下的文件。
数据目录也包含由服务器产生的几个状态文件,如日志文件。这些文件提供了关于服务器操作的重要信息。对管理特别在出了问题而试图确定问题原因时很有价值。例如,如果某个特定查询杀死服务器,你可以通过检查日志文件判别捣乱的查询。
2.1 MySQL服务器怎样提供对数据的访问
在数据目录下的一切由一个单独的实体-MySQL服务器mysqld管理,客户程序绝不直接操作数据。相反,服务器提供数据可访问的切入点,它是客户程序与它们想使用的数据之间的中介。
当服务器启动时,如果有需要,它打开日志文件,然后通过监听网络连接位数据目录呈现一个网络接口。要访问数据,客户程序建立对服务器的一个连接,然后以MySQL查询传输请求来执行希望的操作。服务器执行每一个操作并将结果发回用户。服务器是多线程的并能服务多个同时的客户连接。然而,因为修改操作一个执行一个,实际效果是顺序化请求,以使两个客户决不能在同一时刻改变同一记录。
在正常的情况下,让服务器作为数据库访问的唯一仲裁者提供了避免可从同时访问数据库表的多个进程的破坏的保证。管理员应该知道有时服务器没有对数据目录的独裁控制。
- 当你在一个单个数据目录上运行多个服务器。一般倪云新一个服务器管理主机上的所有数据库,但是有可能运行多个服务器。如果这完成提供对多个独立数据目录的访问,没有相互影响的问题,但哟也能启动多个服务器并指向同一个目录。一般地,这不是一个好主意。如果你试图这样,最好是你的系统提供良好的文件锁定功能,否则服务器将不能正确协作。如果你将多个服务器同时写入日志文件,你也冒着你的日志文件称为混乱的根源的风险。
- 在你运行isamchk和myisamchk时。isamchk和myisamchk实用程序用于表的维护、诊错和修复,就想你想的那样,因为这些程序可以修改表内容,允许它们与服务器正在操作的同时对表操作,这样能导致表损坏。理解如何限制这种相互影响是很重要的,这样你不会损坏你的表。
2.2 数据目表示
每个MySQL服务器管理的数据库有自己的数据库表,它是数据目录下的一个子目录,其名字与它表示的数据库相同。例如数据库my_db对应于数据库目录DATADIR/my_db。
这种表示允许多个数据库级的语句在其实现中十分简单。CREATE DATABASE db_name在数据目录中创建一个db_name空目录,具有只允许MySQL服务器用户(运行服务器的Unix用户)的属主和模式,这等价于下列手工在服务器主机上创建数据库:
%mkdir DATADIR/db_name%chmod 700 DADADIR/db_name
用一个空目录表示一个新数据库的最简单方法与其它数据库甚至为一个空数据库创建大量的控制文件或系统文件正好相反。
DROP DATABASE语句实现同样简单。DROP DATABASE db_name删除数据库中的db_name目录和所有表文件,这几乎与下列命令一样:
%rm -rf DATADIR/db_name
(差别是服务器只删除具有已知用于表的后缀名的文件。如果你在数据库目录创建了其它文件。则服务器保留它们,而且目录本身不被删除。
SHOW DATABASE基本上不做什么,只是列出位于数据目录中的目录名。有些数据库系统保持一个主表,用于维护所有数据库,但在MySQL无此构件。由于赋予数据目录结构的简洁性,数据库列表隐含在数据目录的内容中,而且这样的表不必有额外的开销。
2.3 数据库表的表示
每个数据库在数据库目录中有3个文件:一个样式(描述文件)、一个数据文件和一个索引文件。每个文件的基本名是表名,文件名扩展名代表文件类型。扩展名如下表。数据和索引文件的扩展名指出表使用老式IASM索引或新式MyISAM索引。
表 MySQL文件类型 |
文件类型 | 文件名扩展名 | 文件内容 |
样式文件 | .frm | 描述表的结构(它的列、列类型、索引等)。 |
数据文件 | .ISD(ISAM)
或.MYD(MyISAM) | 包含数据文件上的所有索引的索引树。 |
索引文件 | .ISM(ISAM)
或.MYI(MyISAM) | 该索引文件依赖表是否有索引而存在。 |
当你发出一条CREATE TABLE tbl_name时语句定义表的结构时,服务器创建一个名为tbl_name.frm的文件,它包括该结构的内部编码,同时也创建一个空数据和索引文件,初始化为包含指出无记录和无索引的信息(如果CREATE TABLE语句包括索引指定,索引文件反映出这些索引)。对应于表的文件的属主和模式被设置为只允许MySQL服务器用户访问。
当你发出一条ALTER TABLE tbl_name语句时,服务器重新编码tbl_name.frm,并修改数据和索引文件的内容以反映语句指定的结构改变。对于CREATE INDEX和DROP INDEX也是一样,因为它们被服务器视为与ALTER TABLE等价。DROP TABLE通过删除对应于表的三个文件来实现。
虽然你可以通过删除数据库目录中对应于表的三个文件,但不能手工创建或修改一个表,如,如果my_db是当前数据库,DROP TABLE my_tbl大概等价于下列命令。
% rm -rf DATADIR/my_db/my_tbl.*
SHOW TABLE my_db的输出只是列出my_db数据库目录中的.frm文件的基文件名。有些数据库系统一个注册表,列举所有包含在一个数据库中的表,MySQL不是,因为不必要,“注册表”隐含在数据目录的结构中。
2.4 操作系统对数据库和表命名的限制
MySQL对命名数据库和表有一个原则:
- 名字可以由当前字符集中的任何字母数字字符组成,下划线和美元符$也可以。
- 名字最长为64个字符。
然而,因为数据库和表的名字对应于目录和文件名,服务器运行的操作系统可能强加额外的限制。
首先,数据库和表名仅限于对文件名合法的字符,如$在MySQL的原则中是允许的,但是如果你的操作系统不允许,则你不能在目录或表名中使用它。实际上,这对Unix或Windows不是所担心的,最大的难度是在执行数据库管理时直接在shell中引用名字,例如,如果你命名一个数据库如$my_db,包含一个美元符,任何从shell中对该名字的引用可能被shell解释为对一个变量的引用:
%ls $my_db
my_db:undefined variable
对此,你必须转义$字符或用引号禁止其特殊含义:
%ls \$my_db
%ls '$my_db'
如果你用引号,一定要用单引号,而双引号并不禁止变量解释。
其次,虽然MySQL允许数据库和表名最长到64个字符,但名字的长度受限于你的操作系统限定的长度,一般这不是一个问题(虽然老的System V强制14个字符)。在这种情况下,你数据库名的上限为14个字符,而表名上限为10个字符,因为表示表的文件名有一个点(.)和三个字符的扩展名。
第三,文件系统的大小写敏感性影响到你如何命名和引用数据库和表名。如果文件系统是大小写敏感的(如Unix),两个名字my_tbl和MY_TBL是不同的表。如果文件系统不是大小写敏感的(如Windows),这两个名字指的是相同的表。如果你用一个Unix服务器开发数据库,并且如果你有可能转移到Windows,你应该记住这一点。
2.5 MySQL状态文件
除了数据库目录,MySQL数据目录还包含很多状态文件,这些文件总结在下表中。大多数文件的缺省名从服务器主机名生成,在下表中表示为HOSTNAME。
表 MySQL状态文件 |
文件类型 | 缺省名 | 文件内容 |
进程ID | HOSTNAME.pid | 服务器进程的ID |
出错日志 | HOSTNAME.err | 启动和关闭事件和出错情况 |
一般日志 | HOSTNAME.log | 连接/断开事件和查询信息 |
更新日志 | HOSTNAME.nnn | 修改表结构级内容的所有查询文本 |
当服务器启动时,它将其进程ID写入进程ID(PID)文件中,而在它关闭时,删除该文件。PID文件是允许服务器本身被其他进程找到的工具。例如,如果你运行mysql.server,在系统关闭时,关闭MySQL服务器的脚本检查PID文件以决定它需要向哪个进程发出一个终止信号。
出错日志由safe_mysqld创建,作为服务器标准出错输出的重定向,它包含任何邪到stderr的消息。这意味着只有你通过调用safe_mysqld启动服务器,出错文件才存在(无论如何,它是一个启动服务器的最好方法,因为如果它由于出错而退出,safe_mysqld将重启服务器。)。
一般日志和更新日志是可选的。你可以只开启你需要的日志类型,用--log和--log-update服务器选项。
一般日志提供服务器操作的一般信息:谁从哪里连接服务器和他们发出什么查询。更新日志提供查询信息,但只有修改数据库内容的查询。更新日志内容被写成SQL语句,可以将它们提供给mysql客户程序来执行。如果你遇上崩溃,并且必须倒回备份文件,更新日志就很有用,因为你能重复执行自崩溃时的更新,通过将更新日志反馈给服务器,这允许你将数据库恢复到崩溃发生时的状态。
下面是一个简单的例子,信息出现在一般日志中,它是一个创建一个在数据库test中表,插入一行,然后删除表的会话:
990509 7:37:09 492 Connect Paul@localhost on test 492 Query show databases 492 Query show tables 492 Field List tbl_1 492 Field List tbl_2 ...990509 7:34:22 492 Query CREATE TABLE my_tbl (val INT)990509 7:34:34 492 Query INSERT INTO my_tbl values (1)990509 7:34:38 492 Query DROP TABLE my_tbl 990509 7:34:40 492 Quit
一般日志包含日期和时间、服务器进程ID、事件类型和事件信息栏目。
同一个会话出现在更新日志中看上去像这样:
use test;CREATE TABLE my_tbl (val int);INSERT INTO my_tbl VALUES(1);DROP TABLE my_tbl;
对更新日志,用--log-long-format选项获得一个扩展形式的日志,扩展日志提供有关谁何时发出每一条查询,这使用更多的磁盘空间,但如果你想知道谁在做什么,而不用将更新日志对照一般日志的内容找到连接事件。
对上面的会话,扩展更新日志产生这样的信息:
# Time: 990507 7:32:42# User@Host: paul [paul] @ localhost []use test;CREATE TABLE my_tbl (val int);# User@Host: paul [paul] @ localhost []INSERT INTO my_tbl VALUES(1);# Time: 990507 7:32:43# User@Host: paul [paul] @ localhost []DROP TABLE my_tbl;
保证你的日志文件安全并且不让任意用户读取是个好主意。一般日志和更新日志都能包含诸如口令等的敏感信息,因为它们包含查询文本。如:
990509 7:23:31 4 Query UPDATE user SET Password=PASSWORD("secret") WHERE user="root"
对于检查和设置数据目录的权限,请见《MySQL安全性指南》。使数据目录安性的指令包含下列命令:
% chmod 700 DATADIR
以拥有数据目录的Unix用户运行此命令。确保服务器也以此用户运行,否则该命令不仅将其它人拒之门外,它也阻止服务器访问你的数据库。
状态文件出现在数据目录的顶级目录,就象数据库目录,所以你可能担心这些文件名是否与数据库名冲突或出错(如在服务器执行SHOW DATABASES语句时)。答案是不。状态和日志文件信息存储在文件中,而数据库是目录,所以可执行程序能用一个简单的stat()调用区分它们。如果你看一下数据目录,你可以区分状态文件和数据库目录,用ls -l并检查模式的第一个字符是一个"_"还是一个"d"。
你也可以简单地看一下名字,所有状态文件名包含一个点("."),