编辑: 学冬欧巴么么哒 2019-12-02
1.

1 1.2 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 1.2.7 1.2.8 1.2.9 1.2.10 1.2.11 1.2.12 1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.4 1.4.1 1.4.2 1.4.3 1.4.4 1.4.5 1.4.6 目录 简介 第一部分:常用操作 1. 操作集群 2. 监控集群 3. 监控 OSD 4. 监控 PG 5. 用户管理 6. 增加/删除 Monitor 7. 增加/删除 OSD 8. 操作 Pool 9. 管理 Crushmap 10. 修改 MON IP 11. 修改集群配置 12. 日志和调试 第二部分:故障处理 1. 常见 MON 故障处理 2. 常见 OSD 故障处理 3. 常见 PG 故障处理 4. 全局 Ceph 节点宕机处理 5. 单个 Ceph 节点宕机处理 第三部分:Ceph 进阶 1. PG 和 PGP 的区别 2. Monitor 的备份和恢复 3. 修改 Cinder/Glance 进程的最大可用 FD 4. 更换 OSD Journal 5. 清空 OSD 的分区表后如何恢复 6. PG 卡在 active + remapped 状态

1 1.4.7 1.4.8 1.4.9 1.4.10 7. 查看 RBD 镜像的位置 8. 查看 RBD 镜像的实际大小 9. 统计 OSD 上 PG 的数量 10. 查看使用 RBD 镜像的客户端

2 简介 《 Ceph 运维手册》汇总了 Ceph 在使用中常见的运维和操作问题,主要用于指导 运维人员的相关工作.存储组的新员工,在对 Ceph 有了基础了解之后,也可以通 过本手册进一步深入 Ceph 的使用和运维. 本书的内容大部分来自 Ceph 官方文档,另一部分来自技术博客,还有一部分来自 实际使用中的经验总结. 环境 本手册是基于以下两种环境: Ubuntu 14.04, Ceph Hammer 版. CentOS 7.2, Ceph Jewel版. 作者 李海静 lihaijing@fiberhome.com 本书 GitBook 地址 点击下面的地址进行在线阅读: https://lihaijing.gitbooks.io/ceph-handbook/content 本书 GitHub 地址 本书源文件托管在 GitHub 上,欢迎大家 Fork 本项目: https://github.com/lihaijing/ceph-handbook 简介

3 简介

4 第一部分:常用操作 本部分介绍了 Ceph 集群的常用操作,包括进程的起停、集群的监控、用户管理、 MON/OSD 的增加和删除、存储池的操作、修改集群的配置,以及 Crushmap 的管 理、修改 Monitor 的 IP 等操作. 第一部分:常用操作

5 1. 操作集群 1.1 用 UPSTART 控制 CEPH 用 ceph-deploy 把 Ceph Cuttlefish 及更高版部署到 Ubuntu 14.04 上,你可以用基 于事件的 Upstart 来启动、关闭 Ceph 节点上的守护进程. Upstart 不要求你在配 置文件里定义守护进程例程. 1.1.1 列出节点上所有的 Ceph 作业和实例 sudo initctl list | grep ceph 1.1.2 启动所有守护进程 要启动某一 Ceph 节点上的所有守护进程,用下列命令: sudo start ceph-all 1.1.3 停止所有守护进程 要停止某一 Ceph 节点上的所有守护进程,用下列命令: sudo stop ceph-all 1.1.4 按类型启动所有守护进程 要启动某一 Ceph 节点上的某一类守护进程,用下列命令: 1. 操作集群

6 sudo start ceph-osd-all sudo start ceph-mon-all sudo start ceph-mds-all 1.1.5 按类型停止所有守护进程 要停止某一 Ceph 节点上的某一类守护进程,用下列命令: sudo stop ceph-osd-all sudo stop ceph-mon-all sudo stop ceph-mds-all 1.1.6 启动单个进程 要启动某节点上一个特定的守护进程例程,用下列命令之一: sudo start ceph-osd id={id} sudo start ceph-mon id={hostname} sudo start ceph-mds id={hostname} 例如: sudo start ceph-osd id=1 sudo start ceph-mon id=ceph-server sudo start ceph-mds id=ceph-server 1.1.7 停止单个进程 要停止某节点上一个特定的守护进程例程,用下列命令之一: sudo stop ceph-osd id={id} sudo stop ceph-mon id={hostname} sudo stop ceph-mds id={hostname} 1. 操作集群

7 例如: sudo stop ceph-osd id=1 sudo stop ceph-mon id=ceph-server sudo stop ceph-mds id=ceph-server 1.2 用 SYSTEMD 控制 CEPH 对于所有支持 systemd 的 Linux 发行版(CentOS 7, Fedora, Debian Jessie 8.x, SUSE),使用原生的 systemd 文件来代替传统的 sysvinit 脚本.不过需要 注意,这和 Ceph 的版本也有关系.如果 CentOS

7 + Jewel,使用的就是 systemd . 1.2.1 列出节点上所有的 Ceph systemd units sudo systemctl status ceph*.service ceph*.target 1.2.2 启动所有守护进程 要启动某一 Ceph 节点上的所有守护进程,用下列命令: sudo systemctl start ceph.target 1.2.3 停止所有守护进程 要停止某一 Ceph 节点上的所有守护进程,用下列命令: sudo systemctl stop ceph*.service ceph*.target 1.2.4 按类型启动所有守护进程 要启动某一 Ceph 节点上的某一类守护进程,用下列命令: 1. 操作集群

8 sudo systemctl start ceph-osd.target sudo systemctl start ceph-mon.target sudo systemctl start ceph-mds.target 1.2.5 按类型停止所有守护进程 要停止某一 Ceph 节点上的某一类守护进程,用下列命令: sudo systemctl stop ceph-mon*.service ceph-mon.target sudo systemctl stop ceph-osd*.service ceph-osd.target sudo systemctl stop ceph-mds*.service ceph-mds.target 1.2.6 启动单个进程 要启动某节点上一个特定的守护进程例程,用下列命令之一: sudo systemctl start ceph-osd@{id} sudo systemctl start ceph-mon@{hostname} sudo systemctl start ceph-mds@{hostname} 1.2.7 停止单个进程 要停止某节点上一个特定的守护进程例程,用下列命令之一: sudo systemctl stop ceph-osd@{id} sudo systemctl stop ceph-mon@{hostname} sudo systemctl stop ceph-mds@{hostname} 1.3 把 CEPH 当服务运行 在某些环境下,还可以把 Ceph 当做服务来运行,比如 CentOS

7 + Hammer . 1.3.1 启动所有守护进程 1. 操作集群

9 要启动本节点上的所有 Ceph 守护进程,用下列命令: sudo service ceph [start|restart] 1.3.2 停止所有守护进程 要停止本节点上的所有 Ceph 守护进程,用下列命令: sudo service ceph stop 1.3.3 按类型启动所有守护进程 要启动本节点上的某一类 Ceph 守护进程,用下列命令: sudo service ceph start {daemon-type} 1.3.4 按类型停止所有守护进程 要停止本节点上的某一类 Ceph 守护进程,用下列命令: sudo service ceph stop {daemon-type} 1.3.5 启动单个进程 要启动本节点上某个特定的守护进程例程,用下列命令: sudo service ceph start {daemon-type}.{instance} 1.3.6 停止单个进程 要停止本节点上某个特定的守护进程例程,用下列命令: sudo service ceph start {daemon-type}.{instance} 1. 操作集群

10 1. 操作集群

11 2. 监控集群 集群运行起来后,你可以用 ceph 工具来监控集群的状态,典型的监控项目包括 检查 OSD 状态、monitor 的状态、PG 的状态和元数据服务器的状态(目前楚天云 环境并没有部署元数据服务器). 2.1 交互模式 要在交互模式下运行 ceph ,不要带参数运行 ceph ,例如: ceph ceph>

health ceph>

status ceph>

quorum_status ceph>

mon_status 2.2 检查集群的监控状况 启动集群后、读写数据前,先检查下集群的健康状态.你可以用下面的命令检查: ceph health 如果你的配置文件或 keyring 文件不在默认路径下,你得在命令中指定: ceph -c /path/to/conf -k /path/to/keyring health 集群刚起来的时候,你也许会碰到像 HEALTH_WARN XXX num placement groups stale 这样的健康告警,等一会再检查下.集群准备好的话 ceph health 会给 出 HEALTH_OK 这样的消息,这时候就可以开始使用集群了. 2.3 观察集群 2. 监控集群

12 要观察集群内正发生的事件,打开一个新终端,然后输入: ceph -w Ceph 会打印各种事件.例如一个包括

3 个 Mon、和

33 个 OSD 的 Ceph 集群可能 会打印出这些: 2. 监控集群

13 cluster b84b887e-9e0c-4211-8423-e0596939cd36 health HEALTH_OK monmap e1:

3 mons at {OPS-ceph1=192.168.219.30:6789/0,OPS-cep h2=192.168.219.31:6789/0,OPS-ceph3=192.168.219.32:6789/0} election epoch 94, quorum 0,1,2 OPS-ceph1,OPS-ceph2,OP S-ceph3 osdmap e1196:

33 osds:

33 up,

33 in pgmap v1789894:

2752 pgs,

7 pools,

590 GB data,

110 kobjects

1154 GB used,

83564 GB /

84719 GB avail

2752 active+clean client io

0 B/s rd,

25852 B/s wr,

7 op/s 2016-11-04 20:20:13.682953 mon.0 [INF] pgmap v1789893:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

44908 B/s wr,

14 op/s 2016-11-04 20:20:15.686275 mon.0 [INF] pgmap v1789894:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

25852 B/s wr,

7 op/s 2016-11-04 20:20:16.690680 mon.0 [INF] pgmap v1789895:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

32345 B/s wr,

16 op/s 2016-11-04 20:20:17.694259 mon.0 [INF] pgmap v1789896:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

57170 B/s wr,

32 op/s 2016-11-04 20:20:18.698200 mon.0 [INF] pgmap v1789897:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

33148 B/s wr,

16 op/s 2016-11-04 20:20:20.701697 mon.0 [INF] pgmap v1789898:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

16333 B/s wr,

5 op/s 2016-11-04 20:20:21.705719 mon.0 [INF] pgmap v1789899:

2752 pgs:

2752 active+clean;

590 GB data,

1154 GB used,

83564 GB /

84719 GB avail;

0 B/s rd,

17705 B/s wr,

12 op/s ........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题