mongodb集群shard状态异常：RECOVERING-创新互联

mongodb集群shard状态异常：RECOVERING

成都创新互联公司服务项目包括新化网站建设、新化网站制作、新化网页制作以及新化网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，新化网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到新化省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

报错信息

2018-11-28T06:46:55.783+0000 I REPL     [replication-0] We are too stale to use 172.19.9.12:27003 as a sync source. Blacklisting this sync source because our last fetched timestamp: Timestamp(1542344943, 1) is before their earliest timestamp: Timestamp(1543387334, 5197) for 1min until: 2018-11-28T06:47:55.783+0000
2018-11-28T06:46:55.783+0000 I REPL     [replication-0] sync source candidate: 172.19.9.11:27003
2018-11-28T06:46:55.783+0000 I REPL     [replication-0] We are too stale to use 172.19.9.11:27003 as a sync source. Blacklisting this sync source because our last fetched timestamp: Timestamp(1542344943, 1) is before their earliest timestamp: Timestamp(1543387334, 5953) for 1min until: 2018-11-28T06:47:55.783+0000

错误原因分析：

报错节点数据太”陈旧:stale”了；网络异常或者节点异常，太久没有进行同步数据操作，而导致其他节点的数据操作日志已经覆盖，所以本节点被认为 stale，无法从其他节点同步数据。

恢复方案

1:停掉数据库，直接删除异常节点（shard）本地数据，然后启动mongo数据库，启动之后存在一个同步的过程，根据数据量、网络、磁盘性能等因素所需时间不同。

2:停掉数据库，直接拷贝主节点上的数据，然后再启动mongo，这样就不存在数据同步的过程了.问题，就是数据时刻在变化，拷贝过程中难免会漏掉一些数据。

处理办法：

我们的mongodb集群是使用docker拉起的，使用方案 1；

首先确定异常分片节点==》然后确定映射目录==》删除异常分片实例数据目录==》docker 服务会自动拉起服务==》集群开始数据恢复；

确认异常信息：

/mongo localhost:27017/admin

:PRIMARY> rs.status();

                {
                        "_id" : 2,
                        "name" : "172.19.9.13:27003",   《== 节点信息
                        "health" : 1,
                        "state" : 5,
                        "stateStr" : "RECOVERING",      《== 异常状态
                        "uptime" : 64,
                        "optime" : {
                                "ts" : Timestamp(0, 0),
                                "t" : NumberLong(-1)
                        },

具体操作：

数据目录：/data/shard3     

ssh $HOSTNAME       
cd /data/       
rm -rf shard3

删除数据目录后，容器异常，集群会自动拉起新的一个docker 实例运行 shard 3实例；

查看恢复状态：

STARTUP2表示正在初始化并同步数据，会看到数据目录文件在不停增加文件。

/mongo localhost:27017/admin

:PRIMARY> rs.status();

                {
                        "_id" : 2,
                        "name" : "172.19.9.13:27003",
                        "health" : 1,
                        "state" : 5,
                        "stateStr" : "STARTUP2",    《===表示正在初始化并同步数据。
                        "uptime" : 64,
                        "optime" : {
                                "ts" : Timestamp(0, 0),
                                "t" : NumberLong(-1)
                        },

查看恢复结果

/mongo localhost:27017/admin

:PRIMARY> rs.status();
                        "_id" : 2,
                        "name" : "172.19.9.13:27003",
                        "health" : 1,
                        "state" : 2,
                        "stateStr" : "SECONDARY",     <== 一段时间后状态恢复正常
                        "uptime" : 945196,
                        "optime" : {
                                "ts" : Timestamp(1543401694, 1),
                                "t" : NumberLong(1)
                        },

注意事项：

同步数据时候比较耗费资源，推荐在系统访问量最低的时间段进行。防止数据大量更新滞后，降低集群数据恢复风险。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

文章名称：mongodb集群shard状态异常：RECOVERING-创新互联
路径分享：http://pwwzsj.com/article/ceeoie.html

平武建站