包含go语言实现raft投票的词条

Raft 算法（详细版）

在分布式系统中，一致性算法至关重要。在所有一致性算法中，Paxos 最负盛名，它由莱斯利·兰伯特（Leslie Lamport）于 1990 年提出，是一种基于消息传递的一致性算法，被认为是类似算法中最有效的。

为阳城等地区用户提供了全套网页设计制作服务，及阳城网站建设行业解决方案。主营业务为成都网站建设、成都做网站、阳城网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

Paxos 算法虽然很有效，但复杂的原理使它实现起来非常困难，截止目前，实现 Paxos 算法的开源软件很少，比较出名的有 Chubby、LibPaxos。此外，Zookeeper 采用的 ZAB（Zookeeper Atomic Broadcast）协议也是基于 Paxos 算法实现的，不过 ZAB 对 Paxos 进行了很多改进与优化，两者的设计目标也存在差异——ZAB 协议主要用于构建一个高可用的分布式数据主备系统，而 Paxos 算法则是用于构建一个分布式的一致性状态机系统。

由于 Paxos 算法过于复杂、实现困难，极大地制约了其应用，而分布式系统领域又亟需一种高效而易于实现的分布式一致性算法，在此背景下，Raft 算法应运而生。

Raft 算法在斯坦福 Diego Ongaro 和 John Ousterhout 于 2013 年发表的《In Search of an Understandable Consensus Algorithm》中提出。相较于 Paxos，Raft 通过逻辑分离使其更容易理解和实现，目前，已经有十多种语言的 Raft 算法实现框架，较为出名的有 etcd、Consul 。

根据官方文档解释，一个 Raft 集群包含若干节点，Raft 把这些节点分为三种状态：Leader、 Follower、Candidate，每种状态负责的任务也是不一样的。正常情况下，集群中的节点只存在 Leader 与 Follower 两种状态。

• Leader（领导者）：负责日志的同步管理，处理来自客户端的请求，与Follower保持heartBeat的联系；

• Follower（追随者）：响应 Leader 的日志同步请求，响应Candidate的邀票请求，以及把客户端请求到Follower的事务转发（重定向）给Leader；

• Candidate（候选者）：负责选举投票，集群刚启动或者Leader宕机时，状态为Follower的节点将转为Candidate并发起选举，选举胜出（获得超过半数节点的投票）后，从Candidate转为Leader状态。

通常，Raft 集群中只有一个 Leader，其它节点都是 Follower。Follower 都是被动的，不会发送任何请求，只是简单地响应来自 Leader 或者 Candidate 的请求。Leader 负责处理所有的客户端请求（如果一个客户端和 Follower 联系，那么 Follower 会把请求重定向给 Leader）。

为简化逻辑和实现，Raft 将一致性问题分解成了三个相对独立的子问题。

• 选举（Leader Election）：当 Leader 宕机或者集群初创时，一个新的 Leader 需要被选举出来；

• 日志复制（Log Replication）：Leader 接收来自客户端的请求并将其以日志条目的形式复制到集群中的其它节点，并且强制要求其它节点的日志和自己保持一致；

• 安全性（Safety）：如果有任何的服务器节点已经应用了一个确定的日志条目到它的状态机中，那么其它服务器节点不能在同一个日志索引位置应用一个不同的指令。

根据 Raft 协议，一个应用 Raft 协议的集群在刚启动时，所有节点的状态都是 Follower。由于没有 Leader，Followers 无法与 Leader 保持心跳（Heart Beat），因此，Followers 会认为 Leader 已经下线，进而转为 Candidate 状态。然后，Candidate 将向集群中其它节点请求投票，同意自己升级为 Leader。如果 Candidate 收到超过半数节点的投票（N/2 + 1），它将获胜成为 Leader。

第一阶段：所有节点都是 Follower。

上面提到，一个应用 Raft 协议的集群在刚启动（或 Leader 宕机）时，所有节点的状态都是 Follower，初始 Term（任期）为 0。同时启动选举定时器，每个节点的选举定时器超时时间都在 100~500 毫秒之间且并不一致（避免同时发起选举）。

第二阶段：Follower 转为 Candidate 并发起投票。

没有 Leader，Followers 无法与 Leader 保持心跳（Heart Beat），节点启动后在一个选举定时器周期内未收到心跳和投票请求，则状态转为候选者 Candidate 状态，且 Term 自增，并向集群中所有节点发送投票请求并且重置选举定时器。

注意，由于每个节点的选举定时器超时时间都在 100-500 毫秒之间，且彼此不一样，以避免所有 Follower 同时转为 Candidate 并同时发起投票请求。换言之，最先转为 Candidate 并发起投票请求的节点将具有成为 Leader 的“先发优势”。

第三阶段：投票策略。

节点收到投票请求后会根据以下情况决定是否接受投票请求（每个 follower 刚成为 Candidate 的时候会将票投给自己）：

请求节点的 Term 大于自己的 Term，且自己尚未投票给其它节点，则接受请求，把票投给它；

请求节点的 Term 小于自己的 Term，且自己尚未投票，则拒绝请求，将票投给自己。

第四阶段：Candidate 转为 Leader。

一轮选举过后，正常情况下，会有一个 Candidate 收到超过半数节点（N/2 + 1）的投票，它将胜出并升级为 Leader。然后定时发送心跳给其它的节点，其它节点会转为 Follower 并与 Leader 保持同步，到此，本轮选举结束。

注意：有可能一轮选举中，没有 Candidate 收到超过半数节点投票，那么将进行下一轮选举。

在一个 Raft 集群中，只有 Leader 节点能够处理客户端的请求（如果客户端的请求发到了 Follower，Follower 将会把请求重定向到 Leader），客户端的每一个请求都包含一条被复制状态机执行的指令。Leader 把这条指令作为一条新的日志条目（Entry）附加到日志中去，然后并行得将附加条目发送给 Followers，让它们复制这条日志条目。

当这条日志条目被 Followers 安全复制，Leader 会将这条日志条目应用到它的状态机中，然后把执行的结果返回给客户端。如果 Follower 崩溃或者运行缓慢，再或者网络丢包，Leader 会不断得重复尝试附加日志条目（尽管已经回复了客户端）直到所有的 Follower 都最终存储了所有的日志条目，确保强一致性。

第一阶段：客户端请求提交到 Leader。

如下图所示，Leader 收到客户端的请求，比如存储数据 5。Leader 在收到请求后，会将它作为日志条目（Entry）写入本地日志中。需要注意的是，此时该 Entry 的状态是未提交（Uncommitted），Leader 并不会更新本地数据，因此它是不可读的。

第二阶段：Leader 将 Entry 发送到其它 Follower

Leader 与 Followers 之间保持着心跳联系，随心跳 Leader 将追加的 Entry（AppendEntries）并行地发送给其它的 Follower，并让它们复制这条日志条目，这一过程称为复制（Replicate）。

有几点需要注意：

1. 为什么 Leader 向 Follower 发送的 Entry 是 AppendEntries 呢？

因为 Leader 与 Follower 的心跳是周期性的，而一个周期间 Leader 可能接收到多条客户端的请求，因此，随心跳向 Followers 发送的大概率是多个 Entry，即 AppendEntries。当然，在本例中，我们假设只有一条请求，自然也就是一个Entry了。

2. Leader 向 Followers 发送的不仅仅是追加的 Entry（AppendEntries）。

在发送追加日志条目的时候，Leader 会把新的日志条目紧接着之前条目的索引位置（prevLogIndex）， Leader 任期号（Term）也包含在其中。如果 Follower 在它的日志中找不到包含相同索引位置和任期号的条目，那么它就会拒绝接收新的日志条目，因为出现这种情况说明 Follower 和 Leader 不一致。

3. 如何解决 Leader 与 Follower 不一致的问题？

在正常情况下，Leader 和 Follower 的日志保持一致，所以追加日志的一致性检查从来不会失败。然而，Leader 和 Follower 一系列崩溃的情况会使它们的日志处于不一致状态。Follower可能会丢失一些在新的 Leader 中有的日志条目，它也可能拥有一些 Leader 没有的日志条目，或者两者都发生。丢失或者多出日志条目可能会持续多个任期。

要使 Follower 的日志与 Leader 恢复一致，Leader 必须找到最后两者达成一致的地方（说白了就是回溯，找到两者最近的一致点），然后删除从那个点之后的所有日志条目，发送自己的日志给 Follower。所有的这些操作都在进行附加日志的一致性检查时完成。

Leader 为每一个 Follower 维护一个 nextIndex，它表示下一个需要发送给 Follower 的日志条目的索引地址。当一个 Leader 刚获得权力的时候，它初始化所有的 nextIndex 值，为自己的最后一条日志的 index 加 1。如果一个 Follower 的日志和 Leader 不一致，那么在下一次附加日志时一致性检查就会失败。在被 Follower 拒绝之后，Leader 就会减小该 Follower 对应的 nextIndex 值并进行重试。最终 nextIndex 会在某个位置使得 Leader 和 Follower 的日志达成一致。当这种情况发生，附加日志就会成功，这时就会把 Follower 冲突的日志条目全部删除并且加上 Leader 的日志。一旦附加日志成功，那么 Follower 的日志就会和 Leader 保持一致，并且在接下来的任期继续保持一致。

第三阶段：Leader 等待 Followers 回应。

Followers 接收到 Leader 发来的复制请求后，有两种可能的回应：

写入本地日志中，返回 Success；

一致性检查失败，拒绝写入，返回 False，原因和解决办法上面已做了详细说明。

需要注意的是，此时该 Entry 的状态也是未提交（Uncommitted）。完成上述步骤后，Followers 会向 Leader 发出 Success 的回应，当 Leader 收到大多数 Followers 的回应后，会将第一阶段写入的 Entry 标记为提交状态（Committed），并把这条日志条目应用到它的状态机中。

第四阶段：Leader 回应客户端。

完成前三个阶段后，Leader会向客户端回应 OK，表示写操作成功。

第五阶段，Leader 通知 Followers Entry 已提交

Leader 回应客户端后，将随着下一个心跳通知 Followers，Followers 收到通知后也会将 Entry 标记为提交状态。至此，Raft 集群超过半数节点已经达到一致状态，可以确保强一致性。

需要注意的是，由于网络、性能、故障等各种原因导致“反应慢”、“不一致”等问题的节点，最终也会与 Leader 达成一致。

前面描述了 Raft 算法是如何选举 Leader 和复制日志的。然而，到目前为止描述的机制并不能充分地保证每一个状态机会按照相同的顺序执行相同的指令。例如，一个 Follower 可能处于不可用状态，同时 Leader 已经提交了若干的日志条目；然后这个 Follower 恢复（尚未与 Leader 达成一致）而 Leader 故障；如果该 Follower 被选举为 Leader 并且覆盖这些日志条目，就会出现问题，即不同的状态机执行不同的指令序列。

鉴于此，在 Leader 选举的时候需增加一些限制来完善 Raft 算法。这些限制可保证任何的 Leader 对于给定的任期号（Term），都拥有之前任期的所有被提交的日志条目（所谓 Leader 的完整特性）。关于这一选举时的限制，下文将详细说明。

在所有基于 Leader 机制的一致性算法中，Leader 都必须存储所有已经提交的日志条目。为了保障这一点，Raft 使用了一种简单而有效的方法，以保证所有之前的任期号中已经提交的日志条目在选举的时候都会出现在新的 Leader 中。换言之，日志条目的传送是单向的，只从 Leader 传给 Follower，并且 Leader 从不会覆盖自身本地日志中已经存在的条目。

Raft 使用投票的方式来阻止一个 Candidate 赢得选举，除非这个 Candidate 包含了所有已经提交的日志条目。Candidate 为了赢得选举必须联系集群中的大部分节点。这意味着每一个已经提交的日志条目肯定存在于至少一个服务器节点上。如果 Candidate 的日志至少和大多数的服务器节点一样新（这个新的定义会在下面讨论），那么它一定持有了所有已经提交的日志条目（多数派的思想）。投票请求的限制中请求中包含了 Candidate 的日志信息，然后投票人会拒绝那些日志没有自己新的投票请求。

Raft 通过比较两份日志中最后一条日志条目的索引值和任期号，确定谁的日志比较新。如果两份日志最后条目的任期号不同，那么任期号大的日志更加新。如果两份日志最后的条目任期号相同，那么日志比较长的那个就更加新。

如同 4.1 节介绍的那样，Leader 知道一条当前任期内的日志记录是可以被提交的，只要它被复制到了大多数的 Follower 上（多数派的思想）。如果一个 Leader 在提交日志条目之前崩溃了，继任的 Leader 会继续尝试复制这条日志记录。然而，一个 Leader 并不能断定被保存到大多数 Follower 上的一个之前任期里的日志条目就一定已经提交了。这很明显，从日志复制的过程可以看出。

鉴于上述情况，Raft 算法不会通过计算副本数目的方式去提交一个之前任期内的日志条目。只有 Leader 当前任期里的日志条目通过计算副本数目可以被提交；一旦当前任期的日志条目以这种方式被提交，那么由于日志匹配特性，之前的日志条目也都会被间接的提交。在某些情况下，Leader 可以安全地知道一个老的日志条目是否已经被提交（只需判断该条目是否存储到所有节点上），但是 Raft 为了简化问题使用了一种更加保守的方法。

当 Leader 复制之前任期里的日志时，Raft 会为所有日志保留原始的任期号，这在提交规则上产生了额外的复杂性。但是，这种策略更加容易辨别出日志，即使随着时间和日志的变化，日志仍维护着同一个任期编号。此外，该策略使得新 Leader 只需要发送较少日志条目。

raft 的读写都在 leader 节点中进行，它保证了读的都是最新的值，它是符合强一致性的（线性一致性），raft 除了这个还在【客户端交互】那块也做了一些保证，详情可以参考论文。但是 zookeeper 不同，zookeeper 写在 leader，读可以在 follower 进行，可能会读到了旧值，它不符合强一致性（只考虑写一致性，不考虑读一致性），但是 zookeeper 去 follower 读可以有效提升读取的效率。

对比于 zab、raft，我们发现他们选举、setData 都是需要过半机制才行，所以他们针对网络分区的处理方法都是一样的。

一个集群的节点经过网络分区后，如一共有 A、B、C、D、E 5个节点，如果 A 是 leader，网络分区为 A、B、C 和 D、E，在A、B、C分区还是能正常提供服务的，而在 D、E 分区因为不能得到大多数成员确认（虽然分区了，但是因为配置的原因他们还是能知道所有的成员数量，比如 zk 集群启动前需要配置所有成员地址，raft 也一样），是不能进行选举的，所以保证只会有一个 leader。

如果分区为 A、B 和 C、D、E ，A、B 分区虽然 A 还是 leader，但是却不能提供事务服务（setData），C、D、E 分区能重新选出 leader，还是能正常向外提供服务。

1）我们所说的日志（log）与状态机（state machine）不是一回事，日志指还没有提交到状态机中的数据。

2）新 leader 永远不会通过计算副本数量提交旧日志，他只能复制旧日志都其他 follower 上，对于旧日志的提交，只能是新 leader 接收新的写请求写新日志，顺带着把旧日志提交了。

zookeeper是什么语言写的

本文是Jason Wilder对于常见的服务发现项目 Zookeeper ， Doozer ， Etcd 所写的一篇博客，其原文地址如下： Open-Source Service Discovery 。

服务发现是大多数分布式系统以及面向服务架构（SOA）的一个核心组成部分。这个难题，简单来说，可以认为是：当一项服务存在于多个主机节点上时，client端如何决策获取相应正确的IP和port。

在传统情况下，当出现服务存在于多个主机节点上时，都会使用静态配置的方法来实现服务信息的注册。但是当大型系统中，需要部署更多服务的时候，事情就显得复杂得多。在一个实时的系统中，由于自动或者人工的服务扩展，或者服务的新添加部署，还有主机的宕机或者被替换，服务的location信息可能会很频繁的变化。

在这样的场景下，为了避免不必要的服务中断，动态的服务注册和发现就显得尤为重要。

关于服务发现的话题，已经很多次被人所提及，而且也的确不断的在发展。现在，笔者介绍一下该领域内一些open-source或者被经常被世人广泛讨论的解决方案，尝试理解它们到底是如何工作的。特别的是，我们会较为专注于每一个解决方案的一致性算法，到底是强一致性，还是弱一致性；运行时依赖；client的集成选择；以后最后这些特性的折中情况。

本文首先从几个强一致性的项目于开始，比如Zookeeper，Doozer，Etcd，这些项目主要用于服务间的协调，同时又可用于服务的注册。

随后，本文将讨论一些在服务注册以及发现方面比较有意思的项目，比如：Airbnb的SmartStack，Netflix的Eureka，Bitly的NSQ，Serf，Spotify and DNS，最后是SkyDNS。

问题陈述

在定位服务的时候，其实会有两个方面的问题：服务注册（Service Registration）和服务发现（Service Discovery）。

服务注册—— 一个服务将其位置信息在中心注册节点注册的过程。该服务一般会将它的主机IP地址以及端口号进行注册，有时也会有服务访问的认证信息，使用协议，版本号，以及关于环境的一些细节信息。

服务发现—— client端的应用实例查询中心注册节点以获知服务位置的过程。

每一个服务的服务注册以及服务发现，都需要考虑一些关于开发以及运营方面的问题：

监控—— 当一个已注册完毕的服务失效的时候，如何处理。一些情况下，在一个设定的超时定时(timeout)后，该服务立即被一个其他的进程在中心注册节点处注销。这种情况下，服务通常需要执行一个心跳机制，来确保自身的存活状态；而客户端必然需要能够可靠处理失效的服务。

负载均衡—— 如果多个相同地位的服务都注册完毕，如何在这些服务之间均衡所有client的请求负载？如果有一个master节点的话，是否可以正确处理client访问的服务的位置。

集成方式—— 信息注册节点是否需要提供一些语言绑定的支持，比如说，只支持Java？集成的过程是否需要将注册过程以及发现过程的代码嵌入到你的应用程序中，或者使用一个类似于集成助手的进程？

运行时依赖—— 是否需要JVM，ruby或者其他在你的环境中并不兼容的运行时？

可用性考虑—— 如果系统失去一个节点的话，是否还能正常工作？系统是否可以实时更新或升级，而不造成任何系统的瘫痪？既然集群的信息注册节点是架构中的中心部分，那该模块是否会存在单点故障问题？

强一致性的Registries

首先介绍的三个服务注册系统都采用了强一致性协议，实际上为达到通用的效果，使用了一致性的数据存储。尽管我们把它们看作服务的注册系统，其实它们还可以用于协调服务来协助leader选举，以及在一个分布式clients的集合中做centralized locking。

Zookeeper

Zookeeper是一个集中式的服务，该服务可以维护服务配置信息，命名空间，提供分布式的同步，以及提供组化服务。Zookeeper是由Java语言实现，实现了强一致性（CP），并且是使用 Zab协议在ensemble集群之间协调服务信息的变化。

Zookeeper在ensemble集群中运行3个，5个或者7个成员。众多client端为了可以访问ensemble，需要使用绑定特定的语言。这种访问形式被显性的嵌入到了client的应用实例以及服务中。

服务注册的实现主要是通过命令空间（namespace）下的 ephemeral nodes 。ephemeral nodes只有在client建立连接后才存在。当client所在节点启动之后，该client端会使用一个后台进程获取client的位置信息，并完成自身的注册。如果该client失效或者失去连接的时候，该ephemeral node就从树中消息。

服务发现是通过列举以及查看具体服务的命名空间来完成的。Client端收到目前所有注册服务的信息，无论一个服务是否不可用或者系统新添加了一个同类的服务。Client端同时也需要自行处理所有的负载均衡工作，以及服务的失效工作。

Zookeeper的API用起来可能并没有那么方便，因为语言的绑定之间可能会造成一些细小的差异。如果使用的是基于JVM的语言的话， Curator Service Discovery Extension 可能会对你有帮助。

由于Zookeeper是一个CP强一致性的系统，因此当网络分区（Partition）出故障的时候，你的部分系统可能将出出现不能注册的情况，也可能出现不能找到已存在的注册信息，即使它们可能在Partition出现期间仍然正常工作。特殊的是，在任何一个non-quorum端，任何读写都会返回一个错误信息。

Doozer

Doozer是一个一致的分布式数据存储系统，Go语言实现，通过 Paxos算法来实现共识的强一致性系统。这个项目开展了数年之后，停滞了一段时间，而且现在也关闭了一些fork数，使得fork数降至160 。.不幸的是，现在很难知道该项目的实际发展状态，以及它是否适合使用于生产环境。

Doozer在集群中运行3，5或者7个节点。和Zookeeper类似，Client端为了访问集群，需要在自身的应用或者服务中使用特殊的语言绑定。

Doozer的服务注册就没有Zookeeper这么直接，因为Doozer没有那些ephemeral node的概念。一个服务可以在一条路径下注册自己，如果该服务不可用的话，它也不会自动地被移除。

现有很多种方式来解决这样的问题。一个选择是给注册进程添加一个时间戳和心跳机制，随后在服务发现进程中处理那些超时的路径，也就是注册的服务信息，当然也可以通过另外一个清理进程来实现。

服务发现和Zookeeper很类似，Doozer可以罗列出指定路径下的所有入口，随后可以等待该路径下的任意改动。如果你在注册期间使用一个时间戳和心跳，你就可以在服务发现期间忽略或者删除任何过期的入口，也就是服务信息。

和Zookeeper一样，Doozer是一个CP强一致性系统，当发生网络分区故障时，会导致同样的后果。

Etcd

Etcd 是一个高可用的K-V存储系统，主要应用于共享配置、服务发现等场景。Etcd可以说是被Zookeeper和Doozer催生而出。整个系统使用Go语言实现，使用Raft算法来实现选举一致，同时又具有一个基于HTTP+JSON的API。

Etcd，和Doozer和Zookeeper相似，通常在集群中运行3，5或者7个节点。client端可以使用一种特定的语言进行绑定，同时也可以通过使用HTTP客户端自行实现一种。

服务注册环节主要依赖于使用一个key TTL来确保key的可用性，该key TTL会和服务端的心跳捆绑在一起。如果一个服务在更新key的TTL时失败了，那么Etcd会对它进行超时处理。如果一个服务变为不可用状态，client会需要处理这样的连接失效，然后尝试另连接一个服务实例。

服务发现环节设计到罗列在一个目录下的所有key值，随后等待在该目录上的所有变动信息。由于API接口是基于HTTP的，所以client应用会的Etcd集群保持一个long-polling的连接。

由于Etcd使用 Raft一致性协议，故它应该是一个强一致性系统。Raft需要一个leader被选举，然后所有的client请求会被该leader所处理。然而，Etcd似乎也支持从non-leaders中进行读取信息，使用的方式是在读情况下提高可用性的未公开的一致性参数。在网络分区故障期间，写操作还是会被leader处理，而且同样会出现失效的情况。

深入浅出 Raft - Leader 选举

很快，泥坑银行就在回音山谷和海盗岛建立了网点。这时候，兔小姐就对猪爸爸说到：『猪爸爸，现在我们已经有三个银行网点了，那么我们是不是可以允许客户在三个地方都可以进行交易呢？』

猪爸爸想了想，说到：『恐怕不行，兔小姐。』

兔小姐奇怪的回复到：『为什么？，客户在任何地方交易，我们不是都可以先记录下来，然后通知其他两个地方，如果多数银行都确认了这笔交易，这不就行了吗？』

『因为我们的交易记录都是有唯一 ID，而且这个 ID 都是单调加 1 递增的。假设现在我们的交易记录 ID 是 10 了，如果我们允许在多个地方同时交易，譬如在泥坑小镇和回音山谷，那么这次交易的记录 ID 都是 11，这时候，海盗岛就会收到两个 ID 都是 11 的交易记录，海盗岛这边没法区分到底哪一个是正确的记录了。』

『嗯，这么说起来倒是的，但我们现在可是在三个地方都建立了银行网点，如果不使用，真的很可惜。』

『兔小姐，我们最开始在三个地方建立银行网点的目的就是为了完全保证数据的安全性，也就是如果一个地方出现了问题，我们的系统仍然能够正常的工作。』

『我明白了，猪爸爸。也就是说，我们的系统虽然部署在了三个地方，但同时只有一个能对外提供服务是吧？』

『是的，兔小姐。』

『那么，猪爸爸，我有个问题。我们是如何知道哪一个能对外提供服务呢？因为现在我们有三个网点，很有可能每个网点都认为自己能对外提供服务了。』

『这是个好问题，我们需要有一套机制，能让这三个网点自己选出一个 Leader 网点，对外提供服务。同时，如果这个 Leader 网点出现了故障，其他两个网点能够知道并再次选出一个 Leader 网点对外提供服务。』

猪爸爸接着道：『为了容易说明，我这里以我们实际的选举为例吧。假设现在有三个成员，A，B 和 C，他们三人会相互投票选出一个领导。这里我们先定义三种状态，Leader，Candiate 和 Follower。最开始三个人都是 Follower 状态，然后他们如果决定要选举了，就变成 Candiate 状态，如果一个 Candiate 收到了大多数的选票，那么这个 Candiate 就变成了 Leader。而这时候其他的成员都重新变成 Follower，只有 Leader 能跟外部进行交互。我这么解释你大概能明白吧，兔小姐？』

兔小姐：『是的，猪爸爸，我大概能明白这三种状态，也就是只要一个网点成为了 Leader，这个网点才能对外提供服务吧。』

好吧，又轮到作者吐槽自己吐槽了，现实中银行这么多个网点如果每次只能有一个主的银行网点能对外提供服务，那么这个银行应该会被客户给投诉了。但这里我们就假设这样吧。在 Raft 里面，每次只会有一个节点对外提供服务，这个节点就是 Leader，而其他的节点就叫做 Follower。当节点开始竞选的时候，它们就会从 Follower 变成 Candidate。

猪爸爸喝了一口水，继续说到：『是的，兔小姐。我们继续以成员 A，B，C 为例。那我们现在要面临的第一个问题，就是这三个成员如何选出一个 Leader？』

猪爸爸：『我们先假设三个成员地上都有很多小石子，但他们手上都只有 0 颗。只有某个成员碰到了一些事件，他才会从地上捡起一颗或者多颗石子。到底是什么事件，我们稍后再详细解释。』

猪爸爸接着道：『最开始，我们知道三个成员都是 Follower。然后，我们约定一个时间，譬如 10 分钟之后吧，各个成员各自开始选举，变成了 Candidate，同时，各自从地上捡起来一颗石子。』

兔小姐：『看来，这就是你上面说的事件，也就是当一个 Follower 变成 Candidate 的时候，也就是自己开始新一轮选举的时候，就给自己加一颗石子吧。』

『非常正确，兔小姐。』然后猪爸爸接着说道：『 Candidate 会先给自己投一票，然后会给其他的几个成员发送投票信息，让它们选举自己成为 Leader。如果一个 Candidate 知道自己已经得到了大多数的选票，那么就能成为 Leader 了。』

『获得大部分投票就成为 Leader 这个就跟我们自己的选举一样的。但是，猪爸爸，自己给自己投一票我能理解，但其他人为什么要给我投票呢？』

『这是个好问题，兔小姐，你还记得我前面说的石子吧？』

『当然记得，猪爸爸，当开始选举的时候，就给自己加一颗石子。』

『是的，兔小姐。首先我们来考虑初始情况，这时候我们还没进行任何交易，交易记录还是 0。当一个 Candidate 给其他成员发送投票消息的时候，会带上自己的石子数量。当其他成员收到投票消息，如果发现自己的石子数量比收到的投票信息消息的石子数量要少，就给这个 Candidate 投票，同时自己变成跟随者，从地上捡起来足够多的石子直到自己的石子数量跟投票消息里面的一样。』

『如果自己的石子数量比投票消息的石子数量要多呢，我们如何处理？』

『兔小姐，如果是这样，那么就直接丢弃这条消息。我们通常不管石子数量比自己当前手上石子数量少的消息。』

『这主意不错，如果自己手上的石子数量跟投票消息里面的一样呢，我们又如何处理？』

『这个就要看自己是不是已经给其他人或者自己投票了，如果我已经给其他人或者自己投票了，我就给你回复一条拒绝消息。』

『我讨厌被拒绝。』兔小姐很伤心的说道，不过我想兔先生可不敢拒绝她。

『没办法，为了保证选举的安全，我们必须这样。所以对于一轮选举来说，它可能会碰到三种情况，自己变成了 Leader，其它节点变成了 Leader，以及没有选出 Leader。』

『为什么会没选出 Leader 呢？』

『考虑到这种情况，三个成员 A，B，C ，最开始石子数量都是 0，然后他们同时开始选举，先都给自己投了一票，这样所有人的石子数量现在都是 1，所以无论谁收到其他人的消息，都会回复拒绝，这样我们必须开始下一轮选举』

『但下一轮选举也可能没有选出来吧。』

『是的，兔小姐，你还记得我之前提到的 10 分钟吧。』

『记得，10 分钟之后，都开始选举。』

『如果每次大家重新开始选举的时间都是一样，很有可能都选不出来。所以我们可以约定一个时间范围，譬如 10 到 20 分钟，各个成员会随机在这个时间段里面选一个时间来等待，这样就能错开选举了。』

『这主意不错，这样选出来 Leader 的概率就大了很多。』

好了，说了这么多，该说说实际的 Raft 了。上面的石子数量就是 Raft 里面的 Term。每次开始一轮新的选举，Term 就加 1。如果选出了 Leader，那么就会一直维持这个 Term，直到下一次选举。上面的 10 分钟就是 election timeout。

在实际 Raft 中，还有一些复杂的 corner case，譬如如果选出了 Leader，但另一个 Candidate 有更高的 Term，这样很可能会让 Leader 变成 Follower，或者让 Follower 给这个更高 Term 的 Candidate 重新投票。为了解决这样的问题，我们可以考虑 Pre-Vote，也就是一个 Follower 如果要开始投票，它并不会立刻变成 Candidate，给自己 Term + 1，而是会先变成 Pre-Candidate 的状态，用当前的 Term 去问其他的节点能否给自己投票，如果收到了大多数的同意消息，那么才会变成 Candidate 继续后面的选举流程。

另外，我们也可以考虑 Check Quorum，当一个 Follower 收到了更高的 Term 选举消息，如果它确信当前集群还在正在工作，也就是在 election timeout 的时间里面仍然收到了 Leader 的消息，那么这个 Follower 会直接丢掉这个消息。

这里我们只讨论了 Log 都没有的情况，对于已经有 Log 的情况，选举情况还要做一些其它判断，我们后续再说明。

猪爸爸休息了下，继续说道：『现在我们解决了第一个问题，就是如何选出一个 Leader。下面，我们就要面临两个问题。一个是如何让 Leader 一直能正常工作。另一个就是万一 Leader 出现了问题，其它的 Follower 如何知道，并开始重新选举？』

『这看起来有点复杂。』

『其实一点也不，兔小姐。当我们选出来 Leader 之后，Leader 就会就会开始处理外面的请求。你还记得我前面说的我们的安全交易模型吧？必须大多数节点都记录了这笔交易，我们才能实际交易。』

『当然记得，猪爸爸。』

『因为现在只有 Leader 能处理交易，所以每笔交易，Leader 都要发给 Follower，这样 Leader 和 Follower 之间就有了通信。所以只要我们一直有交易处理，这条通信链条就不会断掉，Leader 就一直能维持自己是 Leader 的状态了。』

『嗯，是这样的。但如果到了晚上，没有交易，怎么办呢？』

『这是个好问题，兔小姐。所以 Leader 会定期给 Follower 发送一条消息，说我现在还是 Leader，这个消息其实就是跟上面说的发送交易记录的作用一样的，只是让 Follower 知道 Leader 还在就可以了。』

『这主意不错，那如果很长一段时间 Follower 没收到 Leader 发过来的消息，那我们怎么办呢？』

『还记得我前面说的 10 分钟吧，我们可以继续约定，如果 10 分钟内，Follower 没有收到 Leader 的任何消息，那么 Follower 就认为 Leader 有问题了，这样 Follower 就开始重新选举。』

在 Raft 里面，如果选出来一个 Leader，Leader 会定期给 Follower 发送心跳，这个定期的时间我们通常叫做 heartbeat timeout，如果 Follower 在 election timeout 的时间里都没收到 Leader 的消息，就开始新一轮的选举。Heartbeat timeout 的时间要比 election timeout 小很多，譬如 election timeout 如果是 10s，那么 heartbeat timeout 可能就是 2s 或者 3s。

兔小姐听完了猪爸爸的回答，仔细想了想，说道『猪爸爸，你前面说的重新选举，貌似假设的是初始情况，没有任何交易记录的情况。但我们选出了 Leader，这时候可能进行了很多交易了，那么这时候 Follower 再选举 Leader 还有啥需要注意的呢？』

『这个问题非常的好，兔小姐！』猪爸爸由衷的赞叹道。『之前，我们仅仅是通过石子数量来决定是否成为 Leader，但这样是远远不够的，我们还必须通过各自交易记录的数量来最终确定是否能成为 Leader。』

『要通过交易记录数量来确定？』兔小姐不解的问道。

『是的，兔小姐。你还记得最开始我说的交易记录的特性吧。每次交易，我们都会使用一个递增的唯一 ID 来标识记录。』

『我当然记得，猪爸爸』

『现在我们回到银行网点这边，假设它们之间选出泥坑小镇作为了 Leader，那么客户就能在泥坑小镇进行交易了。一段时间之后，泥坑小镇这边进行了 10 次交易，也就是最后一次交易记录 ID 是 10。因为一次交易必须大部分银行网点都确定收到了这次交易记录，所以一定有一个网点交易数量是跟泥坑小镇一样的，假设这里是回音山谷。而海盗岛可能稍微落后了，只有 9 条，最后一次交易记录是 9。如果只按照我们先前的石子数量来判断，如果海盗岛的石子数量最多，那海盗岛在泥坑小镇出现了问题之后，就会被选出 Leader，但实际是不允许的。因为只有回音山谷有最新的交易数据，但海盗岛没有。』

『虽然很绕，但我大概有点明白了，猪爸爸。也就是说，我们选举的时候，还需要判断，被选举者是否有最新的交易记录吧。』

『是的，兔小姐，所以 Candidate 在发送投票消息的时候，不光要带上石子数量，还需要带上自己最后一条交易记录的 ID。如果我收到了一条投票消息，发现这条消息里面的交易记录 ID 比我当前的还要大或者相等，那我就能认为发送这条投票消息的人有比我更多的交易记录，我就可以给他投票。』

在实际 Raft 里面，Candidate 给其他节点发送投票消息的时候，会带上自己当前最后一条 Log 的 Term 和 Index。如果投票消息的 Term 比自己最后一条 Log 的 Term 大，或者两个 Term 相等，但投票消息的 Index 大于或者等于自己最后一条 Log 的 Index，那么就可以给这个 Candidate 投票。至于为什么要同时判断 Term 和 Index，我们可以考虑一个 corner case，假设有 A，B，C 三个节点。

在 5 的时候，A 也有一个 Log 100，但这个 Log 其实是不正确的，所以 B 和 C 必须拒绝给 A 投票，所以这里我们要借助 Term。因为 A 写 Log 100 的时候，Term 还是 10，但 B 和 C 这时候写的 Log 100 里面的 Term 已经是 11 了，所以它们就会知道 A 并没有最新的 Log。

好了，扯了这么多，都无非是说的 Raft 里面的 Leader Election，虽然 Raft 的 Leader Election 原理很好理解，主要还是一些 corner case 的问题，以及出现了一个坏的节点，如果让它别乱发投票消息，影响到整个集群。

java 是什么语言写的

JAVA中就虚拟机是其它语言开发的，用的是C语言+汇编语言基于此之上就是JAVA本身了虚拟机只起到解析作用

另外，JAVA并不比C语言慢，说JAVA慢一般是九十年代那时候的JAVA，而现在在一段优秀的JAVA程序和C程序执行效率上来比较是没有多大差距的并且现在JAVA已经可以像C语言那样，直接编译为可执行文件（不用虚拟机，跨平台为代价）了

不知道你看过卓越编程之道二（运用底层思维编写高级代码）没有，那里面详细的讲述了高级语言从编写到编译执行的过程，通过目标文件的反汇编对比，发现C，C++，JAVA，dephi等语言在同等质量下的目标文件长度上基本上没多大区别，一门语言的运行速度快慢，与你编写代码过程中是否符合编译器规则息息相关。有空你可以去看看这本书。

glusterfs 是什么语言写的

使用opencv需要编译源码，得到库文件。可以用cmake构建项目后编译，也可以直接用官方提供的编译好的版本。

官方提供的编译库一般只是标准版本，没有附加某些库，比如tbb等，要想让opencv使用tbb等库，就只能自己构建项目后编译。

当然，一般使用的话，用官方提供的库即可。OpenCV2.3.1版本就提供编译好的库，可以直接设置使用。

bigtable是什么语言写的

不过有人大费周折为他建立了一个类似于“关于 Chuck Norris 的事实”这样的网站，这倒是件不同寻常的事。这是因为 Jeff Dean 是一位软件工程师

zookeeper是什么语言写的

本文是Jason Wilder对于常见的服务发现项目 Zookeeper ， Doozer ， Etcd 所写的一篇博客，其原文地址如下： Open-Source Service Discovery 。

在这样的场景下，为了避免不必要的服务中断，动态的服务注册和发现就显得尤为重要。

本文首先从几个强一致性的项目于开始，比如Zookeeper，Doozer，Etcd，这些项目主要用于服务间的协调，同时又可用于服务的注册。

随后，本文将讨论一些在服务注册以及发现方面比较有意思的项目，比如：Airbnb的SmartStack，Netflix的Eureka，Bitly的NSQ，Serf，Spotify and DNS，最后是SkyDNS。

问题陈述

在定位服务的时候，其实会有两个方面的问题：服务注册（Service Registration）和服务发现（Service Discovery）。

服务发现—— client端的应用实例查询中心注册节点以获知服务位置的过程。

每一个服务的服务注册以及服务发现，都需要考虑一些关于开发以及运营方面的问题：

运行时依赖—— 是否需要JVM，ruby或者其他在你的环境中并不兼容的运行时？

强一致性的Registries

Zookeeper

Doozer

Doozer在集群中运行3，5或者7个节点。和Zookeeper类似，Client端为了访问集群，需要在自身的应用或者服务中使用特殊的语言绑定。

和Zookeeper一样，Doozer是一个CP强一致性系统，当发生网络分区故障时，会导致同样的后果。

Etcd

delphi是什么语言写的

Object Pascal

jdk是什么语言写的

你猜～～

druid是什么语言写的

Druid是Java语言中最好的数据库连接池。Druid能够提供强大的监控和扩展功能。

EPM和BI是什么啊？是用java语言写的吗？

不全是java，epm有用.写的，但是绝大多少是用java。

BI设计到大数据，除了java还有一些新技术，比如scala和kalfka。

dos 是什么语言写的?

汇编语言，低级编辑语言

Api 是什么语言写的？

API肯定也是一种语言实现他具体功能的啊 .

相当于函数,不过我们只能调用,不知道如何实现的.

NET中有没有类似ZooKeeper这样的分布式服务框架

本文是JasonWilder对于常见的服务发现项目Zookeeper，Doozer，Etcd所写的一篇博客，其原文地址如下：Open-SourceServiceDiscovery。服务发现是大多数分布式系统以及面向服务架构（SOA）的一个核心组成部分。这个难题，简单来说，可以认为是：当一项服务存在于多个主机节点上时，client端如何决策获取相应正确的IP和port。在传统情况下，当出现服务存在于多个主机节点上时，都会使用静态配置的方法来实现服务信息的注册。但是当大型系统中，需要部署服务的时候，事情就显得复杂得多。在一个实时的系统中，由于自动或者人工的服务扩展，或者服务的新添加部署，还有主机的宕机或者被替换，服务的location信息可能会很频繁的变化。在这样的场景下，为了避免不必要的服务中断，动态的服务注册和发现就显得尤为重要。关于服务发现的话题，已经很多次被人所提及，而且也的确不断的在发展。现在，笔者介绍一下该领域内一些open-source或者被经常被世人广泛讨论的解决方案，尝试理解它们到底是如何工作的。特别的是，我们会较为专注于每一个解决方案的一致性算法，到底是强一致性，还是弱一致性；运行时依赖；client的集成选择；以后最后这些特性的折中情况。本文首先从几个强一致性的项目于开始，比如Zookeeper，Doozer，Etcd，这些项目主要用于服务间的协调，同时又可用于服务的注册。随后，本文将讨论一些在服务注册以及发现方面比较有意思的项目，比如：Airbnb的SmartStack，Netflix的Eureka，Bitly的NSQ，Serf，SpotifyandDNS，最后是SkyDNS。问题陈述在定位服务的时候，其实会有两个方面的问题：服务注册（ServiceRegistration）和服务发现（ServiceDiscovery）。服务注册——一个服务将其位置信息在中心注册节点注册的过程。该服务一般会将它的主机IP地址以及端口号进行注册，有时也会有服务访问的认证信息，使用协议，版本号，以及关于环境的一些细节信息。服务发现——client端的应用实例查询中心注册节点以获知服务位置的过程。每一个服务的服务注册以及服务发现，都需要考虑一些关于开发以及运营方面的问题：监控——当一个已注册完毕的服务失效的时候，如何处理。一些情况下，在一个设定的超时定时(timeout)后，该服务立即被一个其他的进程在中心注册节点处注销。这种情况下，服务通常需要执行一个心跳机制，来确保自身的存活状态；而客户端必然需要能够可靠处理失效的服务。负载均衡——如果多个相同地位的服务都注册完毕，如何在这些服务之间均衡所有client的请求负载？如果有一个master节点的话，是否可以正确处理client访问的服务的位置。集成方式——信息注册节点是否需要提供一些语言绑定的支持，比如说，只支持Java？集成的过程是否需要将注册过程以及发现过程的代码嵌入到你的应用程序中，或者使用一个类似于集成助手的进程？运行时依赖——是否需要JVM，ruby或者其他在你的环境中并不兼容的运行时？可用性考虑——如果系统失去一个节点的话，是否还能正常工作？系统是否可以实时更新或升级，而不造成任何系统的瘫痪？既然集群的信息注册节点是架构中的中心部分，那该模块是否会存在单点故障问题？强一致性的Registries首先介绍的三个服务注册系统都采用了强一致性协议，实际上为达到通用的效果，使用了一致性的数据存储。尽管我们把它们看作服务的注册系统，其实它们还可以用于协调服务来协助leader选举，以及在一个分布式clients的集合中做centralizedlocking。ZookeeperZookeeper是一个集中式的服务，该服务可以维护服务配置信息，命名空间，提供分布式的同步，以及提供组化服务。Zookeeper是由Java语言实现，实现了强一致性（CP），并且是使用Zab协议在ensemble集群之间协调服务信息的变化。Zookeeper在ensemble集群中运行3个，5个或者7个成员。众多client端为了可以访问ensemble，需要使用绑定特定的语言。这种访问形式被显性的嵌入到了client的应用实例以及服务中。服务注册的实现主要是通过命令空间（namespace）下的ephemeralnodes。ephemeralnodes只有在client建立连接后才存在。当client所在节点启动之后，该client端会使用一个后台进程获取client的位置信息，并完成自身的注册。如果该client失效或者失去连接的时候，该ephemeralnode就从树中消息。服务发现是通过列举以及查看具体服务的命名空间来完成的。Client端收到目前所有注册服务的信息，无论一个服务是否不可用或者系统新添加了一个同类的服务。Client端同时也需要自行处理所有的负载均衡工作，以及服务的失效工作。Zookeeper的API用起来可能并没有那么方便，因为语言的绑定之间可能会造成一些细小的差异。如果使用的是基于JVM的语言的话，CuratorServiceDiscoveryExtension可能会对你有帮助。由于Zookeeper是一个CP强一致性的系统，因此当网络分区（Partition）出故障的时候，你的部分系统可能将出出现不能注册的情况，也可能出现不能找到已存在的注册信息，即使它们可能在Partition出现期间仍然正常工作。特殊的是，在任何一个non-quorum端，任何读写都会返回一个错误信息。DoozerDoozer是一个一致的分布式数据存储系统，Go语言实现，通过Paxos算法来实现共识的强一致性系统。这个项目开展了数年之后，停滞了一段时间，而且现在也关闭了一些fork数，使得fork数降至160。.不幸的是，现在很难知道该项目的实际发展状态，以及它是否适合使用于生产环境。Doozer在集群中运行3，5或者7个节点。和Zookeeper类似，Client端为了访问集群，需要在自身的应用或者服务中使用特殊的语言绑定。Doozer的服务注册就没有Zookeeper这么直接，因为Doozer没有那些ephemeralnode的概念。一个服务可以在一条路径下注册自己，如果该服务不可用的话，它也不会自动地被移除。现有很多种方式来解决这样的问题。一个选择是给注册进程添加一个时间戳和心跳机制，随后在服务发现进程中处理那些超时的路径，也就是注册的服务信息，当然也可以通过另外一个清理进程来实现。服务发现和Zookeeper很类似，Doozer可以罗列出指定路径下的所有入口，随后可以等待该路径下的任意改动。如果你在注册期间使用一个时间戳和心跳，你就可以在服务发现期间忽略或者删除任何过期的入口，也就是服务信息。和Zookeeper一样，Doozer是一个CP强一致性系统，当发生网络分区故障时，会导致同样的后果。EtcdEtcd是一个高可用的K-V存储系统，主要应用于共享配置、服务发现等场景。Etcd可以说是被Zookeeper和Doozer催生而出。整个系统使用Go语言实现，使用Raft算法来实现选举一致，同时又具有一个基于HTTP+JSON的API。Etcd，和Doozer和Zookeeper相似，通常在集群中运行3，5或者7个节点。client端可以使用一种特定的语言进行绑定，同时也可以通过使用HTTP客户端自行实现一种。服务注册环节主要依赖于使用一个keyTTL来确保key的可用性，该keyTTL会和服务端的心跳捆绑在一起。如果一个服务在更新key的TTL时失败了，那么Etcd会对它进行超时处理。如果一个服务变为不可用状态，client会需要处理这样的连接失效，然后尝试另连接一个服务实例。服务发现环节设计到罗列在一个目录下的所有key值，随后等待在该目录上的所有变动信息。由于API接口是基于HTTP的，所以client应用会的Etcd集群保持一个long-polling的连接。由于Etcd使用Raft一致性协议，故它应该是一个强一致性系统。Raft需要一个leader被选举，然后所有的client请求会被该leader所处理。然而，Etcd似乎也支持从non-leaders中进行读取信息，使用的方式是在读情况下提高可用性的未公开的一致性参数。在网络分区故障期间，写操作还是会被leader处理，而且同样会出现失效的情况。

文章名称：包含go语言实现raft投票的词条
文章起源：http://pwwzsj.com/article/dosoojd.html

平武建站

包含go语言实现raft投票的词条

Raft 算法（详细版）

zookeeper是什么语言写的

深入浅出 Raft - Leader 选举

java 是什么语言写的

NET中有没有类似ZooKeeper这样的分布式服务框架

其他资讯