storm中如何自定义数据分组

今天就跟大家聊聊有关storm中如何自定义数据分组，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联公司是一家专业提供来宾企业网站建设,专注与成都网站建设、网站设计、H5开发、小程序制作等业务。10年已为来宾众多企业、政府机构等服务。创新互联专业网站设计公司优惠进行中。

数据流组

设计一个拓扑时，你要做的最重要的事情之一就是定义如何在各组件之间交换数据（数据流是如何被bolts消费的）。一个数据流组指定了每个bolt会消费哪些数据流，以及如何消费它们。

storm自带数据流组

随机数据流组

随机流组是最常用的数据流组。它只有一个参数（数据源组件），并且数据源会向随机选择的bolt发送元组，保证每个消费者收到近似数量的元组。

 builder.setBolt("word-counter", new WordCounter()).shuffleGrouping("word-normalizer");

域数据流组

域数据流组允许你基于元组的一个或多个域控制如何把元组发送给bolts。它保证拥有相同域组合的值集发送给同一个bolt。回到单词计数器的例子，如果你用word域为数据流分组，word-normalizer bolt将只会把相同单词的元组发送给同一个word-counterbolt实例。

 builder.setBolt("word-counter", new WordCounter(),2)
           .fieldsGrouping("word-normalizer", new Fields("word"));

全部数据流组

全部数据流组，为每个接收数据的实例复制一份元组副本。这种分组方式用于向bolts发送信号。比如，你要刷新缓存，你可以向所有的bolts发送一个刷新缓存信号。在单词计数器的例子里，你可以使用一个全部数据流组，添加清除计数器缓存的功能

builder.setBolt("word-counter", new WordCounter(),2)
           .fieldsGroupint("word-normalizer",new Fields("word"))
           .allGrouping("signals-spout","signals");

直接数据流组

这是一个特殊的数据流组，数据源可以用它决定哪个组件接收元组

 builder.setBolt("word-counter", new WordCounter(),2)
           .directGrouping("word-normalizer");

。与前面的例子类似，数据源将根据单词首字母决定由哪个bolt接收元组。要使用直接数据流组，在WordNormalizer bolt中，使用emitDirect方法代替emit。

public void execute(Tuple input) {
        ...
        for(String word : words){
            if(!word.isEmpty()){
                ...
                collector.emitDirect(getWordCountIndex(word),new Values(word));
            }
        }
        //对元组做出应答
        collector.ack(input);
    }
    public Integer getWordCountIndex(String word) {
        word = word.trim().toUpperCase();
        if(word.isEmpty()){
            return 0;
        }else{
            return word.charAt(0) % numCounterTasks;
        }
    }

在prepare方法中计算任务数

 public void prepare(Map stormConf, TopologyContext context, 
                OutputCollector collector) {
        this.collector = collector;
        this.numCounterTasks = context.getComponentTasks("word-counter");
    }

全局数据流组

全局数据流组把所有数据源创建的元组发送给单一目标实例（即拥有最低ID的任务）。

不分组

这个数据流组相当于随机数据流组。也就是说，使用这个数据流组时，并不关心数据流是如何分组的。

自定义数据流组

storm自定义数据流组和hadoop Partitioner分组很相似，storm自定义分组要实现CustomStreamGrouping接口，接口源码如下：

public interface CustomStreamGrouping extends Serializable {

void prepare(WorkerTopologyContext context, GlobalStreamId stream, List targetTasks);

List chooseTasks( int taskId, List

平武建站

storm中如何自定义数据分组

其他资讯