Guava - HelloWorld开发者社区

背景

原有的去重方案是：

使用linux命令去重
- 缺点
  1. 出现问题只能重来，控制粒度很粗。
  2. 程序与操作系统过渡耦合，如果系统中sort或者uniq命令出现问题，则去重功能不能使用。
  3. 使得push opt的用户数据以文件的形式存在，不方便多主机、操作系统共享，妨碍后期push opt多主节点发展。
- 优点
  1. 实现简单
  2. 一般功能稳定
使用tair去重
- 缺点
  1. 浪费大量珍贵的内存资源
  2. 不一定可靠，也可能丢失数据
  3. tair出现问题后，用户去重功能彻底不能使用。
- 优点
  1. 一般不会出现问题；
  2. 访问迅速；
  3. 接近O(1)时间复杂度得知哪条重复。
  4. 适合分布式系统中去重

为什么使用布隆过滤器

原理

Guava
初始化：对于x,y,z三个数，经过{k1,k2,k3}三个hash函数，将向量空间中的某些位置标记为1，作为初始向量空间。

判断：当新进入一个数据，w，进过{k1,k2,k3}hash函数，在向量空间上所有位置均为1，表示命中这个数，这个数已经在bloomfilter中。如果部分为1或者全为0，表示这个数不在bloomfilter中。

性能分析

参考：csdn博客

如果hash函数个数为k个，那么bloom过滤器插入和判断一个数的时间复杂度是O(k)，空间复杂度为O(size)。size为bloomfilter的位数组大小。

优缺点分析

优点：常数时间复杂度，占用很少的内存。
缺点：不会漏判一个已经发送过的token，但是可能误判一个每发送过的为发送了。此时发生了hash冲突。但是当hash空间一定大的时候，是可以降低冲突的。还有发送push，少发了几个是可以容忍的。（类似tair丢失极少量数据是可以容忍的）

使用

Guava的布隆过滤器通过调用BloomFilter类的静态函数创建，传递一个Funnel对象以及一个代表预期插入数量的整数。

Funnel对象的作用，将数据发送给一个接收器（Slink）。

package guava;

import com.google.common.base.Strings;
import com.google.common.collect.Lists;
import com.google.common.collect.Maps;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnel;
import com.google.common.hash.PrimitiveSink;
import org.junit.Before;
import org.junit.Test;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.nio.charset.Charset;
import java.util.List;
import java.util.Map;
import java.util.Random;

/**
 * Created by hgf on 16/8/25.
 */
public class BloomFilterTest {

    private BloomFilter<String> bloomFilter;

    private final static String TOKEN = "token-[0-9]+";

    private final static String prefix = "token-";

    private List<String> tokens = Lists.newArrayList();

    private Map<String, Integer> map = Maps.newHashMap();

    private Map<String, Integer> reflect = Maps.newHashMap();

    @Before
    public void init() {
        Random random = new Random();

        for (int i = 0; i < 10000; i++) {
            tokens.add(prefix + random.nextInt(10000));
        }
        try {
            writeSource();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Test
    public void test() {
    //此处使用的是自定义funnel，可以使用guava默认实现的funnel。
    //全部实现在Funnels中。Funnels.stringFunnel(Charset.defaultCharset())
    //注意此处布隆过滤器大小，应估算的稍大
        bloomFilter = BloomFilter.create(stringFunnel(), tokens.size());

        int repeatTimes = 0;
        for (String token : tokens) {
            //参照数据
            Integer tmp = reflect.get(token);
            if (tmp == null) {
                reflect.put(token, 1);
            } else {
                reflect.put(token, tmp + 1);
            }

            //布隆过滤器数据
            boolean hasToken = bloomFilter.mightContain(token);
            if (hasToken) {
                Integer times = map.get(token);
                if (times == null) {
                    map.put(token, 2);
                } else {
                    map.put(token, times + 1);
                }
                repeatTimes++;
            } else {
                bloomFilter.put(token);
            }
        }

        System.out.println("随机token中重复次数:" + repeatTimes);
//        //打印重复的token
//        System.out.println("bloom filter 判断为重复的token数:" + map);

        compareResult();
    }

    private void compareResult() {

        int wrongCount = 0;
        for (String token : map.keySet()) {
            Integer tmp = map.get(token);
            if (!(tmp != null && tmp.intValue() == reflect.get(token).intValue())) {
                wrongCount++;
                System.out.println("错误统计:\t" + token + "\t" + tmp + "\t" + reflect.get(token));
            }
        }
        System.out.println("总统计出错,对比结果:" + wrongCount+"次");
    }

    private void writeSource() throws IOException {
        File file = new File("source.txt");
        try (BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter(file))) {
            for (String token : tokens) {
                bufferedWriter.write(token);
                bufferedWriter.newLine();
            }
        }

    }

    public static Funnel<String> stringFunnel() {
        return StringFunnel.INSTANCE;
    }

    private enum StringFunnel implements Funnel<String> {
        INSTANCE;

        @Override
        public void funnel(String from, PrimitiveSink into) {
            if (isToken(from)) {
                into.putString(from, Charset.defaultCharset());
            }
        }

        private boolean isToken(String token) {
            return (!Strings.isNullOrEmpty(token) && token.matches(TOKEN));
        }

    }
}

输出结果

随机token中重复次数:3709
错误统计:   token-7746  2   1
错误统计:   token-5714  2   1
错误统计:   token-1718  3   2
错误统计:   token-7065  3   2
错误统计:   token-8875  4   3
错误统计:   token-3599  2   1
错误统计:   token-8563  2   1
总统计出错,对比结果:7次