【无标题】List去重常见方法效率比较

Java中List去重的多种方案有以下几种:

使用Set进行去重
使用Set集合是非常常见的方法,因为Set具有不允许元素重复的特性,当我们把List的元素存放到Set中时,就自动实现了去重。这种方式简单易行,代码量少,但是由于需要将List中的数据存储到Set中,再转化为List,因此效率相对较低。

java
List list = Arrays.asList(1, 2, 1, 3, 4, 2);
List newList = new ArrayList<>(new HashSet<>(list));
借助Map实现去重
这种方式的原理是利用HashMap的key不重复的特性,遍历List时将List中的元素存放到HashMap中,这样重复的元素就自动被去掉了。这种方式比使用Set集合稍微复杂一些,但是处理效率却相对较高。

java
List list = Arrays.asList(1, 2, 1, 3, 4, 2);
Map<Integer, Integer> map = new HashMap<>();
for (Integer i : list) {
map.put(i, i);
}
List newList = new ArrayList<>(map.values());
Java8 Stream流去重
Java8中Stream流提供了很多便捷的API,包括去重。这种方式也非常简单,只需要使用Stream的distinct()方法即可。

java
List list = Arrays.asList(1, 2, 1, 3, 4, 2);
List newList = list.stream().distinct().collect(Collectors.toList());
下面是三种方法的效率比较:

测试代码如下:

java
public class ListRemoveDuplication {

private static List<Integer> getList(int n) {
    List<Integer> list = new ArrayList<>();
    for (int i = 0; i < n; i++) {
        list.add((int) (Math.random() * n));
    }
    return list;
}

private static void testSet(int n) {
    List<Integer> list = getList(n);
    long start = System.currentTimeMillis();
    List<Integer> newList = new ArrayList<>(new HashSet<>(list));
    long end = System.currentTimeMillis();
    System.out.println("set: " + (end - start) + "ms");
}

private static void testMap(int n) {
    List<Integer> list = getList(n);
    Map<Integer, Integer> map = new HashMap<>();
    long start = System.currentTimeMillis();
    for (Integer i : list) {
        map.put(i, i);
    }
    List<Integer> newList = new ArrayList<>(map.values());
    long end = System.currentTimeMillis();
    System.out.println("map: " + (end - start) + "ms");
}

private static void testStream(int n) {
    List<Integer> list = getList(n);
    long start = System.currentTimeMillis();
    List<Integer> newList = list.stream().distinct().collect(Collectors.toList());
    long end = System.currentTimeMillis();
    System.out.println("stream: " + (end - start) + "ms");
}

public static void main(String[] args) {
    int n = 1000000;
    testSet(n);
    testMap(n);
    testStream(n);
}

}
运行测试后,可以发现Set的效率最低,Map的效率中等,Stream的效率较高。但是这并不代表Set就不好用,因为在数据规模比较小的情况下,三种方法的差异会比较小,而且Set的代码量最少,易于书写和维护。在实际开发中,应根据具体情况选择合适的去重方式。