【无标题】List去重常见方法效率比较
Java中List去重的多种方案有以下几种:
使用Set进行去重
使用Set集合是非常常见的方法,因为Set具有不允许元素重复的特性,当我们把List的元素存放到Set中时,就自动实现了去重。这种方式简单易行,代码量少,但是由于需要将List中的数据存储到Set中,再转化为List,因此效率相对较低。
java
List list = Arrays.asList(1, 2, 1, 3, 4, 2);
List newList = new ArrayList<>(new HashSet<>(list));
借助Map实现去重
这种方式的原理是利用HashMap的key不重复的特性,遍历List时将List中的元素存放到HashMap中,这样重复的元素就自动被去掉了。这种方式比使用Set集合稍微复杂一些,但是处理效率却相对较高。
java
List list = Arrays.asList(1, 2, 1, 3, 4, 2);
Map<Integer, Integer> map = new HashMap<>();
for (Integer i : list) {
map.put(i, i);
}
List newList = new ArrayList<>(map.values());
Java8 Stream流去重
Java8中Stream流提供了很多便捷的API,包括去重。这种方式也非常简单,只需要使用Stream的distinct()方法即可。
java
List list = Arrays.asList(1, 2, 1, 3, 4, 2);
List newList = list.stream().distinct().collect(Collectors.toList());
下面是三种方法的效率比较:
测试代码如下:
java
public class ListRemoveDuplication {
private static List<Integer> getList(int n) {
List<Integer> list = new ArrayList<>();
for (int i = 0; i < n; i++) {
list.add((int) (Math.random() * n));
}
return list;
}
private static void testSet(int n) {
List<Integer> list = getList(n);
long start = System.currentTimeMillis();
List<Integer> newList = new ArrayList<>(new HashSet<>(list));
long end = System.currentTimeMillis();
System.out.println("set: " + (end - start) + "ms");
}
private static void testMap(int n) {
List<Integer> list = getList(n);
Map<Integer, Integer> map = new HashMap<>();
long start = System.currentTimeMillis();
for (Integer i : list) {
map.put(i, i);
}
List<Integer> newList = new ArrayList<>(map.values());
long end = System.currentTimeMillis();
System.out.println("map: " + (end - start) + "ms");
}
private static void testStream(int n) {
List<Integer> list = getList(n);
long start = System.currentTimeMillis();
List<Integer> newList = list.stream().distinct().collect(Collectors.toList());
long end = System.currentTimeMillis();
System.out.println("stream: " + (end - start) + "ms");
}
public static void main(String[] args) {
int n = 1000000;
testSet(n);
testMap(n);
testStream(n);
}
}
运行测试后,可以发现Set的效率最低,Map的效率中等,Stream的效率较高。但是这并不代表Set就不好用,因为在数据规模比较小的情况下,三种方法的差异会比较小,而且Set的代码量最少,易于书写和维护。在实际开发中,应根据具体情况选择合适的去重方式。