Hashmap简单原理

思维导图

集合框架

Java集合是Java提供的工具包，包含了常用的数据结构：集合、链表、队列、栈、数组、映射等。

Java集合工具包的位置是Java.util.*。

类图

集合框架类图

可以看到,Java集合主要可以划分为四个部分：List列表、Set集合、Map映射、工具类（Iterator迭代器、Enumeration枚举类、Arrays和Collects）。

虽然涉及的类和接口很多,但其中一部分像Hashtable或Vector是历史遗留或者不常用到的类,没有过分深究的必要.
List是一个有序的队列，每一个元素都有它的索引。第一个元素的索引值是0.List的实现类有LinkedList, ArrayList等.
Set是一个不允许有重复元素的集合。 Set的实现类有HastSet和TreeSet。HashSet依赖于HashMap，它实际上是通过HashMap实现的；TreeSet依赖于TreeMap，它实际上是通过TreeMap实现的.因此掌握了Map也就掌握了Set
Map是一个映射接口，即key-value键值对。Map中的每一个元素包含“一个key”和“key对应的value”.AbstractMap是个抽象类，它实现了Map接口中的大部分API
Iterator是遍历集合的工具，我们通常通过iterator()函数来遍历集合.

Fail-fast机制

当多线程同时操作同一个Collection时可能会抛出一个ConcurrentModificationException异常,这就是一个fail-fast事件.

来看一段代码:

        final void checkForComodification() {
            if (modCount != expectedModCount)
                throw new ConcurrentModificationException();
        }

modCount这个变量是用来记录集合被修改的次数,每次修改后modCount计数+1.

        public void remove() {
            if (lastRet < 0)
                throw new IllegalStateException();
            checkForComodification();

            try {
                ArrayList.this.remove(lastRet);
                cursor = lastRet;
                lastRet = -1;
                expectedModCount = modCount;
            } catch (IndexOutOfBoundsException ex) {
                throw new ConcurrentModificationException();
            }
        }

每次要对集合进行操作前,都要调用checkForComodification()来检查预期值expectedModCount和集合当前的modCount是否一致.

如果此时也有另一个线程在修改集合的内容,那么就会不一致,就会立刻抛出异常.

Fast-fail解决办法:

通过并发工具J.U.C下的相应包来进行处理,例如CopyOnWriteArrayList,ConcurrentHashmap等,这将在之后讲并发的时候再详细介绍.

接下来就开始介绍hashmap了.作为Java集合最重要的类之一,同时也是面试的高频问题,hashmap可以说必须要方方面面都研究透彻才行.

数据结构

hashmap结构

hashmap由链表和数组组成.这个数组1.8之前叫做Entry,后来改名Node,实现了**Map.Entry<K,V>**这个接口.

    static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;
        
        ....
}

Node数组实际上是一个哈希桶,每个node根据其key计算出hash后会放在相应的位置上.

如果该位置已经有了元素,也就是发生了hash冲突,那么这个位置就会拉出来一条链表,这种解决hash冲突的方法叫链地址法.

其它变量:

initialCapacity : Node数组初始长度,必须为2的次幂,默认是16.
loadFactor : 加载因子,默认为0.75,当hashmap容量达到一定比例时,比如16*0.75=12,会触发扩容.
threshold : 扩容阈值,也就是hashmap能容纳的最大键值对数,扩容阀值 = initialCapacity * loadFactor ,当键值对数量到达该值后触发扩容,扩容后为当前的两倍.
size : map里面键值对的数量.
TREEIFY_THRESHOLD = 8 : 树化阈值,当链表超过这个长度时,将会转化为红黑树.树化相关的几个变量都是1.8后新增的.
UNTREEIFY_THRESHOLD = 6 : 链化阈值,当红黑树的size小于该值将退化成链表.
MIN_TREEIFY_CAPACITY = 64 : 另一个决定是否树化的阈值,当node数组的长度小于该值时,即便链表过长也不会进行树化.

Hash()

不管增加、删除、查找键值对，定位到哈希桶数组的位置都是很关键的第一步.

计算索引

对于任意给定的对象,只要它们的hashCode()返回的值相同,那么它们落到哈希桶的位置(index)也应该相同.

那么很自然首先就想到了把hash值对数组长度取摸计算, index = hashCode() % length.这样元素的分布是比较均匀的.

可是问题在于,模运算的消耗还是比较大的.

来看看jdk是怎么解决的:

方法一：
static final int hash(Object key) {   //jdk1.8 & jdk1.7
     int h;
     // h = key.hashCode() 为第一步 取hashCode值
     // h ^ (h >>> 16)  为第二步 高位参与运算
     return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
方法二：
static int indexFor(int h, int length) {  
    //jdk1.7的源码，jdk1.8没有这个方法，而是直接写入到各个方法里
     return h & (length-1);  //第三步 取模运算
}

这里的Hash算法本质上就是三步：取key的hashCode值、高位运算、取模运算。

方法一把hash值算了出来,但在方法二中计算索引并不使用%运算,而是**&**.

这就是hashmap在速度上的优化,当length总是2的次方时, h & (length-1) 等价于 h % length.而&比%效率更高.

证明方法也很简单,先举个例子:

假设数组长度n=1 0000, n-1=1111, 哈希值h=1111 1111 1111 1111 1111 0000 1110 1010

那么(n-1) & hash = 0101 = hash % n = 5 (十进制),两者是相等的.

如果还不明白为什么两者等价,看看下面的图感受一下吧.

hash

假设hash值为m,数组长度为length,那么我们需要证明的就是m % length =m & (length - 1)
可以把m分为高位H和低位L,低位L的位数与length相同.
比如m=1100 1011 ,length=1000 ,那么H=1100 0000 ,L=1011
那么m % length = (H + L) % length = H % length + L % length(二进制的模运算和十进制是一样的,可以用分配律)
由于length是2的次方,那么H % length一定等于0(因为H是m的高位,其低位全0)
那么m % length = L % length.
由于L与length位数相同,所以 L % length有两种情况:
- L >= length ,那么L的最高位为1, L % length =L - length,也就是结果为L除了最高位之外的低位.如果L的位数是n,那么L的n-1位就是L % length的结果,所以L % length = L & ( length - 1) =m & (length - 1)
- L < length, 那么L的最高位为0, L % length =L,由于最高位必为0,所以这个也只用看L的n-1位即可
综上,m % length = L % length = L & ( length - 1) = m & (length - 1),证明完毕

扰动函数

上面分析了方法二,接下来继续看方法一的作用.

如果Node数组的长度比较小,那么运算 h & (length-1)就等于把h的高位给抛弃掉了,这样任意高位不同,但低位相同的hash值都会得到相同的索引,哈希冲撞的概率比较大.

比如,1111 0000和0001 0000在对0000 1111进行按位与运算后的值是相等的。

为了解决这个问题,需要对hash进行扰动计算.

JDK的解决方案如同方法一所示 : 将hash的高位和低位进行异或运算,这样低位也能保留高位的特征,从而减少了冲撞的可能.

Put

HashMap的put方法执行过程可以通过下图来理解:

hashmap之put方法

判断键值对数组table[i]是否为空或为null，否则执行resize()进行扩容(初始化)；
根据键值key计算hash值得到插入的数组索引i，如果table[i]==null，直接新建节点添加，转向⑥，如果table[i]不为空，转向③；
判断table[i]的首个元素是否和key一样，如果相同直接覆盖value，否则转向④，这里的相同指的是hashCode以及equals；
判断table[i] 是否为treeNode，即table[i] 是否是红黑树，如果是红黑树，则直接在树中插入键值对，否则转向⑤；
遍历table[i]，判断链表长度是否大于8，大于8的话把链表转换为红黑树，在红黑树中执行插入操作，否则进行链表的插入操作；遍历过程中若发现key已经存在直接覆盖value即可；
插入成功后，判断实际存在的键值对数量size是否超多了最大容量threshold，如果超过，进行扩容。

JDK1.8HashMap的put方法源码如下:

    public V put(K key, V value) {
         // 对key的hashCode()做hash
        return putVal(hash(key), key, value, false, true);
    }


    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
         // 步骤1：tab为空则创建
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
          // 步骤2：计算index，并对null做处理 
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            // 步骤3：节点key存在，直接覆盖value
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            // 步骤4：判断该链为红黑树
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            // 步骤5：该链为链表
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                         //链表长度大于8转换为红黑树进行处理
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    // key已经存在直接覆盖value
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        // 步骤6：超过最大容量 就扩容
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

Get

get方法的流程与put相近,不过免除了扩容和是否树化等判断,相对简单.

先用hash计算出index,如果对应位置为null,则返回null.
如果对应位置是链表,则遍历链表,用key或key.equals()逐一对比,如果没有找到相同的key则返回null.
如果对应位置是树,那么就调用红黑树专门的get方法(红黑树算法比较复杂,这里就不展开了)

总结下来就两步:根据key的hashcode()找到对应索引,然后根据key.equals()在该位置上找到对应node.

Resize

当我们不断往hashmap里添加元素,最终size>=threshold,那么就会触发扩容,node数组的长度需要增加,以便承载更多元素.

在Java里数组是无法自动扩容的,因此扩容的方法就是使用一个新的数组来代替原来小容量的数组.顺便说下,ArrayList的扩容也是同样的原理.

由于1.8引入了红黑树,resize方法比较复杂,这里先分析1.7的resize源码,本质上区别不大.

  void resize(int newCapacity) {   //传入新的容量
      Entry[] oldTable = table;    //引用扩容前的Entry数组
      int oldCapacity = oldTable.length;         
      if (oldCapacity == MAXIMUM_CAPACITY) {  //扩容前的数组大小如果已经达到最大(2^30)了
          threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1)，这样以后就不会扩容了
          return;
      }
   
      Entry[] newTable = new Entry[newCapacity];  //初始化一个新的Entry数组
      transfer(newTable);                         //！！将数据转移到新的Entry数组里
      table = newTable;                           //HashMap的table属性引用新的Entry数组
      threshold = (int)(newCapacity * loadFactor);//修改阈值
 }

transfer()方法将原有Entry数组的元素拷贝到新的Entry数组里。

  void transfer(Entry[] newTable) {
      Entry[] src = table;                   //src引用了旧的Entry数组
      int newCapacity = newTable.length;
      for (int j = 0; j < src.length; j++) { //遍历旧的Entry数组
          Entry<K,V> e = src[j];             //取得旧Entry数组的每个元素
          if (e != null) {
              src[j] = null;//释放旧Entry数组的对象引用（for循环后，旧的Entry数组不再引用任何对象）
              do {
                  Entry<K,V> next = e.next;
                  int i = indexFor(e.hash, newCapacity); //！！重新计算每个元素在数组中的位置
                  e.next = newTable[i]; //标记[1]
                  newTable[i] = e;      //将元素放在数组上
                  e = next;             //访问下一个Entry链上的元素
            } while (e != null);
         }
     }
 }

头插 & 尾插

1.7的扩容使用了头插入方式,同一位置上新元素总会被放在链表的头部位置.

假设扩容后某链表全部元素还是在同一位置,那么扩容相当于反转这条链表了.

看看下图感受下1.7的扩容流程:

头插法扩容

在多线程环境下,头插入可能会形成环链表,从而陷入死循环.

假设一条链表为A -> B .那么扩容前它们的关系就是A.next = B.

扩容之后链表会变成B -> A. 关系变成B.next = A . 这两条关系同时成立的话就会死循环.

  e.next = newTable[i]; //1
  newTable[i] = e;      //2
  e = next;             //3

如果线程A执行完第一步就退出轮到线程B继续扩容,那么死循环就有可能发生.

因此在1.8中改成了尾插入.至于原先为什么使用头插入,可能是出于二八定理,作者认为最后插入的元素也就是最近插入的元素,更容易被用得到,因此扩容后应该放在前面.

对链表的优化

除此之外,1.8对于新旧链表的迁移还有一个优化.

不知道你有没有思考过这样一个问题,扩容后需要重新计算index吗?

有人可能下意识地认为:当然要!根据公式h & (length-1),index与数组长度有关,扩容后数组长度变了,自然要重新算一遍.

其实的确是需要的.

不过并不像大多数人以为那样继续套用h & (newLength-1)这个公式.

扩容后索引的变化

上面这张图,数组扩容后,长度从n变为2n, key1的索引没变,而key2的索引加了n.

索引的变化也只有这两种情况了,要么不变,要么+n.下面证明一下:

扩容前索引为 h & (n-1) ,扩容后索引为 h & (2n-1)
(2n-1)- (n-1) = n ,所以用二进制表示的话,2n-1与n-1的区别仅在于高位多了个1,低位不变.
那么按位与的结果仅仅看hash的那一位是否为1,若为1,则结果那一位就为1,也就是新索引=旧索引+n.
若那个高位不为1,则结果不变,也就是新索引=旧索引.
因此,用按位与,也就是 h & n可以判断出h的高位是否为1.

因此,1.8中用if ((e.hash & oldCap) == 0)来判断节点的索引在扩容后是不变还是+n.

有人觉得这个是性能上的优化,我觉得其实是配合尾插入算法改进的逻辑.

因为计算h & (n-1)和计算(h & n)==0的开销是一样的,但是后者可以知道索引是否改变的情况,从而新建两条链表,一条链表是索引不变的元素,另一条链表是索引变化的元素,然后再分别插入到两个位置去.

                        Node<K,V> loHead = null, loTail = null;//lo链表复制索引不变的元素
                        Node<K,V> hiHead = null, hiTail = null;//hi链表复制索引+n的元素
                        Node<K,V> next;
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {//用按位与判断节点的索引是否变化
                                if (loTail == null)//这里就是尾插入了
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;//lo链表直接复制到新数组的原位置
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;//hi链表则复制到新数组的+n位置
                        }

扩容后索引是否变化是随机的,可以认为两者概率相等,那么扩容后,链表的元素就均匀地分布到新数组中了.

总结

hashmap的内容这里就介绍完了,下面简单总结一下:

hashmap由链表+数组组成.
解决哈希冲突的办法是链地址法.
Hash算法本质上就是三步：取key的hashCode值、高位运算、取模(按位与)运算。
1.8之后引入了红黑树,get/set/remove都得考虑链表和红黑树两种情况
当哈希冲突严重时,红黑树可以将时间复杂度从O(n)降低到O(log n)
扩容的方法就是使用一个新的数组来代替原来小容量的数组.
扩容条件是size >= (threshold = loadFactor * initialCapacity ).
1.7的头插法不安全,1.8改成了尾插法.

使用注意事项

扩容十分消耗性能,因此初始化时需要预估一个大致的初始容量,且该值为2的次幂.
负载因子是可以更改的,往小了调hash冲突概率低,查询快,但map的空间利用不充分,属于空间换时间.往大了调就是时间换空间.
hashmap并非线程安全,并发环境下请使用J.U.C包下的ConcurrentHashmap替代