一萬六千字的HashMap深度剖析

概論

  • HashMap 是無論在工作還是面試中都非常常見??嫉臄?shù)據(jù)結(jié)構(gòu)。比如 Leetcode 第一題 Two Sum 的某種變種的最優(yōu)解就是需要用到 HashMap 的,高頻考題 LRU Cache 是需要用到 LinkedHashMap 的。HashMap 用起來很簡(jiǎn)單,所以今天我們來從源碼的角度梳理一下Hashmap
  • 隨著JDK(Java Developmet Kit)版本的更新,JDK1.8對(duì)HashMap底層的實(shí)現(xiàn)進(jìn)行了優(yōu)化,例如引入紅黑樹的數(shù)據(jù)結(jié)構(gòu)和擴(kuò)容的優(yōu)化等。
  • HashMap:它根據(jù)鍵的hashCode值存儲(chǔ)數(shù)據(jù),大多數(shù)情況下可以直接定位到它的值,因而具有很快的訪問速度,但遍歷順序卻是不確定的。
  • HashMap最多只允許一條記錄的鍵為null,允許多條記錄的值為null。
  • HashMap非線程安全,即任一時(shí)刻可以有多個(gè)線程同時(shí)寫HashMap,可能會(huì)導(dǎo)致數(shù)據(jù)的不一致。如果需要滿足線程安全,可以用 Collections的synchronizedMap方法使HashMap具有線程安全的能力,或者使用ConcurrentHashMap。

Hasmap 的繼承關(guān)系

image-20201126201445602

hashmap 的原理

  1. 對(duì)于 HashMap 中的每個(gè) key,首先通過 hash function 計(jì)算出一個(gè) hash 值,這個(gè)hash值經(jīng)過取模運(yùn)算就代表了在 buckets 里的編號(hào) buckets 實(shí)際上是用數(shù)組來實(shí)現(xiàn)的,所以把這個(gè)hash值模上數(shù)組的長(zhǎng)度得到它在數(shù)組的 index,就這樣把它放在了數(shù)組里。
  2. 如果果不同的元素算出了相同的哈希值,那么這就是哈希碰撞,即多個(gè) key 對(duì)應(yīng)了同一個(gè)桶。這個(gè)時(shí)候就是解決hash沖突的時(shí)候了,展示真正技術(shù)的時(shí)候到了。
  3. 隨著插入的元素越來越多,發(fā)生碰撞的概率就越大,某個(gè)桶中的鏈表就會(huì)越來越長(zhǎng),直到達(dá)到一個(gè)閾值,HashMap就受不了了,為了提升性能,會(huì)將超過閾值的鏈表轉(zhuǎn)換形態(tài),轉(zhuǎn)換成紅黑樹的結(jié)構(gòu),這個(gè)閾值是 8 。也就是單個(gè)桶內(nèi)的鏈表節(jié)點(diǎn)數(shù)大于 8 ,就會(huì)將鏈表有可能變身為紅黑樹。

解決Hash沖突的方法

開放定址法

這種方法也稱再散列法,其基本思想是:當(dāng)關(guān)鍵字key的哈希地址p=H(key)出現(xiàn)沖突時(shí),以p為基礎(chǔ),產(chǎn)生另一個(gè)哈希地址p1,如果p1仍然沖突,再以p為基礎(chǔ),產(chǎn)生另一個(gè)哈希地址p2,…,直到找出一個(gè)不沖突的哈希地址pi ,將相應(yīng)元素存入其中。這種方法有一個(gè)通用的再散列函數(shù)形式:

Hi=(H(key)+di)% m i=1,2,…,n

其中H(key)為哈希函數(shù),m 為表長(zhǎng),di稱為增量序列。增量序列的取值方式不同,相應(yīng)的再散列方式也不同。主要有三種 線性探測(cè)再散列,二次探測(cè)再散列,偽隨機(jī)探測(cè)再散列

再哈希法

這種方法是同時(shí)構(gòu)造多個(gè)不同的哈希函數(shù)

Hi=RH1(key) i=1,2,…,k

當(dāng)哈希地址Hi=RH1(key)發(fā)生沖突時(shí),再計(jì)算Hi=RH2(key)……,直到?jīng)_突不再產(chǎn)生。這種方法不易產(chǎn)生聚集,但增加了計(jì)算時(shí)間

鏈地址法

這種方法的基本思想是將所有哈希地址為i的元素構(gòu)成一個(gè)稱為同義詞鏈的單鏈表,并將單鏈表的頭指針存在哈希表的第i個(gè)單元中,因而查找、插入和刪除主要在同義詞鏈中進(jìn)行。

鏈地址法適用于經(jīng)常進(jìn)行插入和刪除的情況。

建立公共溢出區(qū)

這種方法的基本思想是:將哈希表分為基本表和溢出表兩部分,凡是和基本表發(fā)生沖突的元素,一律填入溢出表。

hashmap 最終的形態(tài)

一頓操作猛如虎,搞得原本還是很單純的hashmap 變得這么復(fù)雜,難倒了無數(shù)英雄好漢,由于鏈表長(zhǎng)度過程,會(huì)導(dǎo)致查詢變慢,所以鏈表慢慢最后演化出了紅黑樹的形態(tài)

HashMap主體上就是一個(gè)數(shù)組結(jié)構(gòu),每一個(gè)索引位置英文叫做一個(gè) bin,我們這里先管它叫做桶,比如你定義一個(gè)長(zhǎng)度為 8 的 HashMap,那就可以說這是一個(gè)由 8 個(gè)桶組成的數(shù)組。

當(dāng)我們像數(shù)組中插入數(shù)據(jù)的時(shí)候,大多數(shù)時(shí)候存的都是一個(gè)一個(gè) Node 類型的元素,Node 是 HashMap中定義的靜態(tài)內(nèi)部類

image-20201127171502527

Hashmap 的返回值

很多人以為Hashmap 是沒有返回值的,或者也沒有關(guān)注過Hashmap 的返回值,其實(shí)在你調(diào)用Hashmap的put(key,value) 方法 的時(shí)候,它會(huì)將當(dāng)前key 已經(jīng)有的值返回,然后把你的新值放到對(duì)應(yīng)key 的位置上

public class JavaHashMap {
    public static void main(String[] args) {
        HashMap<String, String> map = new HashMap<String, String>();
        String oldValue = map.put("java大數(shù)據(jù)", "數(shù)據(jù)倉庫");
        System.out.println(oldValue);
        oldValue = map.put("java大數(shù)據(jù)", "實(shí)時(shí)數(shù)倉");
        System.out.println(oldValue);
    }
}
Java

運(yùn)行結(jié)果如下,因?yàn)橐婚_始是沒有值的,所以返回null,后面有值了,put 的時(shí)候就返回了舊的值

這里有一個(gè)問題需要注意一下,因?yàn)镸ap的Key,Value 的類型都是引用類型,所以在沒有值的情況下一定返回的是null,而不是0 等初始值。

HashMap 的關(guān)鍵內(nèi)部元素

存儲(chǔ)容器 table;

因?yàn)?code>HashMap內(nèi)部是用一個(gè)數(shù)組來保存內(nèi)容的, 它的定義 如下

transient Node<K,V>[] table

如果哈希桶數(shù)組很大,即使較差的Hash算法也會(huì)比較分散,如果哈希桶數(shù)組數(shù)組很小,即使好的Hash算法也會(huì)出現(xiàn)較多碰撞,所以就需要在空間成本和時(shí)間成本之間權(quán)衡,其實(shí)就是在根據(jù)實(shí)際情況確定哈希桶數(shù)組的大小,并在此基礎(chǔ)上設(shè)計(jì)好的hash算法減少Hash碰撞。那么通過什么方式來控制map使得Hash碰撞的概率又小,哈希桶數(shù)組(Node[] table)占用空間又少呢?答案就是好的Hash算法和擴(kuò)容機(jī)制。

在HashMap中,哈希桶數(shù)組table的長(zhǎng)度length大小必須為2的n次方(一定是合數(shù)),這是一種非常規(guī)的設(shè)計(jì),常規(guī)的設(shè)計(jì)是把桶的大小設(shè)計(jì)為素?cái)?shù)。相對(duì)來說素?cái)?shù)導(dǎo)致沖突的概率要小于合數(shù)

size 元素個(gè)數(shù)

size這個(gè)字段其實(shí)很好理解,就是HashMap中實(shí)際存在的鍵值對(duì)數(shù)量。注意和table的長(zhǎng)度length、容納最大鍵值對(duì)數(shù)量threshold的區(qū)別

Node

 static class Node<K,V> implements Map.Entry<K,V> {
     final int hash;
     final K key;
     V value;
     Node<K,V> next;

     Node(int hash, K key, V value, Node<K,V> next) {
         this.hash = hash;
         this.key = key;
         this.value = value;
         this.next = next;
     }
}
Java
  • Node是HashMap的一個(gè)靜態(tài)內(nèi)部類。實(shí)現(xiàn)了Map.Entry接口,本質(zhì)是就是一個(gè)映射(鍵值對(duì)),主要包括 hash、key、value 和 next 的屬性。
  • 我們使用 put 方法像其中加鍵值對(duì)的時(shí)候,就會(huì)轉(zhuǎn)換成 Node 類型。其實(shí)就是newNode(hash, key, value, null);

TreeNode

當(dāng)桶內(nèi)鏈表到達(dá) 8 的時(shí)候,會(huì)將鏈表轉(zhuǎn)換成紅黑樹,就是 TreeNode類型,它也是 HashMap中定義的靜態(tài)內(nèi)部類。

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
    TreeNode<K,V> parent;  // red-black tree links
    TreeNode<K,V> left;
    TreeNode<K,V> right;
    TreeNode<K,V> prev;    // needed to unlink next upon deletion
    boolean red;
    TreeNode(int hash, K key, V val, Node<K,V> next) {
        super(hash, key, val, next);
}
Java

說起TreeNode ,就不得不說其他三個(gè)相關(guān)參數(shù) TREEIFY_THRESHOLD=8 和 UNTREEIFY_THRESHOLD=6 以及 MIN_TREEIFY_CAPACITY=64

TREEIFY_THRESHOLD=8 指的是鏈表的長(zhǎng)度大于8 的時(shí)候進(jìn)行樹化, UNTREEIFY_THRESHOLD=6 說的是當(dāng)元素被刪除鏈表的長(zhǎng)度小于6 的時(shí)候進(jìn)行退化,由紅黑樹退化成鏈表

MIN_TREEIFY_CAPACITY=64 意思是數(shù)組中元素的個(gè)數(shù)必須大于等于64之后才能進(jìn)行樹化

modCount

modCount字段主要用來記錄HashMap內(nèi)部結(jié)構(gòu)發(fā)生變化的次數(shù),主要用于迭代的快速失敗。強(qiáng)調(diào)一點(diǎn),內(nèi)部結(jié)構(gòu)發(fā)生變化指的是結(jié)構(gòu)發(fā)生變化,例如put新鍵值對(duì),但是某個(gè)key對(duì)應(yīng)的value值被覆蓋不屬于結(jié)構(gòu)變化。

閾值 threshold

它是加在因子乘以初始值大小,后續(xù)擴(kuò)容的時(shí)候和數(shù)組大小一樣,2倍進(jìn)行擴(kuò)容

threshold = (DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY)

實(shí)際存儲(chǔ)元素個(gè)數(shù) size

size 默認(rèn)大小是0 ,它指的是數(shù)組存儲(chǔ)的元素個(gè)數(shù),而不是整個(gè)hashmap 的元素個(gè)數(shù),對(duì)于下面這張圖就是3 而不是11

transient int size;

image-20201127171502527

debug 源碼 插入元素的過程

public class JavaHashMap {
    public static void main(String[] args) {
        HashMap<String, String> map = new HashMap<String, String>();
        String oldValue = map.put("java大數(shù)據(jù)", "數(shù)據(jù)倉庫");
    }
}
Java

調(diào)用put()方法

這個(gè)方法沒什么好說的,是hashmap 提供給用戶調(diào)用的方法,很簡(jiǎn)單

調(diào)用 putval()

Put 方法實(shí)際上調(diào)用的實(shí) putval() 方法

image-20201126204454960

可以看出在進(jìn)入putval() 方法之間,需要借助hash 方法先計(jì)算出key 的hash 值,然后將key 的hash值和key同時(shí)傳入

調(diào)用hash() 方法

  • 這個(gè)key的hashCode()方法得到其hashCode 值(該方法適用于每個(gè)Java對(duì)象),然后再通過Hash算法的后兩步運(yùn)算(高位運(yùn)算和取模運(yùn)算,下文有介紹)來定位該鍵值對(duì)的存儲(chǔ)位置,有時(shí)兩個(gè)key會(huì)定位到相同的位置,表示發(fā)生了Hash碰撞。當(dāng)然Hash算法計(jì)算結(jié)果越分散均勻,Hash碰撞的概率就越小,map的存取效率就會(huì)越高。
  • 在JDK1.8的實(shí)現(xiàn)中,優(yōu)化了高位運(yùn)算的算法,通過hashCode()的高16位異或低16位實(shí)現(xiàn)的:(h = k.hashCode()) ^ (h >>> 16),主要是從速度、功效、質(zhì)量來考慮的,這么做可以在數(shù)組table的length比較小的時(shí)候,也能保證考慮到高低Bit都參與到Hash的計(jì)算中,同時(shí)不會(huì)有太大的開銷。

進(jìn)入 putval()

進(jìn)入putval 方法之后,整體數(shù)據(jù)流程如下,下面會(huì)詳細(xì)介紹每一步

image-20201126204925231

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // 判斷是否需要初始化數(shù)組
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null)
            // 當(dāng)前位置為空,則直接插入,同時(shí)意味著不走else 最后直接返回null
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    // 可以看出只有當(dāng)前key 的位置為空的時(shí)候才判斷時(shí)候需要reszie 已經(jīng)返回 null 其他情況下都走了else 的環(huán)節(jié)
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}
Java

判斷數(shù)組是否為空,需不需要調(diào)用resize 方法

第一次調(diào)用,這里table 是null,所以會(huì)走resize 方法

resize 方法本身也是比較復(fù)雜的,因?yàn)檫@里是第一次調(diào)用,所以這里進(jìn)行了簡(jiǎn)化

    final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {               
                //  首次初始化 zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        if (oldTab != null) {
           // 因?yàn)?oldTab 為null 所以不會(huì)進(jìn)來這個(gè)if 判斷,所以將這里的代碼省略了
        }
        return newTab;
    }
Java
table 為空首次初始化

如果是的話,初始化數(shù)組大小和threashold

newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);

初始化之后,將新創(chuàng)建的數(shù)組返回,在返回之前完成了對(duì)變量table 的賦值

table 不為空 不是首次初始化

如果不是的話就用當(dāng)前數(shù)組的信息初始化新數(shù)組的大小

最后完成table 的初始化,返回table ,這里其實(shí)還有數(shù)據(jù)遷移,但是為了保證文章的結(jié)構(gòu),所以將resize 方法的詳細(xì)講解單獨(dú)提了出來

table = newTab;

判斷當(dāng)前位置是否有元素

1 沒有 直接放入當(dāng)前位置

image-20201126212145456

2 有 將當(dāng)前節(jié)點(diǎn)記做p

當(dāng)前節(jié)點(diǎn)記做p 然后進(jìn)入else 循環(huán)

else {
    Node<K,V> e; K k;
    if (p.hash == hash &&
        ((k = p.key) == key || (key != null && key.equals(k))))
        e = p;
    else if (p instanceof TreeNode)
        e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
    else {
        for (int binCount = 0; ; ++binCount) {
            if ((e = p.next) == null) {
                p.next = newNode(hash, key, value, null);
                if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                    treeifyBin(tab, hash);
                break;
            }
            if (e.hash == hash &&
                ((k = e.key) == key || (key != null && key.equals(k))))
                break;
            p = e;
        }
    }
    if (e != null) { // existing mapping for key
        V oldValue = e.value;
        if (!onlyIfAbsent || oldValue == null)
            e.value = value;
        afterNodeAccess(e);
        return oldValue;
    }
 }
Java
判斷直接覆蓋(判斷是否是同一個(gè)key)






判斷新的key 和老的key 是否相同,這里同時(shí)要求了hash 值和 實(shí)際的值是相等的情況下然后直接完成了e=p 的賦值,其實(shí)也就是完成了替換,因?yàn)閗ey 是相同的。

如果不是同一個(gè)key 的話這里就要將當(dāng)前元素插入鏈表或者紅黑樹了,因?yàn)槭遣煌膋ey 了

判斷插入紅黑樹

如果當(dāng)前元素是一個(gè) TreeNode 則將當(dāng)前元素放入紅黑樹,然后

判斷插入鏈表
  • 如果不是同一key并且當(dāng)前元素類型不是TreeNode 則將當(dāng)前元素插入鏈表(因?yàn)閗ey對(duì)應(yīng)的位置已經(jīng)有元素了,其實(shí)可以認(rèn)為是鏈表的頭元素)

  • 可以看出采用的是尾插法,循環(huán)過程中當(dāng)下一個(gè)節(jié)點(diǎn)是null的時(shí)候則進(jìn)行插入,插入完畢之后判斷是否需要樹化

    JDK 1.7 之前使用頭插法、JDK 1.8 使用尾插法

  • 其實(shí)主要是根據(jù)(e=p.next)==null 進(jìn)行判斷進(jìn)入哪一個(gè)if ,因?yàn)槊總€(gè) if 都含有break 語句,所以只能進(jìn)入一個(gè) 然后就退出循環(huán)了

    if ((e = p.next) == null) {
    p.next = newNode(hash, key, value, null);
    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
        treeifyBin(tab, hash);
    break;
    }
    Java

1、這段代碼也是上圖中的第一個(gè)if這段代碼的意思就是在遍歷鏈表的過程中,一直都沒有遇到和待插入key 相同的key(第二個(gè)if) 然后當(dāng)前要插入的元素插入到了鏈表的尾部(當(dāng)前if 語句)

第二個(gè)if 的意思 如果有發(fā)生key沖突則停止 后續(xù)這個(gè)節(jié)點(diǎn)會(huì)被相同的key覆蓋

2、插入之后判斷判斷局部變量binCount 時(shí)候大于7(TREEIFY_THRESHOLD-1),這里需要注意的是binCount 是從0開始的,所以實(shí)際的意思是判斷鏈表的長(zhǎng)度在插入新元素之前是否大于等于8,如果是的話則進(jìn)行樹化

3、并且這個(gè)時(shí)候變量e 的值是null ,因?yàn)槭遣迦氲芥湵淼奈膊康?,所以這個(gè)時(shí)候key 是沒有對(duì)應(yīng)的oldValue 的,所以e是null 在最后面的判斷返回中,也返回的是null

4、關(guān)于樹化,首先這是發(fā)生在插入鏈表的時(shí)刻,并且是插入鏈表尾部的時(shí)候,因?yàn)榕袛噙^程是在第一個(gè)if 中,為了保證文章的結(jié)構(gòu)關(guān)于樹化放在下面講

if (e.hash == hash &&
  ((k = e.key) == key || (key != null && key.equals(k))))
  break;
// 這個(gè)賦值很有意思,它完成了你可以使用for 循環(huán)完成鏈表遍歷的核心功能    
p = e;
Java
  • 1、這一段代碼的意思是在遍歷的過程中(e=p.next)!=null 的的時(shí)候,也就是在循環(huán)鏈表的過程中,判斷是否有和當(dāng)前key 相等的key,相等的話e 就是要覆蓋的元素,如果不相等的話就繼續(xù)循環(huán),知道找到這樣的e 或者是將鏈表循環(huán)結(jié)束,然后將元素插入到鏈表的尾部(第一個(gè)if)

    2、因?yàn)槭钱?dāng)key 存在的時(shí)候則跳出循環(huán),所以鏈表的長(zhǎng)度沒有發(fā)生變化,所以這里沒有判斷是否需要樹化

最后 返回oldValue 完成新值替換
if (e != null) { // existing mapping for key
    V oldValue = e.value;
    if (!onlyIfAbsent || oldValue == null)
        e.value = value;
    afterNodeAccess(e);
    return oldValue;
}
Java

這個(gè)時(shí)候e 就指向原來p 的位置了,因?yàn)閑=p, 然后用新的value 覆蓋掉了oldValue 完成了插入,最后將 oldValue 返回。

最后 判斷是否需要擴(kuò)容 返回null 值

其實(shí)能走到這一步,是那就說明放入元素的時(shí)候,key 對(duì)應(yīng)的位置是沒有元素的,所以相當(dāng)于數(shù)組中添加了一個(gè)新的元素,所以這里有判斷是否需要resize 和返回空值。

 ++modCount;
 if (++size > threshold)
     resize();
 afterNodeInsertion(evict);
 return null;
Java

單獨(dú)講解resize 方法

首選需要記住resize 方法是會(huì)返回?cái)U(kuò)容后的數(shù)組的

第一部分初始化新數(shù)組

這一部分不論是不是首次調(diào)用resize 方法,都會(huì)有的,但是數(shù)據(jù)遷移部分在首次調(diào)用的時(shí)候是沒有的

Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
// 判斷是oldCap 是否大于0 因?yàn)榭赡苁鞘状蝦esize,如果不是的話 oldCap
if (oldCap > 0) {
     // 到達(dá)擴(kuò)容上限
    if (oldCap >= MAXIMUM_CAPACITY) {
        threshold = Integer.MAX_VALUE;
        return oldTab;
    }
    // 這里是正常的擴(kuò)容
    else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
             oldCap >= DEFAULT_INITIAL_CAPACITY)
        newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
    newCap = oldThr;
//第一次調(diào)用resize 方法,然后使用默認(rèn)值進(jìn)行初始化
else {
        // zero initial threshold signifies using defaults
    newCap = DEFAULT_INITIAL_CAPACITY;
    newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}

if (newThr == 0) {
    float ft = (float)newCap * loadFactor;
    newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
              (int)ft : Integer.MAX_VALUE);
}
// 創(chuàng)建新的數(shù)組,下面
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
Java
  1. 如果數(shù)組的大小 大于等于MAXIMUM_CAPACITY之后,則 threshold = Integer.MAX_VALUE; 然后不擴(kuò)容直接返回當(dāng)前數(shù)組,所以可以看出hashmap 的擴(kuò)容上限就是MAXIMUM_CAPACITY(230
  2. 如果數(shù)組的大小 在擴(kuò)容之后小于MAXIMUM_CAPACITY 并且原始大小大于DEFAULT_INITIAL_CAPACITY(16) 則進(jìn)行擴(kuò)容(DEFAULT_INITIAL_CAPACITY 的大小限制是為了防止該方法的調(diào)用是在樹化方法里調(diào)用的,這個(gè)時(shí)候數(shù)組大大小可能小于DEFAULT_INITIAL_CAPACITY)
  3. 新的數(shù)組創(chuàng)建好之后,就可以根據(jù)老的數(shù)組是否有值決定是否進(jìn)行數(shù)據(jù)遷移

第二部分?jǐn)?shù)據(jù)遷移

oldTab 也就是老的數(shù)組不為空的時(shí)候進(jìn)行遷移

 if (oldTab != null) {
            // 遍歷oldTable,拿到每一個(gè)元素準(zhǔn)備放入大新的數(shù)組中去
      for (int j = 0; j < oldCap; ++j) {
          Node<K,V> e;
          if ((e = oldTab[j]) != null) {
              oldTab[j] = null;
              // 當(dāng)前元素只是單個(gè)元素,不是鏈表
              if (e.next == null)
                  // 重新計(jì)算每個(gè)元素在數(shù)組中的位置
                  newTab[e.hash & (newCap - 1)] = e;
              // 判斷當(dāng)前元素是否是樹   
              else if (e instanceof TreeNode)
                  ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
              // 當(dāng)前元素是鏈表,則遍歷鏈表    
              else { // preserve order
                  Node<K,V> loHead = null, loTail = null;
                  Node<K,V> hiHead = null, hiTail = null;
                  Node<K,V> next;
                  do {
                      next = e.next;
                      if ((e.hash & oldCap) == 0) {
                          if (loTail == null)
                              loHead = e;
                          else
                              loTail.next = e;
                          loTail = e;
                      }
                      else {
                          if (hiTail == null)
                              hiHead = e;
                          else
                              hiTail.next = e;
                          hiTail = e;
                      }
                  } while ((e = next) != null);
                  if (loTail != null) {
                      loTail.next = null;
                      newTab[j] = loHead;
                  }
                  if (hiTail != null) {
                      hiTail.next = null;
                      newTab[j + oldCap] = hiHead;
                  }
              }
          }
      }
  }
Java
  • 判斷當(dāng)前元素的next 是否為空,是則直接放入,其實(shí)就是只有一個(gè)元素,說明這是一個(gè)最正常的節(jié)點(diǎn),不是桶內(nèi)鏈表,也不是紅黑樹,這樣的節(jié)點(diǎn)會(huì)重新計(jì)算索引位置,然后插入。
  • 是的話,判斷是不是TreeNode,不是的話則直接遍歷鏈表進(jìn)行拷貝,保證鏈表的順序不變。
  • 是的話則調(diào)用 TreeNode.split() 方法,如果是一顆紅黑樹,則使用 split方法處理,原理就是將紅黑樹拆分成兩個(gè) TreeNode 鏈表,然后判斷每個(gè)鏈表的長(zhǎng)度是否小于等于 6,如果是就將 TreeNode 轉(zhuǎn)換成桶內(nèi)鏈表,否則再轉(zhuǎn)換成紅黑樹。
  • 完成數(shù)據(jù)的拷貝,返回新的數(shù)組

第三部分 返回新的數(shù)組

 return newTab;

只要沒有到達(dá)擴(kuò)容上限,這一部分是肯定會(huì)走的,至于走不走數(shù)據(jù)遷移,需要潘丹是不是首次resize()

單獨(dú)講解樹化treeifyBin方法

 for (int binCount = 0; ; ++binCount) {
     if ((e = p.next) == null) {
         p.next = newNode(hash, key, value, null);
         if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
             treeifyBin(tab, hash);
         break;
     }
     if (e.hash == hash &&
         ((k = e.key) == key || (key != null && key.equals(k))))
         break;
     p = e;
 }
Java
  • 首先判斷是符滿足鏈表長(zhǎng)度大于8(binCount 是否大于等于7) ,需要注意的是插入到鏈表的尾部導(dǎo)致鏈表的長(zhǎng)度發(fā)生了變化的情況下,才判斷是否需要樹化
  • 然后進(jìn)入treeifyBin 方法中,進(jìn)入樹化方法之后又判斷了,Hashmap 的大小是否大于64,如果不是的話,只是調(diào)用了resize 方法,讓數(shù)組擴(kuò)容,而不是樹化
final void treeifyBin(Node<K,V>[] tab, int hash) {
    int n, index; Node<K,V> e;
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        resize();
    else if ((e = tab[index = (n - 1) & hash]) != null) {
        TreeNode<K,V> hd = null, tl = null;
        do {
            TreeNode<K,V> p = replacementTreeNode(e, null);
            if (tl == null)
                hd = p;
            else {
                p.prev = tl;
                tl.next = p;
            }
            tl = p;
        } while ((e = e.next) != null);
        if ((tab[index] = hd) != null)
            hd.treeify(tab);
    }
}
Java

獲取元素的過程

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

/**
 * Implements Map.get and related methods.
 *
 * @param hash hash for key
 * @param key the key
 * @return the node, or null if none
 */
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}
Java

image-20201127190819337

總結(jié)

resize 方法總結(jié)

resize(擴(kuò)容) 的上限

resize 不是無限的,當(dāng)?shù)竭_(dá)resize 的上限,也就是230 之后,不再擴(kuò)容

resize 方法只有三種情況下調(diào)用

- 第一種 是在**首次插入元素的時(shí)候完成數(shù)組的初始化**
- 第二種 是在元素插入**完成后**判斷是否需要數(shù)組擴(kuò)容,如果是的話則調(diào)用
- 第三種 是在元素插入鏈表尾部之后,進(jìn)入樹化方法之后,如果不樹化則進(jìn)行resize 

resize 的返回值

  • 第一種情況下 返回老的數(shù)組也就是沒有resize 因?yàn)橐呀?jīng)達(dá)到resize 的上限了
  • 第二種情況下 返回一個(gè)空的數(shù)組 也就是第一次調(diào)用resize方法
  • 第三章情況下 返回一個(gè)擴(kuò)容后的數(shù)組 完成了數(shù)據(jù)遷移后的數(shù)組

key 的判斷

  • 第一次判斷是當(dāng)前位置有元素的時(shí)候,如果兩個(gè)key 相等則準(zhǔn)備覆蓋值
  • 第二次判斷是遍歷鏈表的時(shí)候,決定能否覆蓋鏈表中間key 相等的值而不是鏈表的尾部

樹化

  • 樹化是發(fā)生在元素插入鏈表之后,并且這里是插入到鏈表的尾部導(dǎo)致鏈表的長(zhǎng)度發(fā)生了變化的情況下(也就是走的for循環(huán)里的第一個(gè)if 語句),而不是替換了鏈表里面的某一元素(也就是走的for循環(huán)里的第二個(gè)if 語句)

    final void treeifyBin(Node[] tab, int hash) {
      int n, index; Node e;
      if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
          resize();
      else if ((e = tab[index = (n - 1) & hash]) != null) {
          TreeNode hd = null, tl = null;
          do {
              TreeNode p = replacementTreeNode(e, null);
              if (tl == null)
                  hd = p;
              else {
                  p.prev = tl;
                  tl.next = p;
              }
              tl = p;
          } while ((e = e.next) != null);
          if ((tab[index] = hd) != null)
              hd.treeify(tab);
      }
    }
    Java
  • 其實(shí)這代碼上面有一段注釋的,這里也帖一下,在table 太小的情況下,使用resize 否則替換指的位置鏈表上的全部Nodes(其實(shí)就是替換成紅黑樹)

    /**
    * Replaces all linked nodes in bin at index for given hash unless
    * table is too small, in which case resizes instead.
    */

    其實(shí)這里有一個(gè)隱含的意義,就是數(shù)組不大的時(shí)候,希望通過resize 的方法降低hash 沖突的概率,從而避免鏈表過長(zhǎng)降低查詢時(shí)間,但是當(dāng)數(shù)組比較大的時(shí)候reszie 成本太高,則通過將鏈表轉(zhuǎn)化成紅黑樹來降低查詢時(shí)間

for 循環(huán)遍歷鏈表而不是while

這是源代碼里面的一段,上面也解釋過了,這里使用for 循環(huán)遍歷鏈表,利用for 循環(huán)的index 進(jìn)行計(jì)數(shù),這里進(jìn)行了刪減

for (int binCount = 0; ; ++binCount) {
    if ((e = p.next) == null) {
            doSomething();
        break;

    p = e;
}
Java

你覺得Hashmap 還有什么可以改進(jìn)的地方嗎,歡迎討論

雖然java 源代碼的山很高,如果你想跨越,至少你得有登山的勇氣,這里我給出自己的一點(diǎn)點(diǎn)愚見,希望各位不吝指教

番外篇

這里如果你不感興趣可以不閱讀:kissing_smiling_eyes:

hash 方法的實(shí)現(xiàn)方式

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
Java

JDK 1.8 中,是通過 hashCode() 的高 16 位異或低 16 位實(shí)現(xiàn)的:(h = k.hashCode()) ^ (h >>> 16),主要是從速度,功效和質(zhì)量來考慮的,減少系統(tǒng)的開銷,也不會(huì)造成因?yàn)楦呶粵]有參與下標(biāo)的計(jì)算,從而引起的碰撞

為什么要用異或運(yùn)算符? 保證了對(duì)象的 hashCode 的 32 位值只要有一位發(fā)生改變,整個(gè) hash() 返回值就會(huì)改變。盡可能的減少碰撞。

鏈表法導(dǎo)致的鏈表過深問題為什么不用二叉查找樹代替

之所以選擇紅黑樹是為了解決二叉查找樹的缺陷,二叉查找樹在特殊情況下會(huì)變成一條線性結(jié)構(gòu)(這就跟原來使用鏈表結(jié)構(gòu)一樣了,造成很深的問題),遍歷查找會(huì)非常慢。

而紅黑樹在插入新數(shù)據(jù)后可能需要通過左旋,右旋、變色這些操作來保持平衡,引入紅黑樹就是為了查找數(shù)據(jù)快,解決鏈表查詢深度的問題,我們知道紅黑樹屬于平衡二叉樹,但是為了保持“平衡”是需要付出代價(jià)的,但是該代價(jià)所損耗的資源要比遍歷線性鏈表要少,所以當(dāng)長(zhǎng)度大于8的時(shí)候,會(huì)使用紅黑樹,如果鏈表長(zhǎng)度很短的話,根本不需要引入紅黑樹,引入反而會(huì)慢

jdk8中對(duì)HashMap做了哪些改變

在java 1.8中,如果鏈表的長(zhǎng)度超過了8,那么鏈表將轉(zhuǎn)換為紅黑樹。(桶的數(shù)量必須大于64,小于64的時(shí)候只會(huì)擴(kuò)容)

發(fā)生hash碰撞時(shí),java 1.7 會(huì)在鏈表的頭部插入,而java 1.8會(huì)在鏈表的尾部插入

在java 1.8中,Entry被Node替代(換了一個(gè)馬甲)

Hashmap 的容量大小為什么要求是2n

這里首選要說明一個(gè)前提,那就是元素在數(shù)組中的位置的計(jì)算方式是 tab[i = (n - 1) & hash] 也就是通過對(duì)數(shù)組大小求模得到的,因?yàn)槲覀冎纇ash 的計(jì)算方式是 hashCode() 的高 16 位異或低 16 位實(shí)現(xiàn)的,32 位值只要有一位發(fā)生改變,整個(gè) hash() 返回值就會(huì)改變,也就是說我們的hash 值發(fā)生沖突的概率是比較小的,也就是說hash 值是比較隨機(jī)的

所以更多的沖突是發(fā)生在取模的時(shí)候,所以這個(gè)時(shí)候只要保證了我們的取模運(yùn)算 (n - 1) & hash,盡量能保證hash 值的特性也就是隨機(jī)性。因?yàn)槲覀冎琅c運(yùn)算的特點(diǎn)是,兩位同時(shí)為“1”,結(jié)果才為“1”,否則為0

所以這個(gè)時(shí)候我們只要 (n - 1) 讓的二進(jìn)制表示都是一串1,例如"011111" 就可以了,因?yàn)榘参慌c1 結(jié)果是不變的,也就是可以延續(xù)hash 值的散列性

其實(shí)到這里就差不多了,然后我們看2n 的表示特點(diǎn),然后就知道為什么要就hashmap 的大小是 2n了, 2n次方的二進(jìn)制表示大家肯定都很清楚,2的6次方,就是從右向左 6 個(gè) 0,然后第 7 位是 1

image-20201127184124095

其實(shí)這下我們就知道為什么了,因?yàn)橹挥袛?shù)組的長(zhǎng)度是2的次方了,n-1 的二進(jìn)制才能盡可能多的是1


作者:柯廣的網(wǎng)絡(luò)日志

微信公眾號(hào):Java大數(shù)據(jù)與數(shù)據(jù)倉庫