无码午夜一级毛片,淫乱人妻精品视频中文字幕

用 Node 實現(xiàn)一個簡易 Git，了解一下存儲原理

以下文章來源于ELab團隊，作者ELab.yepeng

本文試圖理解git的原理，重寫部分git命令，從最底層的幾個命令開始，聽起來很離譜，做起來也很離譜，但是真正去做了，發(fā)現(xiàn)，誒，好像沒有那么離譜。

俗話說得好（我也不知道哪里來的俗話，maybe 我自己說的），理解一個東西最好的方法就是實現(xiàn)它。git作為我們每天都需要去打交道的一個東西，了解它和熟悉怎么去使用它也是我們每個人的必要技能。

手把手教你理解輪子之 Git

現(xiàn)狀分析
來，我們克服一下恐懼，我們?yōu)槭裁磿X得這個東西很復(fù)雜，因為它真的很復(fù)雜，光是上層命令，就有各種各樣的用法，就算筆者也不敢說真的能夠精通，關(guān)鍵是他的文檔居然夠?qū)懸槐緯綪ro Git】[1]，還有王法嗎，還有法律嗎？

不過再仔細想想，我們需要了解這么多的特性嗎，我們每天日常使用的也就是幾個命令，我們是不是只需要了解他的底層機制和那幾個命令就行了？好像沒那么可怕了？OK，我們進入正題。

對于本文，其實你并不需要了解太多的東西，一點點的Git基本知識，一點點基本語言知識，一點點的shell知識，OK，條件具備了，我們可以開始愉快的玩耍了。

首先我們例舉一下，我們需要用到的本地命令有些啥

git add
git commit
git checkout
git rm
git init
git log
git reflog
git show-ref
git merge
git rebase
git cat-file
git hash-object
git ls-tree
git tag
嗯，差不多，單純本地的倉庫我們要用到的命令是不是就這些，我們將在主要內(nèi)容分享完之后，再回到這里來理解這些命令。

GIT底層結(jié)構(gòu)
不知道大家有沒有好奇過這些東西，這些玩意都是啥？我們?nèi)绾慰窟@個目錄下的文件來管理我們各種各樣奇奇怪怪的提交，而且還能回溯呢？

GIT目錄
先來看一下目錄結(jié)構(gòu)：

├── COMMIT_EDITMSG // 上一次提交的 msg
├── FETCH_HEAD // 遠端的所有分支頭指針 hash
├── HEAD // 當前頭指針
├── ORIG_HEAD //
├── config // 記錄一些配置和遠端映射
├── description // 倉庫描述
├── hooks // commit lint規(guī)則 husky植入
│   ├── applypatch-msg
│   ├── applypatch-msg.sample
│   ├── commit-msg
│   ├── commit-msg.sample
│   ├── fsmonitor-watchman.sample
│   ├── post-applypatch
│   ├── post-checkout
│   ├── post-commit
│   ├── post-merge
│   ├── post-receive
│   ├── post-rewrite
│   ├── post-update
│   ├── post-update.sample
│   ├── pre-applypatch
│   ├── pre-applypatch.sample
│   ├── pre-auto-gc
│   ├── pre-commit
│   ├── pre-commit.sample
│   ├── pre-merge-commit
│   ├── pre-merge-commit.sample
│   ├── pre-push
│   ├── pre-push.sample
│   ├── pre-rebase
│   ├── pre-rebase.sample
│   ├── pre-receive
│   ├── pre-receive.sample
│   ├── prepare-commit-msg
│   ├── prepare-commit-msg.sample
│   ├── push-to-checkout
│   ├── push-to-checkout.sample
│   ├── sendemail-validate
│   ├── update
│   └── update.sample
├── index // 暫存區(qū)
├── info
│   ├── exclude
│   └── refs
├── logs // 顧名思義，記錄我們的git log
│   ├── HEAD
│   └── refs
├── objects // git 存儲的我們的文件
│
├── lost-found //一些懸空的文件
│   ├── commit
│   └── other
├── packed-refs 打包好的指針頭
└── refs // 所有的hash
    ├── heads
    ├── remotes
    └── tags
對這些倉庫分析完，突然發(fā)現(xiàn)，我們是不是只需要這一個目錄下的東西，就可以將一個repo的所有源信息拷貝。

記住我們剛剛所講的東西，這個目錄的一些結(jié)構(gòu)，這對理解我們后面的命令和底層存儲幫助很大，我們將在后面部分深入介紹。

GIT Hash
首先git中的對象，我們一共有4種type，分別是 commit / tree / blob / tag。

我們先需要摸清楚git算hash的規(guī)則，我們一共有四種對象type，這四個type一定是要附帶到我們sha1加密后的hash里面的，還有一些文本附加信息，整體的規(guī)則如下。

"{type} {content.length}\0{content}"
OK，那我們來嘗試下生成hash值，看看我們生成的，和git 生成的是否一致。

echo -n "hello,world" | git hash-object --stdin
const crypto = require('crypto'),
const sha1 = crypto.createHash('sha1');
sha1.update("blob 11\0hello,world");
console.log(sha1.digest('hex'));

git 本質(zhì)是一種類kv數(shù)據(jù)庫的文件系統(tǒng)，通過sha1算法生成的hash作為key，對應(yīng)到我們的git的幾類對象，然后再去樹狀的尋址，最底層存儲的是我們的文件內(nèi)容。

講到這了，衍生一下關(guān)于git使用sha1的目的以及前幾年google碰撞sha1算法導(dǎo)致的 sha1算法不安全的問題，git使用sha1進行hash的目的，更多的是為了驗證文件完整性防損壞等目的，同時linus本人以及stackoverflow上對這個問題也有一些討論和回復(fù)，大家可以移步觀看。

stackoverflow的討論[2] linus針對google sha1碰撞的郵件[3]

生成hash的算法我們介紹完事了，那接下來就是根據(jù)hash去找東西了，前文提到了，git一共存在四種對象，我們分別對四種對象以及內(nèi)容尋址進行介紹。

GIT 對象
blob
這是最底層的對象，記錄的是文件內(nèi)容，對，僅僅是文件內(nèi)容，通過我們上面計算hash的方式可以看出來，不管文件名怎么變化，我們所對應(yīng)的那塊內(nèi)容沒有改變，hash值就不會改變，找到的永遠會是那個blob。

這也是為什么 git是用來管理代碼以及各種類型的文本的一種好方式，而不是用來管理word/pdf （誤）。

在純文本類型文件管理中，git只需要保存diff就行了，而如果我們代碼中全是二進制文件，那簡直是回溯噩夢，可能真實資源就兩個pdf，一個word文件，但是版本太多，一個git倉庫大小幾個g也不是不可能。

OK，這里可能有些同學(xué)要問了，那我如果真的需要存儲很多頻繁變動的二進制文件，比如多媒體資源/ psd啥的，那我需要怎么搞？好的，家人們，上鏈接。Git LFS（Large file storage）[4]一句話介紹，把我們的大文件變成文件指針存儲在對象中，再去lfs拉取對應(yīng)文件。

tree
剛剛我們說了，blob對象是純粹的內(nèi)容，有些不對勁，我們內(nèi)容需要索引，我怎么去找到他？這一節(jié)的標題叫做 tree，對，他就是以樹狀結(jié)構(gòu)來進行組織的，隨便點開一個objects下面的文件cat-file看看。

可以看出來，我們整個對象的組織形式就是一棵多叉樹。通過樹級層級一層一層尋址，最后找到我們的內(nèi)容塊。整體的組織形式就是下圖。

commit
現(xiàn)在還有另一個問題，不過我們其實上面的演示已經(jīng)解釋了一部分這個問題了，一個commit對應(yīng)的信息其中只有幾種，

author與對應(yīng)的時間點
commit的時候我們輸入的描述
這個commit所指向的tree
這個commit的parent 即父節(jié)點
git是以類似單向鏈表的形式將我們的一個個提交組織起來的，同時，同時一個節(jié)點至多有2個父節(jié)點。到此，其實整個git內(nèi)容存儲的結(jié)構(gòu)我們已經(jīng)捋清楚了。

tag
最后簡單介紹下，最后一種對象，tag是對某個commit的描述，其實也是一種commit。

小結(jié)
總結(jié)一下我們以上說的內(nèi)容，我們可以得到git的一個設(shè)計思路，git記錄的是一個a → b過程的鏈表，通過鏈表，我們可以逐步回溯到a，在此之下呢，采用了一種多叉樹形結(jié)構(gòu)對我們的hash值進行分層記錄，最底層，通過我們的hash值進行索引，對應(yīng)到一個個壓縮后的二進制objects。這就是整個git的結(jié)構(gòu)設(shè)計。還有一些 git對于查找效率的優(yōu)化手段，壓縮手段。

對以上內(nèi)容了解了之后，關(guān)于我們的分支本質(zhì)上，其實也是對應(yīng)一個commit，只是多了一個ref指向這個commit而已，是不是對git整個清晰多了。

這里留給大家一個課后問題吧，git 的 gc怎么去實現(xiàn)的，整個完整過程是啥樣的，由于這些內(nèi)容并不是本文的核心內(nèi)容，就不在這里展開了。

實現(xiàn)
前期準備
回想一下前面講的，我們需要的東西有些什么，sha1，這個可以用crypto， zlib，node中也帶了這個，可以通過 require('zlib')拿到。

識別命令參數(shù)
首先，讓node環(huán)境能夠讀我們的一些命令，來干各種各樣的事情，通過process的解析，我們能夠獲得輸入的參數(shù)

enum CommandEnum{
Add= 'add',
Init = 'init',
...
}
const chooseCommand = (command:CommandEnum) => {

switch(command){
    case CommandEnum.Add:
      return add();
    case CommandEnum.Init:
      return init();
    ...
    default:
      break;
}
console.log("暫不支持此命令")
}

chooseCommand(process.argv[2] as CommandEnum);
init
okk，我們現(xiàn)在進行下一步，萬事開頭難，先開個頭吧。使用我們的命令，初始化一個git倉庫。

const init = ()=>{

fs.mkdirSync('.git');
fs.mkdirSync('.git/refs')
fs.mkdirSync('.git/objects')
fs.writeFileSync('.git/HEAD','ref: refs/heads/master')
fs.writeFileSync('.git/config',`
        [core]
    repositoryformatversion = 0
    filemode = true
    bare = false
    logallrefupdates = true
    ignorecase = true
    precomposeunicode = true
`);
fs.writeFileSync('.git/description','');
}
寫入和讀取
初始化完成了，我們有了一個存儲庫，接著就是把大象裝進冰箱。

剛剛我們在分享的過程中，不斷的用到兩個命令 git hash-object 和 git cat-file，這兩個命令，在我們?nèi)粘９ぷ髦?，其實不太會用到，他們兩干嘛使的呢。Git 中存在兩個命令的概念，一個是底層命令(Plumbing) ，另一個就是我們?nèi)粘褂玫降纳蠈用?Porcelain) ，高層命令是基于底層命令的封裝，讓我們使用起來更為方便。

引入一些npm包，定義一些結(jié)構(gòu)體

import fs from 'fs';
import zlib from 'zlib';
import crypto from 'crypto';

export enum GitObjectType{
Commit = 'commit',
Tree = 'tree',
Blob = 'blob',
Tag = 'tag'
}
來實現(xiàn)一個簡單的讀取blob對象的方法，比較簡陋，還不支持對content進行解析，我們將在后續(xù)完善。

export const readObject = (sha1='f8eb512de72634ca12328d85f70b696414473914')=>{
const data = fs.readFileSync(`.git/objects/${sha1.substring(0,2)}/${sha1.substring(2)}`);
const a = zlib.inflateSync(data).toString('utf8');
const typeIndex = a.indexOf(' ');
const lengthIndex = a.indexOf(`\0`);

const objType = a.substring(0,typeIndex);
const length = a.substring(typeIndex +1,lengthIndex);
const content = a.substring(lengthIndex+1);
// console.log(a);
return {objType,length,content};
}
ok，有了讀之后，我們還需要往里寫。

export const createObject = (obj:GitObject)=>{
const data = obj.serialize();
const sha1 = crypto.createHash('sha1');
sha1.update(data);
const name = sha1.digest("hex");
const zipData = zlib.deflateSync(data);
console.log(name);
const dirName = `.git/objects/${name.substring(0,2)}`
fs.existsSync(dirName) && fs.mkdirSync(dirName);
fs.writeFileSync(`.git/objects/${name.substring(0,2)}/${name.substring(2)}`,zipData)
return name;
}
琢磨透了讀和寫的方法，我們的cat-file命令和hash-object命令實際上實現(xiàn)起來就很簡單了，只需要調(diào)用現(xiàn)有的方法就行了。

先是cat-file 對hash 名的一個尋址，同時解壓縮對應(yīng)的objects，支持四個參數(shù)，分別返回不同的結(jié)果。我們直接讀對象就完事了嗷。

export const catFile = ()=>{
const type = process.argv[3];
const sha1 = process.argv[4];
const res = readObject(sha1);
if(type ==='-t'){
    console.log(res.type);
}
if(type==='-s'){
    console.log(res.length);
}
if(type === '-e'){
    console.log(!!res?.type)
}
if(type === '-p'){
    console.log(res.content)
}
}

接著是hash-object,這個也簡單的實現(xiàn)下，就是返回對應(yīng)路徑的hash值就行了

export const hashObject = ()=>{
const path = process.argv[3];
const data = fs.readFileSync(path);
const sha1 = crypto.createHash('sha1');
sha1.update(data);
const name = sha1.digest("hex");
console.log(name);
}
現(xiàn)在我們基本結(jié)構(gòu)已經(jīng)搭起來了，需要的是commit 和tree將文件串聯(lián)起來，調(diào)用我們的cat-file試試，現(xiàn)在應(yīng)該對commit和blob的解析是正確的，但是tree的content的解析似乎有些問題，我們后面來看這個問題，但是commit對象的content和 blob的content不太一樣。

內(nèi)容解析完善
剛剛我們粗略的實現(xiàn)了一下讀對象，能把內(nèi)容塊讀出來了。接著我們來完善他，以便更好的服務(wù)于我們的四種對象,先改寫下我們的readObject。

readObject
export const readObject = (sha1: string)=>{
const data = fs.readFileSync(`.git/objects/${sha1.substring(0,2)}/${sha1.substring(2)}`);
const buf = zlib.inflateSync(data)
const a = buf.toString('utf8');
const typeIndex = a.indexOf(' ');

const lengthIndex = a.indexOf(`\0`);
// console.log(a);
const objType = a.substring(0,typeIndex);
// 去掉校驗，其實這里需要記錄長度和真實長度對比是否有錯
// const length = a.substring(typeIndex +1,lengthIndex);
let obj;
if(objType===GitObjectType.Blob){
    obj = new GitBlob(a.substring(lengthIndex+1));
}
if(objType===GitObjectType.Commit){
    obj = new GitCommit(a.substring(lengthIndex+1))
}
if(objType===GitObjectType.Tree){
    obj = new GitTree(buf.slice(lengthIndex+1))
}
return obj;
}
Blob對象實現(xiàn)起來很簡單就不在這里說了。

Commit對象實現(xiàn)起來稍微復(fù)雜一點，我們需要解析commit對象中的一些鍵值對，將他們都記住，同時把commit內(nèi)容單獨存起來。一個commit對象存儲的東西，在上面我們已經(jīng)介紹過了，通過一個map將他存儲。

Commit object

class GitCommit extends GitObject{
type = GitObjectType.Commit;
data = '';
length = 0;
content:any;
map;
constructor(data:string){
super();
    if(data){
      this.data=data;
      this.length = data.length;
    }
}
serialize = ()=>{
    return `${this.type} ${this.length}\0${this.data}`;
}
deserialize= ()=>{
    console.log(this.recursiveParse(this.data))
    return this.data;
}
recursiveParse = (data:string,map?:any):any=>{
    if(!map){
        map = new Map();
    }
    const space = data.indexOf(' ');

    const nl = data.indexOf(`\n`);
    console.log(space,nl);
    if(space<0 || nl<space){
       map.set("content",data);
        return map;
    }
    const key = data.substring(0,space);

    let end =0;
    while(true){
        end = data.indexOf(`\n`,end+1)
        if(data[end+1] !== ' ') break;
    }
    const value = data.substring(space+1,end);
    if(key ==='parent'){
        map.has('parent') ? map.set(key+'1',value) : map.set(key,value);
    } else {
        map.set(key,value)
    }

    const restData = data.substring(end+1);
    return this.recursiveParse(restData,map);
}
}
Tree Object解析
Tree Object 相對來說是我們解析起來最為復(fù)雜的一個對象，他不像前兩個一樣，能夠通過直接toString就能拿到正常的文本，我們直接去解析就行了。Tree Object本身其實就是一個二進制對象，關(guān)鍵吧，他還有個誤導(dǎo)，差點給筆者都給帶偏了，他cat-file解析出來的文件，其實并不是他原本文件長的樣子....，他做了一個格式化，且修改了順序。

class GitTree extends GitObject{
type = GitObjectType.Commit;
data:Buffer = Buffer.from('');
length = 0;
constructor(data:Buffer){
super();
    if(data){
      this.data=data;
      this.length = data.length;

    }
}
serialize = ()=>{
    return `${this.type} ${this.length}\0${this.data}`;
}
parseTreeOneLine = (data:Buffer,start:number)=>{
    const x = data.indexOf(' ',start);
    if(x<0){
      return start+21;
    }
    const mode = data.slice(start,x).toString('ascii');
    // const type =
    const y = data.indexOf(`\x00`,x)
    if(y<0){return x+21};
    const path = data.slice(x+1,y).toString('ascii');
    const sha1 = data.slice(y+1,y+21).toString('hex');
    console.log(mode,path,sha1);
    return y+21;
}
deserialize= ()=>{
    const buffer = this.data;
    let pos = 0;
    let max = buffer.length;

    while(pos<max){
      pos = this.parseTreeOneLine(buffer,pos);
    }
    return this.data;
}
}
我們的底層基礎(chǔ)簡單實現(xiàn)，其實到這里就完結(jié)了，大致流程能夠串起來了。
分支和ref：
分支名和ref其實也是鍵值對，分支名作為文件名存儲在ref目錄下，文件內(nèi)容則是一串sha1值，這串sha1值來自于commit 頭結(jié)點的hash值，我們可以通過這個commit 對象回溯到當時的場景。

log與reflog
單純的文本文件，記錄一些commit對象以及時間點等。大家可以下來再去研究研究。

暫存區(qū)：
不過大家可能會有問題，不對啊，我們平時提交不是還有stage的概念嗎，這一塊東西呢？確實，少了這一塊，不過這一塊也是git底層相對麻煩的一部分（數(shù)據(jù)處理太多T_T)，所以我并不打算在這篇分享中去實現(xiàn)他，有興趣的同學(xué)可以參考這個鏈接 git index結(jié)構(gòu)[5]。

后語
分享到這就差不多了，實現(xiàn)了部分的底層讀寫api，其他的api就不一一實現(xiàn)了，有興趣可以下來實現(xiàn)。

課后作業(yè)：

git 的gc問題
底層命令來實現(xiàn)我們?nèi)粘Ｕ{(diào)用的上層命令效果
怎么去實現(xiàn)一個遠程的git中心服務(wù)器，遠程的命令怎么關(guān)聯(lián)？
補充實現(xiàn)一個git
最后的最后，作為linus的腦殘粉，linus的一句話，送給大家，talk is cheap, show me the code .

引用文檔：

https://www.open-open.com/lib/view/open1328069609436.html

http://gitlet.maryrosecook.com/docs/gitlet.html

https://git-scm.com/docs/git-add/zh_HANS-CN

https://wyag.thb.lt/#org947aee7

作者：ELab.yepeng

歡迎關(guān)注微信公眾號：前端印象

在线午夜精品自拍小视频_无码av无码专区线_亚洲无码精品人妻_人人澡欧美一区

前端