數(shù)據(jù)中臺為什么要建標簽體系,分類它不香嗎?
在眾多的數(shù)據(jù)中臺的解決方案中,一個叫做“標簽中心”或“標簽體系”的應(yīng)用,幾乎成了數(shù)據(jù)中臺的“標配”。
乍一看,標簽體系就像一個樹狀的分類。
因此,有專家吐槽:“現(xiàn)在講啥數(shù)據(jù)標簽,數(shù)據(jù)類目,跟SAP Classification比真是弱爆了”。
注:SAP Classification為SAP產(chǎn)品中的一個分類系統(tǒng),它支持以有序的結(jié)構(gòu)將特定對象(例如,文章和站點)組合在一起。它的基本功能是為各種不同類型對象的所有屬性特征提供存儲庫。然后將相似特征的對象分組到類中(“分類”對象),以便系統(tǒng)可以更容易地在事務(wù)中找到它們。
那數(shù)據(jù)標簽到底是什么?它與數(shù)據(jù)分類體系相比,是“真的香”,還是“弱爆了”?
01. 概念的澄清
無論是在數(shù)據(jù)中臺,還是傳統(tǒng)產(chǎn)品設(shè)計中,繞不開的幾個概念:分類、屬性、標簽。
1、什么是分類
分類,就是指按照種類、等級、性質(zhì)或特征的歸類。也就是把相同屬性或特征的“對象”歸集在一起,形成不同的類別,方便人們通過類別來對“對象”進行的查詢、識別、管理和使用?!皩ο蟆笨梢允侨?、產(chǎn)品、物料或其他實體,例如:人可以分為男人、女人,也可以分為老年人、中年人、青少年。
2、什么是屬性
屬性是事物所具有的性質(zhì)或特征,重點強調(diào)的是事物本身,例如:人的性別、身高、胖瘦、年齡、性格等都是人的屬性??梢詫⒛硞€事物的屬性抽象出來作為事物的分類,如我們上邊舉的例子,男人、女人是按照性別屬性對人的分類;老年人、中年人、青少年是按照年齡屬性對人的分類。事物可以按照屬性來分類,分類也是事物的屬性之一。
3、什么是標簽
標簽,原意是標明物品的品名、重量、體積、用途等信息的簡要標牌,例如:商品標簽、圖書標簽、車檢標簽、文件標簽、服裝吊牌等。從這個概念衍生到網(wǎng)絡(luò)標簽,是人工或系統(tǒng)自動或用戶自發(fā)的,通過相關(guān)性很強的關(guān)鍵字對事物或內(nèi)容進行描述,幫助人們分類內(nèi)容,以便于檢索和分享。例如:我們也可以給“人”這個對象打上男人或女人,老人或青年的標簽??梢?,標簽也有維度或分類,而屬性也是一種標簽。
02. 分類VS標簽,到底有啥區(qū)別?
前邊的例子中,男人、女人,老人、青年,這既可以是對人的分類,也可以是人的標簽。分類和標簽有時候沒有明確的分界線,分類可以作為一個標簽,標簽也可以抽象出分類。那么,分類和標簽到底有什么不同?
關(guān)于這個問題,知乎上網(wǎng)友的一個回答挺有意思的:
分類由于只能隸屬于一個,所以往往帶有武斷和不恰當(dāng)?shù)纳?,它是一個“is a”的問題,屬于本質(zhì)論的范疇,而對事物的“本質(zhì)”的認定,嚴格來說,這事只有上帝才能做,換句話說,誰做都不合適。標簽則不同,它是一個“has a”的問題,說某個東西有某種屬性,要求就沒那么嚴格了。
筆者理解:分類是一種嚴謹?shù)臄?shù)據(jù)組織方式,一般按照一個或多個維度自上而下、從整體到明細的窮舉,遵循“相互獨立,完全窮舉” 的原則。而標簽是一種靈活的數(shù)據(jù)組織方式,放棄大而全的框架,基于業(yè)務(wù)場景自下而上地倒推標簽需求。
除此之外,分類和標簽還存在如下不同點:
1、分類一般是面向團隊或組織的,注重標準化;而標簽可以面向組織,也可以是面向個人,注重的是個性化。
2、分類具有排他性,分類之間是獨立的、不能交叉;而標簽允許交叉,標簽之間可以相互關(guān)聯(lián)、相互依賴。
3、分類體系需要事先規(guī)劃,在標準化的框架下進行使用;而標簽可以靜態(tài)的,也可以是動態(tài)的,允許隨時添加。
4、分類注重結(jié)構(gòu)化,具有層級控制,是一個樹狀結(jié)構(gòu);而標簽的結(jié)構(gòu)是松散、靈活、開放的,整體看是一個網(wǎng)狀結(jié)構(gòu)。
來源:PMCAFF產(chǎn)品社區(qū)《知識管理——如何使用印象筆記的多級目錄標簽做知識分類管理?》
03. 分類VS標簽,哪個“香”?
在數(shù)字化應(yīng)用中,分類和標簽其實根本無法分出個伯仲。標簽體系也需要一定的分類,而基于某個維度的分類也可以作為一種標簽,只是他們支持的應(yīng)用場景或有不同。
分類一直存在,它源于人的認知,可以追溯到人類的起源。
在幾百萬年前的原始部落,人們將打回來的獵物、采集回來的種子進行分類存放,以便存儲和管理。分類的作用自然不必多說,它可以讓我們條理清晰,層次清晰,一目了然的識別和管理事物。
即使在當(dāng)今由互聯(lián)網(wǎng)、計算機構(gòu)成的數(shù)字化世界中,分類體系也一直是我們組織數(shù)據(jù)、處理數(shù)據(jù)、查詢數(shù)據(jù)、管理數(shù)據(jù)的一個重要的手段。
在傳統(tǒng)企業(yè)的信息化建設(shè)中,使用更多的是分類,例如:ERP中的物料分類、人員分類、客商分類等。一套科學(xué)、嚴謹?shù)姆诸愺w系是企業(yè)的“人、財、物、進、銷、存”等業(yè)務(wù)流程有效管理的基礎(chǔ),在企業(yè)管理中發(fā)揮著重要的作用。一家企業(yè)的“物料分類”科不科學(xué)、規(guī)不規(guī)范,在很大程度上能夠反映這家企業(yè)的管理的規(guī)范性情況和精細化程度。上文我們提到的SAP Classification就是這樣一個可以根據(jù)事物屬性特征進行多維分類體系的系統(tǒng)。不僅SAP,像Oracle、用友、金蝶等ERP大廠,同樣也有類似的多維數(shù)據(jù)分類體系。
標簽(網(wǎng)絡(luò)標簽)是隨著互聯(lián)網(wǎng)發(fā)展產(chǎn)生的,最早用在博客、文章的內(nèi)容分類中,方便用戶管理和聚合內(nèi)容。隨著大數(shù)據(jù)的發(fā)展,標簽體系的作用也越來越大,被互聯(lián)網(wǎng)企業(yè)廣泛使用,通過特征集合并關(guān)聯(lián)打標簽的對象,對分析對象生成畫像,挖掘?qū)ο蟮膬r值。例如:各大互聯(lián)網(wǎng)APP(淘寶、今日頭條、抖音等)都有一個基于標簽體系的推薦引擎模塊,通過用戶靜態(tài)屬性和行為屬性給用戶打標簽,形成360度用戶畫像,然后根據(jù)用戶的偏好將信息或產(chǎn)品推送給用戶。
因此,分類VS標簽,根本無法區(qū)別那個更“強”或哪個更“弱”,根據(jù)不同的應(yīng)用場景選擇不同的體系就好了。
在企業(yè)的數(shù)字化建設(shè)中,需要分類和標簽結(jié)合使用,才能最大化發(fā)揮數(shù)據(jù)效能、挖掘數(shù)據(jù)價值。
04. 數(shù)據(jù)中臺為什么需要標簽體系
上文中我們說過,傳統(tǒng)企業(yè)的信息化使用更多的是分類體系,而標簽體系是互聯(lián)網(wǎng)企業(yè)的“致勝法寶”。
隨著數(shù)字化時代的到來,掀起了傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型的浪潮。從技術(shù)側(cè)來看,轉(zhuǎn)型就是擁抱互聯(lián)網(wǎng),戰(zhàn)略性的使用數(shù)據(jù)和IT。在這場數(shù)字化的變革中,數(shù)據(jù)中臺被認為是賦能企業(yè)數(shù)字化轉(zhuǎn)型,實現(xiàn)降本增效的新引擎。
來源:36氪研究院《2020年中國服裝行業(yè)數(shù)據(jù)中臺研究報告》
關(guān)于數(shù)據(jù)中臺的文章,筆者也寫了很多了,我們再回顧一下它的概念:數(shù)據(jù)中臺是數(shù)據(jù)+技術(shù)+產(chǎn)品+組織的有機組合,是快、準、全、統(tǒng)、通的智能大數(shù)據(jù)體系。與數(shù)據(jù)倉庫等傳統(tǒng)數(shù)據(jù)工具相比,數(shù)據(jù)中臺是一種新的理念,以“技術(shù)+業(yè)務(wù)”為雙驅(qū)動,是企業(yè)開展新型運營的一個中樞系統(tǒng)。
因此,如果你將數(shù)據(jù)中臺定位成一個存數(shù)據(jù)、管數(shù)據(jù)的技術(shù)平臺,那或許有“分類體系”就可以了。如果你的數(shù)據(jù)中臺定位的是企業(yè)數(shù)字化轉(zhuǎn)型的運營中樞系統(tǒng),要實現(xiàn)對前端業(yè)務(wù)的支持和賦能,那“標簽體系”就是數(shù)據(jù)中臺一個標配。原因前邊介紹過,分類是自上而下的規(guī)劃,側(cè)重標準化,標簽是自下而上的倒推,注重業(yè)務(wù)場景。
“數(shù)字轉(zhuǎn)型,場景為王”,在“技術(shù)+業(yè)務(wù)”雙驅(qū)模式的數(shù)據(jù)中臺中,標簽體系、數(shù)據(jù)萃取將助力企業(yè)運營轉(zhuǎn)型升級。
05. 數(shù)據(jù)中臺生產(chǎn)數(shù)據(jù)標簽的四個步驟
在經(jīng)歷過“追捧”和“質(zhì)疑”等種種考驗后,數(shù)據(jù)中臺在基于業(yè)務(wù)驅(qū)動的標簽體系助力下,正在用事實驗證其價值。關(guān)于數(shù)據(jù)中臺標簽體系的建設(shè),可以關(guān)注公眾號(談數(shù)據(jù)),閱讀《數(shù)據(jù)中臺:基于標簽體系的360°用戶畫像》一文。
下面我們簡單介紹下數(shù)據(jù)中臺如何通過加工和生產(chǎn)數(shù)據(jù)標簽,從而助力企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型的,這個過程大致可分為四個步驟:
第一,需要從業(yè)務(wù)視角對企業(yè)數(shù)據(jù)進行梳理,并將各業(yè)務(wù)域、各渠道、各類型的數(shù)據(jù)進行采集和匯聚。
第二,通過對數(shù)據(jù)進行分類處理,從中提煉出可復(fù)用的行為元素(業(yè)務(wù)線、實體對象、實體屬性、動作等),通過沉淀行為元素,可以更好地規(guī)范來源數(shù)據(jù)。這里業(yè)務(wù)線是在不同業(yè)務(wù)運營線,例如:某造紙公司有生活紙運營線,文化紙運營線、工業(yè)紙運營線、特種紙運營線等。實體對象是指操作和被操作的各商業(yè)主體,例如:用戶、產(chǎn)品等。實體屬性是指實體對象的屬性特征信息,例如:用戶的年齡、性別、喜好等。動作就是主體發(fā)出的操作,例如:詢價、購買、瀏覽等。
第三,根據(jù)對象的行為元素給對象打上相應(yīng)的“標簽”,以支持信息查詢、信息推送等應(yīng)用。與傳統(tǒng)博客、CMS(文章管理系統(tǒng))的手動給內(nèi)容打標簽不同,數(shù)據(jù)中臺是根據(jù)對象的行為規(guī)則自動給對象打標簽,并且可以設(shè)置行為數(shù)據(jù)的時間衰減算法,為不同標簽分配不同的權(quán)重,形成全面的“用戶畫像”,做到“比用戶自己還了解他自己”。
第四,各相關(guān)應(yīng)用直接調(diào)用數(shù)據(jù)中臺的標簽體系、畫像服務(wù),支持企業(yè)的精準營銷、個性推薦、渠道優(yōu)化、產(chǎn)品創(chuàng)新等應(yīng)用場景。
其中,執(zhí)行第二、第三個步驟的前提就是要做好標簽類目體系的規(guī)劃。也就是說,標簽體系也是具有一定的分類結(jié)構(gòu)的。例如:用戶標簽可以按照標簽的控制深度劃分為基本屬性標簽、行為屬性標簽、商業(yè)屬性標簽等;也可以按照數(shù)據(jù)中臺的數(shù)據(jù)分層結(jié)構(gòu),分為事實標簽、模型標簽、預(yù)測標簽等。請參考《數(shù)據(jù)中臺:基于標簽體系的360°用戶畫像》
寫在最后的話
分類體系和標簽體系雖各有各的適用場景和側(cè)重,但它們都是企業(yè)數(shù)據(jù)中臺理念落地的關(guān)鍵要素,幫助企業(yè)沉淀數(shù)據(jù)資產(chǎn)化,優(yōu)化數(shù)據(jù)服務(wù),助力企業(yè)落地數(shù)字化轉(zhuǎn)型。分類體系能夠幫助企業(yè)科學(xué)、有效的組織數(shù)據(jù),規(guī)劃標簽類目;標簽體系能夠萃取和精煉數(shù)據(jù)服務(wù),并對數(shù)據(jù)分類進行反向優(yōu)化。在企業(yè)數(shù)據(jù)的管理和應(yīng)用中,它們相互配合、互為支撐,不僅能夠讓企業(yè)有數(shù)可查,有數(shù)可用,而且能夠讓企業(yè)的數(shù)據(jù)用的更好。
作者:石秀峰
歡迎關(guān)注微信公眾號 :大數(shù)據(jù)球球