機器學(xué)習(xí)算法中數(shù)據(jù)集的輸入輸出、訓(xùn)練測試集是什么關(guān)系?

首先,數(shù)據(jù)集中包含多個樣本,每個樣本都有同樣的輸入輸出

輸入就是判斷的依據(jù),可以理解為特征,特征可以是多個,根據(jù)不同的情形自行選擇,輸出就是根據(jù)特征判斷的結(jié)果,也是我們構(gòu)建機器學(xué)習(xí)模型的目的(為了預(yù)測或者分類某些指標(biāo)),這個結(jié)果也可以有多個

訓(xùn)練集:多個樣本的集合,用來構(gòu)建收斂機器學(xué)習(xí)模型,一般選擇數(shù)據(jù)集中的大多數(shù)樣本

測試集:多個樣本的集合,不能和訓(xùn)練集中的樣本重合,用來對構(gòu)建好的機器學(xué)習(xí)模型進(jìn)行泛化性測試,一般選擇數(shù)據(jù)集中的少數(shù)樣本,并且這些樣本要和訓(xùn)練集中的樣本在數(shù)值類型上、數(shù)值范圍上、以及特征的相互關(guān)系上類似,否則效果可能會比較差!

試想,如果這個機器都沒有學(xué)習(xí)過類似的同類型的數(shù)據(jù),你拿一個新的陌生數(shù)據(jù)給他,他會認(rèn)識么?

預(yù)測集:多個樣本的集合(這些樣本沒有輸出),使用他們的目的就是通過已經(jīng)測試好的、泛化性良好的機器學(xué)習(xí)模型根據(jù)輸入來預(yù)測輸出,該數(shù)據(jù)集只有輸入特征。

訓(xùn)練集、測試集、預(yù)測集的關(guān)系可以打一個很形象的比喻:

今天,老師給我們講了一道數(shù)學(xué)題,我們都聽懂了,這個數(shù)學(xué)題相當(dāng)于訓(xùn)練集

晚上,老師給我們布置了作業(yè),也是一道數(shù)學(xué)題,和白天講的那道類似,看看我們學(xué)習(xí)的如何(老師有答案、對作業(yè)進(jìn)行了批改),這個作業(yè)就相當(dāng)于測試集

第二天,老師組織了一場考試,這個考試沒有答案,只有題目,這個題目就相當(dāng)于預(yù)測集。

為了讓大家更好的從數(shù)據(jù)結(jié)果上理解上述概念的關(guān)系,可以查看下圖:

254008-1.png






請前往:http://lygongshang.com/TeacherV2.html?id=269