Txoj kev sib koom ua ke yog txoj haujlwm ntawm kev sib koom ua ke ntawm cov khoom hauv ib txoj hauv kev uas lawv nyob hauv tib pab pawg zoo sib xws ntau dua li cov khoom hauv lwm qhov kev lag luam. Nws yog lub luag haujlwm tseem ceeb ntawm kev tshawb nrhiav cov ntaub ntawv thiab cov txheej txheem kev txheeb xyuas dav dav siv hauv ntau thaj chaw, suav nrog kev kawm tshuab, kev paub txog cov qauv, kev lees paub cov duab, cov ntaub ntawv rov qab, cov ntaub ntawv compression, thiab computer graphics.
kev daws teeb meem zoo
Txoj kev sib koom ua ke nws tus kheej tsis yog ib qho tshwj xeeb algorithm, tab sis txoj haujlwm dav dav uas yuav tsum tau daws. Qhov no tuaj yeem ua tiav nrog ntau yam algorithms uas sib txawv hauv kev nkag siab txog dab tsi tsim ib pab pawg thiab yuav ua li cas thiaj nrhiav tau nws zoo. Kev siv cov txheej txheem pawg rau kev tsim cov metasubjects suav nrog kev siv cov pab pawg nrogqhov deb me me ntawm cov tswv cuab, thaj chaw ntom ntom ntawm qhov chaw, ntu ntu, lossis qee qhov kev faib tawm. Yog li ntawd, kev sib koom ua ke tuaj yeem tsim los ua qhov teeb meem ntau lub hom phiaj optimization.
Txoj kev tsim nyog thiab kev teeb tsa tsis zoo (nrog rau cov khoom xws li qhov kev ncua deb los siv, qhov chaw ua haujlwm ceev, lossis tus naj npawb ntawm pawg xav tau) nyob ntawm tus kheej cov ntaub ntawv teeb tsa thiab kev npaj siv cov txiaj ntsig. Kev tshuaj xyuas zoo li no tsis yog ib txoj haujlwm tsis siv neeg, tab sis yog txheej txheem kev paub txog kev tshawb pom lossis kev sib tham sib ntau lub hom phiaj optimization. Txoj kev sib koom ua ke no suav nrog kev sim thiab ua yuam kev. Nws yog feem ntau tsim nyog los hloov kho cov ntaub ntawv ua ntej thiab cov qauv ntsuas kom txog thaum qhov tshwm sim ua tiav cov khoom xav tau.
Ntxiv rau lo lus "clustering", muaj ntau cov lus uas muaj cov ntsiab lus zoo sib xws, suav nrog kev faib tawm tsis siv neeg, suav lej taxonomy, bothryology thiab typological tsom xam. Qhov sib txawv me ntsis feem ntau nyob hauv kev siv txoj kev sib koom ua ke los tsim kev sib raug zoo metasubject. Thaum nyob rau hauv cov ntaub ntawv rho tawm cov txiaj ntsig pab pawg muaj kev txaus siab, hauv kev faib tsis siv neeg nws twb yog lub hwj chim kev ntxub ntxaug uas ua cov haujlwm no.
Cluster tsom xam raws li ntau yam haujlwm los ntawm Kroeber xyoo 1932. Nws tau qhia txog kev puas siab puas ntsws los ntawm Zubin hauv xyoo 1938 thiab los ntawm Robert Tryon hauv xyoo 1939. Thiab cov haujlwm no tau siv los ntawm Cattell txij li xyoo 1943 los qhia txog kev faib tawm ntawm cov txheej txheem hauv kev xav.
Tsev
Lub tswvyim ntawm "cluster" tsis tuaj yeem txhais tau meej. Qhov no yog ib qho ntawm cov laj thawj vim li cas thiaj li muaj ntau txoj hauv kev sib koom ua ke. Muaj ib qho kev denominator: ib pawg ntawm cov ntaub ntawv khoom. Txawm li cas los xij, cov kws tshawb fawb sib txawv siv cov qauv sib txawv. Thiab txhua qhov kev siv ntawm kev sib koom ua ke muaj cov ntaub ntawv sib txawv. Lub tswv yim pom los ntawm ntau yam algorithms sib txawv hauv nws cov khoom.
Siv txoj kev sib koom ua ke yog tus yuam sij kom nkag siab qhov sib txawv ntawm cov lus qhia. Cov qauv pawg xws li:
- Centroid s. Qhov no yog, piv txwv li, thaum k- txhais tau tias pawg sawv cev rau txhua pawg nrog ib qho vector.
- Kev sib txuas qauv s. Qhov no yog, piv txwv li, hierarchical clustering, uas tsim qauv raws li nyob deb kev sib txuas.
- Kev faib qauv s. Hauv qhov no, pawg tau ua qauv siv txoj kev sib koom ua ke los tsim cov kev faib tawm metasubject. Xws li multivariate ib txwm sib cais, uas muaj feem xyuam rau lub expectation maximization algorithm.
- Density qauv s. Cov no yog, piv txwv li, DBSCAN (Spatial Clustering Algorithm with Noise) thiab OPTICS (Order Points for Structure Detection), uas txhais cov pawg raws li cov cheeb tsam sib txuas ntom ntom hauv cov ntaub ntawv qhov chaw.
- Subspace qauv c. Hauv biclustering (tseem hu ua co-clustering lossis ob hom), pab pawg tau ua qauv nrog ob lub ntsiab lus thiab nrog cov yam ntxwv tsim nyog.
- Model s. Qee qhov algorithms tsis uaKev sib raug zoo rau lawv txoj kev sib koom ua ke los tsim cov ntsiab lus ntawm cov ntsiab lus thiab tsuas yog muab cov ntaub ntawv sib koom ua ke.
- qauv raws li daim duab s. Ib tug clique, uas yog, ib tug subset ntawm nodes, xws li hais tias txhua txhua ob kev sib txuas nyob rau hauv lub ntug ib feem yuav raug suav hais tias yog ib tug qauv ntawm pawg neeg. Qhov tsis muaj zog ntawm tag nrho qhov xav tau yog hu ua quasi-cliques. Raws nraim tib lub npe tau nthuav tawm hauv HCS pawg algorithm.
- Neural qauv s. Qhov zoo tshaj plaws-paub tsis muaj kev saib xyuas network yog daim ntawv qhia tus kheej. Thiab nws yog cov qauv no uas feem ntau tuaj yeem ua tus yam ntxwv zoo ib yam li ib lossis ntau dua ntawm cov txheej txheem saum toj no rau kev tsim cov ntsiab lus ntawm cov ntsiab lus. Nws suav nrog subspace systems thaum neural networks siv daim ntawv tsim nyog ntawm tus thawj tswj hwm lossis tus neeg sab nrauv tsom xam.
lo lus no yog, qhov tseeb, ib pawg ntawm cov pab pawg, uas feem ntau muaj tag nrho cov khoom hauv cov txheej txheem ntawm cov ntaub ntawv. Tsis tas li ntawd, nws tuaj yeem qhia txog kev sib raug zoo ntawm pawg rau ib leeg, xws li cov hierarchy ntawm cov tshuab ua rau ib leeg. Cov pab pawg tuaj yeem muab faib ua cov hauv qab no:
- Hard centroid clustering method. Ntawm no, txhua yam khoom belongs rau ib pab pawg lossis sab nraud.
- Soft lossis fuzzy system. Nyob rau ntawm no, txhua yam khoom twb belongs rau ib qho twg rau ib pawg. Nws tseem hu ua c- txhais tau tias fuzzy pawg txheej txheem.
Thiab qhov sib txawv me me kuj tseem ua tau. Piv txwv li:
- Strict partitioning clustering. Ntawm notxhua yam khoom muaj nyob rau hauv ib pawg.
- Kev faib cais cais pawg nrog cov tawm. Hauv qhov no, cov khoom kuj tseem tsis tau koom nrog ib pawg thiab suav tias yog qhov tsis tsim nyog.
- Kev sib tshooj pawg (tseem lwm txoj hauv kev, nrog ntau qhov kev pom). Ntawm no, cov khoom tuaj yeem ua rau ntau tshaj ib ceg. Feem ntau koom nrog pawg khoom.
- Hierarchical clustering method. Cov khoom uas muaj nyob rau hauv pab pawg me nyuam kuj koom nrog niam txiv subsystem.
- Kev tsim ntawm subspace. Txawm hais tias zoo ib yam li cov pawg sib tshooj, nyob rau hauv ib qho kev qhia tshwj xeeb, kev sib koom ua ke yuav tsum tsis txhob sib tshooj.
Kev qhia
Raws li tau hais los saum no, pawg algorithms tuaj yeem raug cais raws li lawv cov qauv pawg. Kev tshuaj xyuas hauv qab no tsuas yog sau cov piv txwv tseem ceeb tshaj plaws ntawm cov lus qhia no. Txij li thaum tej zaum yuav muaj ntau tshaj 100 tshaj tawm algorithms, tsis yog txhua tus muab cov qauv rau lawv pawg thiab yog li tsis tuaj yeem faib tau yooj yim.
Tsis muaj lub hom phiaj kom raug pawg algorithm. Tab sis, raws li tau hais los saum no, cov lus qhia yog ib txwm nyob rau hauv qhov kev pom ntawm tus neeg soj ntsuam. Qhov zoo tshaj plaws clustering algorithm rau ib qho teeb meem feem ntau yuav tsum tau xaiv kev sim, tshwj tsis yog tias muaj ib qho laj thawj rau kev nyiam ib tus qauv dua lwm tus. Nws yuav tsum raug sau tseg tias ib qho algorithm tsim rau ib hom feem ntau tsis ua haujlwm nrogcov ntaub ntawv uas muaj cov ncauj lus sib txawv radically. Piv txwv li, k-txhais tsis tau pom cov pab pawg uas tsis yog convex.
kev sib txuas-raws li pawg
Lub koomhaum no tseem paub los ntawm nws lub npe, tus qauv hierarchical. Nws yog raws li lub tswv yim zoo uas cov khoom sib txuas nrog cov neeg nyob sib ze dua li cov khoom uas nyob deb heev. Cov algorithms no txuas cov khoom, tsim cov pawg sib txawv, nyob ntawm lawv qhov deb. Ib pawg tuaj yeem piav qhia feem ntau los ntawm qhov siab tshaj plaws uas xav tau los txuas rau qhov sib txawv ntawm pawg. Ntawm txhua qhov kev ncua deb, lwm pab pawg yuav tsim, uas tuaj yeem sawv cev siv lub dendrogram. Qhov no piav qhia qhov twg lub npe "hierarchical clustering" los ntawm. Ntawd yog, cov algorithms no tsis muab ib qho kev faib tawm ntawm cov ntaub ntawv, tab sis muab qhov kev txiav txim dav dav ntawm txoj cai. Nws yog ua tsaug rau nws hais tias muaj ib tug ntws nrog ib leeg nyob rau hauv tej yam kev ncua deb. Hauv ib lub dendrogram, y-axis qhia qhov kev ncua deb ntawm cov pawg tuaj ua ke. Thiab cov khoom raug teeb tsa raws kab X kom cov pab pawg tsis sib xyaw.
Kev sib txuas-raws li kev sib koom ua ke yog tag nrho tsev neeg ntawm txoj kev sib txawv ntawm txoj kev uas lawv xam qhov deb. Ntxiv rau qhov kev xaiv niaj hnub ntawm kev ua haujlwm nyob deb, tus neeg siv kuj yuav tsum tau txiav txim siab txog kev sib txuas. Txij li thaum ib pawg muaj ntau yam khoom, muaj ntau yam kev xaiv rau xam nws. Ib qho kev xaiv nrov yog hu ua ib leeg-qib pab pawg, qhov no yog txoj hauv kevtag nrho qhov txuas, uas muaj UPGMA lossis WPGMA (tsis muaj qhov hnyav lossis hnyav pawg ntawm cov khub nrog lej lej, tseem hu ua txhais tau hais tias txuas txuas). Tsis tas li ntawd, cov txheej txheem hierarchical tuaj yeem ua rau agglomeration (pib nrog cov ntsiab lus ntawm tus kheej thiab muab tso rau hauv pab pawg) lossis faib (pib nrog cov ntaub ntawv tiav thiab tawg rau hauv ntu).
Kev faib ua pawg
Cov qauv no feem ntau cuam tshuam nrog kev txheeb cais uas yog raws li kev sib cais. Cov pawg tuaj yeem txhais tau yooj yim raws li cov khoom uas feem ntau yuav muaj nyob rau tib qhov kev faib tawm. Ib qho yooj yim feature ntawm txoj kev no yog tias nws zoo ib yam li txoj kev tsim cov ntaub ntawv cuav. Los ntawm sampling random khoom los ntawm ib tug faib.
Thaum lub hauv paus theoretical ntawm cov qauv no zoo heev, lawv raug kev txom nyem los ntawm ib qho teeb meem tseem ceeb, hu ua overfitting, tshwj tsis yog txwv tsis pub txwv rau qhov nyuaj ntawm cov qauv. Lub koom haum loj dua feem ntau yuav piav qhia cov ntaub ntawv zoo dua, ua rau nws nyuaj rau xaiv txoj hauv kev.
Gaussian mix model
Txoj kev no siv txhua hom kev cia siab ua kom siab tshaj plaws algorithms. Ntawm no, cov ntaub ntawv feem ntau yog ua qauv nrog ib qho ruaj (kom tsis txhob overriding) tus naj npawb ntawm Gaussian kev faib tawm uas tau pib randomly thiab nws qhov tsis zoo yog rov ua kom zoo dua kom haum rau dataset. Qhov no system yuav converge mus rau lub zos optimum. Tias yog vim li cas ob peb khiav yuav muabsib txawv. Txhawm rau kom tau txais qhov nruj tshaj plaws, cov yam ntxwv feem ntau raug xa mus rau Gaussian faib lawv feem ntau yuav koom nrog. Thiab rau cov pab pawg softer, qhov no tsis tsim nyog.
Kev faib tawm raws pawg tsim cov qauv nyuaj uas tuaj yeem ntes qhov sib raug zoo thiab kev vam khom ntawm cov yam ntxwv. Txawm li cas los xij, cov algorithms no ua rau lub nra ntxiv rau tus neeg siv. Rau ntau cov ntaub ntawv hauv ntiaj teb tiag tiag, tej zaum yuav tsis muaj cov qauv lej uas tau hais tseg (piv txwv li, piv txwv li Gaussian kev faib tawm yog qhov kev xav tau zoo heev).
Density based clustering
Hauv qhov piv txwv no, cov pab pawg tau txhais tau tias yog thaj chaw uas muaj impermeability siab dua li lwm cov ntaub ntawv. Cov khoom hauv qhov tsis tshua muaj no, uas tsim nyog los cais tag nrho cov khoom, feem ntau suav tias yog lub suab nrov thiab cov ntsiab lus ntug.
Qhov nrov tshaj plaws raws li kev sib koom ua ke yog DBSCAN (Spatial Noise Clustering Algorithm). Tsis zoo li ntau txoj hauv kev tshiab, nws muaj qhov zoo-txhais pawg pawg hu ua "density reachability". Zoo ib yam li kev sib txuas-raws li kev sib koom ua ke, nws yog nyob ntawm cov ntsiab lus sib txuas hauv qee qhov kev ncua deb. Txawm li cas los xij, txoj kev no sau tsuas yog cov khoom uas txaus siab rau qhov ceev ceev. Nyob rau hauv thawj version, txhais raws li qhov tsawg kawg nkaus ntawm lwm yam khoom nyob rau hauv lub vojvoog no, pawg muaj tag nrhoCov khoom siv ntom ntom (uas tuaj yeem tsim ib pawg dawb-daim ntawv, tsis zoo li ntau lwm txoj hauv kev), thiab txhua yam khoom uas nyob hauv qhov kev tso cai.
Lwm cov cuab yeej nthuav dav ntawm DBSCAN yog tias nws qhov nyuaj yog qhov tsawg heev - nws yuav tsum muaj cov kab lus ntau ntawm cov lus nug tawm tsam cov ntaub ntawv. Thiab qhov txawv txawv yog tias nws yuav pom qhov tseem ceeb ntawm cov txiaj ntsig (qhov no yog qhov kev txiav txim siab rau cov ntsiab lus tseem ceeb thiab suab nrov, tab sis tsis yog rau cov ntsiab lus ciam teb) hauv txhua qhov kev khiav. Yog li ntawd, tsis tas yuav khiav nws ntau zaus.
Qhov tsis zoo ntawm DBSCAN thiab OPTICS yog tias lawv xav tias qee qhov kev poob qis los xyuas cov ciam teb ntawm pawg. Piv txwv li, nyob rau hauv datasets nrog overlapping Gaussian distributions - ib qho kev siv rooj plaub rau cov khoom siv dag zog - pawg ciam teb uas tsim los ntawm cov algorithms feem ntau tshwm sim arbitrary. Qhov no tshwm sim vim qhov ntom ntawm cov pab pawg tsis tu ncua. Thiab nyob rau hauv Gaussian sib tov dataset, cov algorithms yuav luag ib txwm ua tau zoo tshaj txoj kev xws li EM pawg, uas muaj peev xwm ua tau raws li cov qauv ntawm cov tshuab no.
Mean displacement yog ib qho kev sib koom ua ke uas txhua qhov khoom txav mus rau qhov chaw ntom ntom hauv ib puag ncig raws li kev kwv yees ntawm tag nrho cov ntsiav. Thaum kawg, cov khoom converge rau hauv zos impenetrability maxima. Zoo ib yam li k- txhais tau tias kev sib koom ua ke, cov "cov neeg nyiam qhov ntom ntom" tuaj yeem ua tus sawv cev rau cov ntaub ntawv. Tab sis qhov kev hloov pauvtuaj yeem txheeb xyuas cov pawg zoo ib yam li DBSCAN. Vim yog cov txheej txheem pheej yig dua thiab kev kwv yees qhov ceev, qhov nruab nrab qhov kev hloov pauv feem ntau qeeb dua DBSCAN lossis k-Means. Tsis tas li ntawd, kev ua haujlwm ntawm cov kev ua haujlwm tsis yooj yim yog qhov nyuaj rau qhov tsis txaus ntseeg, uas ua rau muaj kev phom sij ntau dhau ntawm pawg Tails.
Rating
Kev txheeb xyuas cov txiaj ntsig ntawm pawg yog qhov nyuaj ib yam li pawg nws tus kheej. Cov txheej txheem nrov muaj xws li "sab hauv" cov qhab nia (qhov twg lub kaw lus raug txo qis rau ib qho kev ntsuas zoo) thiab, tau kawg, "sab nraud" cov qhab nia (qhov twg qhov kev sib faib yog piv rau qhov kev faib tawm "qhov tseeb hauv av"). Thiab tib neeg tus kws tshaj lij cov qhab nia ntawm phau ntawv thiab cov qhab nia tsis ncaj tau pom los ntawm kev tshuaj xyuas cov txiaj ntsig ntawm kev sib koom ua ke hauv daim ntawv thov npaj.
Internal chij ntsuas raug kev txom nyem los ntawm qhov teeb meem uas lawv sawv cev rau cov yam ntxwv uas lawv tus kheej tuaj yeem suav tias yog pawg hom phiaj. Piv txwv li, nws tuaj yeem pab pawg cov ntaub ntawv muab los ntawm Silhouette coefficient, tshwj tsis yog tias tsis muaj kev paub txog kev ua haujlwm zoo rau kev ua li ntawd. Siv cov kev ntsuas sab hauv rau kev ntsuam xyuas, nws yog qhov zoo dua los sib piv qhov zoo sib xws ntawm cov teeb meem optimization.
Lub cim sab nraud muaj teeb meem zoo sib xws. Yog tias muaj cov ntawv lo ntawm "qhov tseeb hauv av", ces tsis tas yuav ua pawg. Thiab hauv kev siv tswv yim, feem ntau tsis muaj cov ntsiab lus zoo li no. Ntawm qhov tod tes, cov ntawv lo qhia tsuas yog ib qho ua tau muab faib ntawm cov ntaub ntawv teev, uas tsis txhais tau tiastias tsis muaj lwm yam (tej zaum zoo dua) pawg.
Yog li tsis muaj ib txoj hauv kev no tuaj yeem txiav txim siab qhov zoo. Tab sis qhov no yuav tsum tau kev ntsuam xyuas tib neeg, uas yog cov ntsiab lus siab heev. Txawm li cas los xij, cov kev txheeb cais no tuaj yeem qhia paub txog kev txheeb xyuas cov pawg phem. Tab sis ib tug yuav tsum tsis txhob txo qhov kev ntsuam xyuas ntawm ib tug neeg.
Nyob hauv kos
Thaum qhov tshwm sim ntawm pawg yog ntsuas raws li cov ntaub ntawv uas nws tus kheej tau ua pawg, qhov no yog hu ua lo lus no. Cov txheej txheem no feem ntau muab qhov txiaj ntsig zoo tshaj plaws rau ib qho algorithm uas tsim cov pab pawg uas muaj qhov zoo sib xws hauv thiab qis ntawm pawg. Ib qho tsis zoo ntawm kev siv cov txheej txheem sab hauv hauv kev ntsuam xyuas pawg yog tias cov qhab nia siab tsis tas yuav ua rau cov ntaub ntawv siv tau zoo. Tsis tas li ntawd, qhov qhab nia no yog sib npaug ntawm cov algorithms uas siv tib tus qauv. Piv txwv li, k-txhais tau tias kev sib koom ua ke ib txwm ua kom zoo tshaj qhov kev ncua deb, thiab cov txheej txheem sab hauv raws li nws yuav ua rau overestimate qhov tshwm sim pawg.
Yog li ntawd, cov kev ntsuas ntsuas no yog qhov zoo tshaj plaws kom tau txais lub tswv yim ntawm cov xwm txheej uas ib qho algorithm ua tau zoo dua lwm qhov. Tab sis qhov no tsis tau txhais hais tias txhua cov ntaub ntawv muab kev ntseeg siab ntau dua li lwm tus. Lub sij hawm siv tau ntsuas los ntawm qhov ntsuas no nyob ntawm qhov kev lees paub tias cov qauv muaj nyob hauv cov ntaub ntawv. Ib qho algorithm tsim rau qee hom tsis muaj caij nyoog yog tias lub teeb muaj radicallysib txawv muaj pes tsawg leeg los yog qhov kev ntsuam xyuas ntsuas txawv cov qauv. Piv txwv li, k-txhais tau hais tias pawg tsuas tuaj yeem pom cov pawg convex, thiab ntau qhov qhab nia ntsuas suav tias yog tib hom ntawv. Nyob rau hauv cov ntaub ntawv nrog cov qauv uas tsis yog convex, nws tsis tsim nyog siv k-txhais tau tias thiab cov kev ntsuas raug ntsuas.
Kev ntsuas sab nraud
Nrog cov kev sib tw zoo li no, cov txiaj ntsig ntawm pawg tau raug tshuaj xyuas raws li cov ntaub ntawv uas tsis tau siv los ua pab pawg. Ntawd yog, xws li cov npe hauv chav kawm paub thiab kev xeem sab nraud. Cov lus nug zoo li no muaj cov txheej txheem ntawm cov khoom ua ntej thiab feem ntau tsim los ntawm cov kws tshaj lij (tib neeg). Yog li ntawd, cov khoom siv siv tau pom tau tias yog tus qauv kub rau kev ntsuas. Cov hom kev muab qhab nia no ntsuas qhov kev kaw cov pawg yog li cas rau cov chav kawm siv. Txawm li cas los xij, nws tsis ntev los no tau tham txog seb qhov no puas tsim nyog rau cov ntaub ntawv tiag tiag lossis tsuas yog rau cov khoom siv hluavtaws nrog qhov tseeb hauv av. Txij li cov chav kawm yuav muaj cov qauv sab hauv, thiab cov cwj pwm uas twb muaj lawm yuav tsis tso cai rau kev sib cais ntawm pawg. Tsis tas li ntawd, los ntawm kev paub txog kev tshawb nrhiav pom, kev tsim cov ntaub ntawv paub tseeb yuav tsis tas yuav ua rau cov txiaj ntsig xav tau. Hauv qhov xwm txheej tshwj xeeb uas txwv tsis pub muaj cov ntaub ntawv meta-cov ntaub ntawv (xws li cov ntawv teev npe hauv chav kawm) twb tau siv rau hauv cov txheej txheem ua pab pawg, nws tsis yog qhov tseem ceeb kom khaws tag nrho cov ntaub ntawv rau kev ntsuam xyuas lub hom phiaj.
Tam sim no nws paub meej tias dab tsi tsis siv rau kev sib koom ua ke, thiab cov qauv twg siv rau lub hom phiaj no.