Forskellen Mellem KDD Og Datamining

Forskellen Mellem KDD Og Datamining
Forskellen Mellem KDD Og Datamining

Video: Forskellen Mellem KDD Og Datamining

Video: Forskellen Mellem KDD Og Datamining
Video: 15 Обнаружение знаний в процессе KDD баз данных 2024, November
Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) er et felt inden for datalogi, der inkluderer værktøjerne og teorierne til at hjælpe mennesker med at udvinde nyttige og tidligere ukendte oplysninger (dvs. viden) fra store samlinger af digitaliserede data. KDD består af flere trin, og Data Mining er et af dem. Data Mining er anvendelse af en bestemt algoritme for at udtrække mønstre fra data. Ikke desto mindre bruges KDD og Data Mining ombytteligt.

Hvad er KDD?

Som nævnt ovenfor er KDD et felt inden for datalogi, der beskæftiger sig med udvinding af tidligere ukendt og interessant information fra rådata. KDD er hele processen med at forsøge at give mening med data ved at udvikle passende metoder eller teknikker. Denne proces beskæftiger sig med kortlægning af data på lavt niveau til andre former, de er mere kompakte, abstrakte og nyttige. Dette opnås ved at oprette korte rapporter, modellering af processen til generering af data og udvikling af forudsigelige modeller, der kan forudsige fremtidige sager. På grund af den eksponentielle vækst af data, især inden for områder som forretning, er KDD blevet en meget vigtig proces til at konvertere denne store rigdom af data til business intelligence, da manuel udvinding af mønstre er blevet tilsyneladende umulig i de sidste par årtier. For eksempel,det er i øjeblikket brugt til forskellige applikationer såsom analyse af sociale netværk, afsløring af svig, videnskab, investering, fremstilling, telekommunikation, datarensning, sport, informationssøgning og stort set til markedsføring. KDD bruges normalt til at besvare spørgsmål som hvad er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart ?. Denne proces har flere trin. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forbehandling, reduktion og projektion af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og / eller fortolke.sport, hentning af information og stort set til markedsføring. KDD bruges normalt til at besvare spørgsmål som hvad er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart ?. Denne proces har flere trin. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forbehandling, reduktion og projektion af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og / eller fortolke.sport, hentning af information og stort set til markedsføring. KDD bruges normalt til at besvare spørgsmål som hvad er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart ?. Denne proces har flere trin. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forbehandling, reduktion og projektion af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og / eller fortolke. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forbehandling, reduktion og projektion af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og / eller fortolke. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forbehandling, reduktion og projektion af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og / eller fortolke.

Hvad er Data Mining?

Som nævnt ovenfor er Data Mining kun et skridt inden for den samlede KDD-proces. Der er to store Data Mining-mål som defineret af programmets mål, og de er nemlig verifikation eller opdagelse. Verifikation er verificering af brugerens hypotese om data, mens opdagelse automatisk finder interessante mønstre. Der er fire store data mining-opgaver: klyngedannelse, klassificering, regression og tilknytning (sammenfatning). Clustering identificerer lignende grupper fra ustrukturerede data. Klassificering er læringsregler, der kan anvendes på nye data. Regression er at finde funktioner med minimal fejl til modeldata. Og forening leder efter forhold mellem variabler. Derefter skal den specifikke datamining-algoritme vælges. Afhængigt af målet er forskellige algoritmer som lineær regression, logistisk regression,beslutningstræer og Naïve Bayes kan vælges. Derefter søges mønstre af interesse i en eller flere repræsentationsformer. Endelig evalueres modeller enten ved hjælp af forudsigelig nøjagtighed eller forståelighed.

Hvad er forskellen mellem KDD og Data mining?

Selvom de to udtryk KDD og Data Mining i høj grad bruges om hverandre, henviser de til to relaterede, men lidt forskellige koncepter. KDD er den overordnede proces med at udvinde viden fra data, mens Data Mining er et trin inde i KDD-processen, der beskæftiger sig med at identificere mønstre i data. Med andre ord er Data Mining kun anvendelsen af en bestemt algoritme baseret på det overordnede mål for KDD-processen.

Anbefalet: