KDD vs Data mining
KDD (Knowledge Discovery in Databases) er et felt innen informatikk, som inkluderer verktøy og teorier for å hjelpe mennesker med å hente ut nyttig og tidligere ukjent informasjon (dvs. kunnskap) fra store samlinger av digitaliserte data. KDD består av flere trinn, og Data Mining er en av dem. Data Mining er anvendelse av en bestemt algoritme for å hente ut mønstre fra data. Likevel brukes KDD og Data Mining om hverandre.
Hva er KDD?
Som nevnt ovenfor er KDD et felt innen informatikk, som omhandler utvinning av tidligere ukjent og interessant informasjon fra rådata. KDD er hele prosessen med å prøve å få mening i data ved å utvikle passende metoder eller teknikker. Denne prosessen tar for seg kartleggingen av data på lavt nivå i andre former som er mer kompakte, abstrakte og nyttige. Dette oppnås ved å lage korte rapporter, modellere prosessen med å generere data og utvikle prediktive modeller som kan forutsi fremtidige saker. På grunn av den eksponentielle veksten av data, spesielt i områder som virksomhet, har KDD blitt en veldig viktig prosess for å konvertere denne store mengden data til business intelligence, ettersom manuell utvinning av mønstre har blitt tilsynelatende umulig de siste tiårene. For eksempel,det er for tiden brukt til forskjellige applikasjoner, for eksempel analyse av sosiale nettverk, oppdagelse av svindel, vitenskap, investering, produksjon, telekommunikasjon, datarengjøring, sport, informasjonsinnhenting og i stor grad for markedsføring. KDD brukes vanligvis til å svare på spørsmål som hvilke hovedprodukter som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart ?. Denne prosessen har flere trinn. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter lage et måldatasett. Dette følges av rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn er å bruke Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt konsolideres oppdaget kunnskap ved å visualisere og / eller tolke.sport, informasjonsinnhenting og i stor grad for markedsføring. KDD brukes vanligvis til å svare på spørsmål som hvilke hovedprodukter som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart ?. Denne prosessen har flere trinn. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter lage et måldatasett. Dette følges av rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn er å bruke Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt konsolideres oppdaget kunnskap ved å visualisere og / eller tolke.sport, informasjonsinnhenting og i stor grad for markedsføring. KDD brukes vanligvis til å svare på spørsmål som hvilke hovedprodukter som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart ?. Denne prosessen har flere trinn. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter lage et måldatasett. Dette følges av rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn er å bruke Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt konsolideres oppdaget kunnskap ved å visualisere og / eller tolke. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter lage et måldatasett. Dette følges av rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn er å bruke Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt konsolideres oppdaget kunnskap ved å visualisere og / eller tolke. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter lage et måldatasett. Dette følges av rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn er å bruke Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt konsolideres oppdaget kunnskap ved å visualisere og / eller tolke.
Hva er Data Mining?
Som nevnt ovenfor er Data Mining bare et trinn i den generelle KDD-prosessen. Det er to store Data Mining-mål som definert av målet for applikasjonen, og de er nemlig verifisering eller oppdagelse. Verifisering er å verifisere brukerens hypotese om data, mens oppdagelse automatisk finner interessante mønstre. Det er fire store data mining-oppgaver: klynging, klassifisering, regresjon og tilknytning (oppsummering). Clustering er å identifisere lignende grupper fra ustrukturerte data. Klassifisering er læringsregler som kan brukes på nye data. Regresjon er å finne funksjoner med minimal feil for å modellere data. Og assosiasjon er på jakt etter forhold mellom variabler. Deretter må den spesifikke data mining algoritmen velges. Avhengig av målet, forskjellige algoritmer som lineær regresjon, logistisk regresjon,beslutningstrær og Naïve Bayes kan velges. Deretter blir det søkt på interessemønstre i en eller flere representasjonsformer. Til slutt blir modeller evaluert enten ved hjelp av prediktiv nøyaktighet eller forståelighet.
Hva er forskjellen mellom KDD og Data mining?
Selv om de to begrepene KDD og Data Mining er mye brukt om hverandre, refererer de til to relaterte, men litt forskjellige konsepter. KDD er den samlede prosessen med å hente ut kunnskap fra data mens Data Mining er et trinn inne i KDD-prosessen, som omhandler å identifisere mønstre i data. Med andre ord er Data Mining bare anvendelse av en spesifikk algoritme basert på det overordnede målet for KDD-prosessen.