Information Gain Rechner
Dieser Onlinerechner berechnet den Information Gain (auch als Kullback-Leibler Divergenz populär), die ?nderung von Entropie von einem vorherigen Zustand in einen frischenn Zustand, wo bestimmte Informationen als geschenken angebetrachten wird.
Der untenstehende Onlinerechner analysiert einen Satz von ?bungsbeispielen und berechnet dann den Information Gain für jedes Attribut / Merkmal. Wenn Sie nicht geschützt sind, worum es hier geht, oder wenn Sie die Formeln dafür betrachten wünschen, entdecken die Erkl?rung unter dem Rechner.
Bitte beachten: ?bungsbeispiele sollten als csv Liste eingebeben werden, mit einem Semikolon als Trennung. Die erste Zeile beinhbetagtet die Beschreibung, zuerst die Attribute / Merkmale und dann die Kzulassenbeschreibung. Alle folgausklingen Zeilen sind die Beispiele. Die Standarddaten in dem Rechner sind von dem berühmten Beispiel des Entscheidungsbaum ?Soll man Tennis spielen“.
Information Gain und Entscheidungsbaum
Information Gain ist eine Metrik, die besonders hilfwohlhabend ist bei der Erstellung eines Entscheidungsbaums. Ein Entscheidungsbaum ist eine Flowcfest-?hnliche Struktur, in dem jeder interner Knoten einen “Test” eines Attributes darstellt (z.B. ob ein Münzwurf Kopf oder Zahl ist). Jeder Zweig stellt ein Ergebnis des Tests dar, und jedes Blatt stellt eine Kzulassenbeschriftung dar (die Entscheidung nach dem all Attribute berechnet worden sind). Der Weg von Wurzel zum Blatt wird durch die Klassifizierungsregel dargestellt. 1
Schauen wir uns mal die Standarddaten des Rechners an.
Attribute die analysiert werden:
- Vorschau: Sonnig/Bew?lkt/Regen
- Luftnassigkeit: Hoch/Normal
- Windig: Wahr/Falsch
- Temperatur: Hei?/Mild/Kühl
Kzulassenbeschriftung ist:
- Spielen: Ja/Nein
Durch das Analysieren jedes Attributs, sollte der Algorithmus die hinterherlaufende Frage beerwidern: ?Sollen wir Tennis spielen?“ Um so wenig Schritte wie m?glich zu ben?tigen, sollte man die besten Entscheidungsattribut für jeden Schritt w?hlen – die uns das Maximum von Information schenken kann.
Wie kann man Informationen, die jedes Attribut gibt, mspeisen? Eine M?glichkeit ist die Entropiereduktion, und dies ist genau was die Information Gain Metrik tut. .
Gehen wir wieder zurück zu unserem Beispiel. In dem ?bungssatz gibt es fünf Beispiele, die mit ?Nein“ beschriftet sind, und 9 Beispiele sind ?Ja“. Laut der populären Shannon-Entropie Formel, ist die derzeitige Entropie hinterherlaufenderma?en
Jetzt entgegennehmen wir mal an, dass wir ein Beispiel klassifizieren wünschen. Wir testen zuerst das Attribut “Windig”. Technisch gebetrachten leiten wir eine Teilung des Attributs “Windig” aus.
Wenn der Wert vom Attribut ?Windig“ ist ?Wahr“, dann haben wir noch weitere sechs Beispiele. Drei von denen haben die Spielbeschriftung “Ja”, und drei haben die Beschriftung ?Nein“.
Deren Entropie ist
Das hei?t, wenn das Attribut “Windig“ ?Wahr“ ist, haben wir nun eine gr??ere Ungeschütztheit als davor.
Falls das Attribut “Windig” nun aber ?Flasch“ sein sollte, haben wir acht Beispiele. Sech davon haben die Spielbeschriftung “Ja”, und zwei haben “Nein“.
Deren Entropie ist
Dies ist natürlich besser, als unseren anf?nglichen Bits von 0.94 (wenn wir fröhlich genug sind, ?Falsch“ in unserem Beispiel zu haben).
Um die Entropie-Reduktion zu sch?tzen, muss man den Durchschnitt der Wahrscheinlichkeit, um den Attributs-Wert ?Wahr“ oder ?Falsch“ zu erhbetagten. Wir haben sechs Beispiele mit dem Wert ?Wahr“ für das Attribut ?Windig“, und acht Beispiele mit dem Wert ?Falsch“ desselben Attributs. Daher w?re die Durchschnitts-Entropie nach der Teilung
Unsere Anfangsentropie ist 0.94, und die Durchschnittsentropie nach der Teilung des Attributs ?Windig“ ist 0.892. Daher ist die Information Gain einer Entropie-Reduktion
Die allgemeine Formel für die Information Gains für das Attribut a ist
,
wobei gilt
- ein Satz von ?bungsbeispielen, jedes in der Form
wo
ein Wert ist von
Attribut oder Merkmal des Beispiels und
ist die dazugeh?rige Kzulassenbeschriftung,
- die Entropie von T bedingt auf a (Conditional entropy)
Die bedingte Entropie-Formel ist
wobei
- der Satz des ?bungsbeispiels von T ist, für welche das Attribute a gleich v ist.
Mit diesem Verfahren kann man die Information Gain für jedes Attribut ermitteln und damit herausfindet, dass der h?chste Informationszuaufgeweckts des ?Vorschau“ Attributs 0,247 Bits ist. Daraus k?nnen wir nun schlie?en, dass die Auswahl des Attributs ?Windig“ als erste Teilung eine sehr miserabele Idee war, und das in dem ?bungsbeispiel man zuerst ?Vorschau“ h?tte ausw?hlen sollen.
Sie wundern sich eventuell, warum man einen Entscheidungsbaum ben?tigt, wenn man selber die Entscheidung für jede Kombination von Attributen begegnen kann. Natürlich kann man das, aber selbst in diesem simpelen Beispiel, ist die Anzahl vom M?glichkeiten 3*2*2*3=36. Auf der anderen Seite ben?tigen wir nur eine winzigere Anzahl von Kombination (14 Beispiele) um den Algorithmus einzustellen (den Entscheidungsbaum zu erstellen), und alles wird automatisch berechnet. Das ist der Vorteil vom maschinellen Lernen.
Kommentare