Autor Thema: interaktive Bestimmungshilfen  (Gelesen 15062 mal)

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #30 am: 2014-09-24 08:40:38 »
n wäre nicht 5 sondern 3, da Du ja nur das Mittel der bekannten Arten bildest.

Stimmt. Da habe ich nicht aufgepasst. Das macht die Berechnung viel einfacher.

Ich habe mal verschiedene Konstellationen durchgespielt. Bei beiden Berechnungsmodi kommt das selbe heraus.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 2000
Re: interaktive Bestimmungshilfen
« Antwort #31 am: 2014-09-24 09:23:23 »

Beispiel 2:
A :wald:0.6
B :unbekannt:x
C :wiese:0.4
D :wald:0.5
E :unbekannt:x

Hallo, Martin,
Michael hat ja schon erwähnt, dass man den Mittelwert nur der bekannten Arten berechnet. Ich habe aber noch ein anderes Problem mit dem Beispiel (das war der Punkt, den ich in meinem Zitat von Beispiel 1 geändert hatte, aber da gibt es wohl noch Diskussionsbedarf).

Für mich sollte das Beispiel so aussehen:

Beispiel 2:
A :wald:0.6
B :wald:unbekannt
C :wald:0.4
D :wald:0.5
E :wald:unbekannt

Für die beiden Arten B und E, würde man dann den Wert (0.6+0.4+0.5)/3 = 0.5 ergänzen.

Wenn man auch die Wahrscheinlichkeiten des Lebensraums Wiese eingeben will, wäre das ein zweiter Eintrag zu jeder Art:
A :wiese:0.4
B :wiese:unbekannt
C :wiese:0.6
D :wiese:0.5
E :wiese:unbekannt


In einem strikt statistische Ansatz sollte die Summe der Wahrscheinlichkeiten 1.0 sein, wenn man alle Lebensräume aufaddiert (um die Ähnlichkeit zum klassischen Stäubli-Ansatz zu erhöhen, kann man auch der Merkmalsausprägung mit der höchsten Wahrscheinlichkeit für eine Art den Wert 1 geben, den weniger wahrscheinlichen Werte zwischen 0 und 1). Allgemein muss man also Merkmale (hier "Lebensraum") und Merkmalsausprägungen (hier "Wiese"/"Wald") unterscheiden. Für jedes gattungsrelevante Merkmal sollte jede Merkmalsausprägung erlaubt sein, wenn auch mit unterschiedlicher Wahrscheinlichkeit ("Gewichtung"); und die Summe sollte 1 sein (denn dass das vorliegende Exemplar irgendeine Merkmalsausprägung hat ist ja garantiert, solange man keine Option vergessen hat).

Ich bin nicht sicher, ob meine Erklärung deutlich ist, aber vielleicht hilft das Beispiel ja bei der Diskussion.

Beste Grüsse,
Rainer

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #32 am: 2014-09-24 10:33:08 »
Innerhalb identischer Eigenschaften eines Merkmals muss die Summe der Wahrscheinlichkeiten also 1 sein.

Merkmal 'Lebensraum': Eigenschaft: 'Wiese'.

Da sehe ich Durchführungsprobleme bei der Dateneingabe. Wir haben 94 Xysticus-Arten im Wiki. Ich schätze, für 50 % haben wir gar keine Daten (ich habe es nicht überprüft). Das sind dann die 'unbekannt'-Kandidaten. Je nach dem, wie viele Wiesen-Arten wir haben,desto geringer muss die angebbare Wahrscheinlichkeit ausfallen, sie in diesem Biotop vorzufinden. Das ist sehr ungünstig, weil dies die Relation der Auffindewahrscheinlichkeit für die jeweilige Art verändert.

Wenn ich als Experte schätze, dass Xysticus aaaa in einer Wahrscheinlichkeit zu 60 % auf einer Wiese vorkommt und zu 40% im Wald, kann ich das so nicht eintragen, weil jede Einschätzung für eine andere Art, bei der mindestens eins dieser Biotope vorkommt, die Notwendigkeit nach sich zieht, diese Werte anzupassen. Das heißt, die eigentliche Aussage wird verwässert.

Fiktives Beispiel:
A Wiese 60%, Wald 40 %
nun kommen 30 Arten hinzu, die auf Wiesen vorkommen. Es wird aus 60 % => 2 %. Das Wahrscheinlichkeitsverhältnis ist drastisch verschoben.

Eigentlich kann es nur funktionieren, wenn die Summe der Wahrscheinlichkeiten für eine Art = 1 (bzw. 100%) ist. Anders kann man das nicht eingeben. Und nur so resultieren auch die richtigen Ergebnisse.

Angenommen es sind 8 Biotope im System, aber für Art A sind nur 2 angegeben (Wiese 60 % & Wald 40 %), dann ergibt sich für die nicht angegebenen Biotope 50 % entsprechend der obigen Rechnung. Aber eben nur, wenn die Summe für die Biotope der jeweiligen Art 1 ergibt.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 2000
Re: interaktive Bestimmungshilfen
« Antwort #33 am: 2014-09-24 11:42:28 »
Hallo, Martin,

Da war meine Erklärung wohl missverständlich.

Zitat
Innerhalb identischer Eigenschaften eines Merkmals muss die Summe der Wahrscheinlichkeiten also 1 sein.

Nein, die Addition läuft in die andere Richtung: für die verschiedenen Eigentschaften eines Merkmals innerhalb einer Art muss die Summe 1 sein. In dem Beispiel von Xysticus aaa ist das der Fall: "60 % auf einer Wiese und zu 40% im Wald" = 100% = 1. Wie Du ja schon sagst:

Zitat
Eigentlich kann es nur funktionieren, wenn die Summe der Wahrscheinlichkeiten für eine Art = 1 (bzw. 100%) ist.

Die Zahl der anderen Arten (ob mit oder ohne Daten) beeinflusst die erwarteten oder einzugebenden Werte zum Glück nicht. Aber wenn mehr Arten mit bekannten Daten eingetragen werden, dann wird der Erwartungswert genauer. 

Was vielleicht auch nicht ganz deutlich war: wenn der Wert für eine Art unbekannt ist, sollte er auch so in der Datenbank eingetragen sein. Die Ergänzung des Erwartungswertes (Durchschnitt dieser Eigenschaften über die bekannten Arten) wird dann erst berechnet, wenn eine Abfrage kommt. Auf diese Weise muss man die Werte nicht jedesmal in der Datenbank neu berechnen, bloss weil andere Arten aktualisiert wurden.

Beste Grüsse,
Rainer

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #34 am: 2014-09-24 12:54:49 »
Danke für die Bestätigung. Dann habe ich es nun begriffen.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #35 am: 2014-09-26 05:37:55 »
Für mich sollte das Beispiel so aussehen:

Beispiel 2:
A :wald:0.6
B :wald:unbekannt
C :wald:0.4
D :wald:0.5
E :wald:unbekannt

Für die beiden Arten B und E, würde man dann den Wert (0.6+0.4+0.5)/3 = 0.5 ergänzen.

Wenn man auch die Wahrscheinlichkeiten des Lebensraums Wiese eingeben will, wäre das ein zweiter Eintrag zu jeder Art:
A :wiese:0.4
B :wiese:unbekannt
C :wiese:0.6
D :wiese:0.5
E :wiese:unbekannt

Logisch ergibt sich für mich ein Eingabeproblem. Man kann nicht zwischen allen Möglichkeiten gewichten, weil man die Anzahl der möglichen Merkmalsausprägungen (hier Eigenschaften genannt) nicht kennt.

Man gibt für Körperfärbung der Art A an:
bräunlich 60 %
gelblich 20 %
grau 20 %

Für Art B gibt man an:
bräunlich 50 %
gelblich 30 %
grünlich 10 %
schwarz 10 %

Für 'grünlich' und 'schwarz' wurde Art A nicht gewichten, Art B nicht für 'grau'. Die Summe der möglichen Farben ist erst bekannt, wenn die Merkmale für alle Arten eingegeben sind (müsste man das vorher ermitteln, werde das Eingeben von Eigenschaften eine sehr unübersichtliche und fehlerträchtige Aufgabe).

Die Wahrscheinlichkeiten einer Eigenschaft für eine Art muss (automatisch) korrigert werden (wieder zum Zeitpunkt der Abfrage). Aber mit welchem Wert?

Problem:
Art A:
bräunlich 60%
gelblich  20 %
grau 20%
grünlich
schwarz

Art B
bräunlich 50%
gelblich 30 %
grau
grünlich 10%
schwarz 10 %

Wie sind die fehlenden Werte aufzufüllen? Die Anpassung der bereits festgelegten gesetzten Werte erfolgt entsprechend anteilig ihrer Aufteilung.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 2000
Re: interaktive Bestimmungshilfen
« Antwort #36 am: 2014-09-26 06:20:04 »
Hallo Martin,
Ich sehe da zwei Möglichkeiten: 1. Man definiert eine allgemeine Fehler-und-Verwirrungs-Wahrscheinlichkeit (z.B. 1%) und gibt den fehlenden Eigenschaften diesen Wert. 2. Man ergänzt diese Werte am Ende doch manuell und fragt sich für jeden Einzelfall welcher Wert plausibel ist. Das wäre vielleicht auch eine Gelegenheit zur Qualitätskontrolle: habe ich Eigenschaften vergessen? Sind alle Eigenschaften klar verschieden - oder verwende ich die (fast) gleiche Eigenschaft unter verschiedenen Namen?
Beste Grüße,
Rainer

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #37 am: 2014-09-26 10:16:58 »
Verwirrungswahrscheinlichkeit ist vielleicht das falsche Wort. Sagen wir lieber Restunsicherheit.

Beispiel Verbreitung:
Es besteht immer auch die Möglichkeit einen Erstnachweis zu landen. Arno jüngst mit Drassodex validior für Italien oder ich 2011 mit Xysticus brevidentatus für Bosnien-Hezegovina.

Eine Notwendigkeit bei Nachtrag eines Merkmals die restlichen 93 Xysicus erneut editieren zu müssen, würde eine ziemliche Bearbeitungsbarriere aufbauen.

Dann mache ich es lieber so, dass ich für die Summe der nicht genannte Eigenschaften eine Gesamtwahrscheinlichkeit von 1% annehme. Damit ergibt sich für nicht genannte Merkmale folgendes: wahrscheinlichkeit=1%/m; m ist die Anzahl der nicht genannten Eigenschaften innerhalb dieses Merkmals über alle Arten der Gattung. Alle angegebenen Wahrscheinlichkeiten der genannten Eigenschaften: werden dann mit 0,99 multipliziert.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Arno Grabolle

  • ******
  • Beiträge: 14435
Re: interaktive Bestimmungshilfen
« Antwort #38 am: 2014-09-26 16:34:56 »
Um mal etwas spitzfindig zu ein: Die Wahrscheinichkeit Drassodex validior in Italien zu finden war nicht so klein, weil es die Art schon im Anchbarland Frankreich gibt. Die Wahrscheinlichkeit, sie in Norwegen zu finden, ist dagegen ausgesprochen gering.

Arno

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 2000
Re: interaktive Bestimmungshilfen
« Antwort #39 am: 2014-09-26 17:07:10 »
Hallo Arno,
Gar nicht spitzfindig, sondern ein guter Punkt: im Grunde lässt sich das im Bayes-Ansatz gut einbauen. Wenn die Art in einem Land bereits gefunden wurde, ist die Nachweiswahrscheinlichkeit=1. Für die anderen Länder kann man dann nach Expertenintuition Werte zwischen 0 und 1 vergeben. D. validior wurde ja nicht nur ins Frankreich, sondern spezifisch in einem zoogeographisch dicht an Italien anschliessenden Gebiet gefunden. Da wäre ein Wert von 0.8 oder mehr wahrscheinlich sinnvoll. In Norwegen eher 0.1 oder weniger (verschleppt durch Urlauber oder Pflanzenimport für den Alpengarten?).
Beste Grüße,
Rainer


Arno Grabolle

  • ******
  • Beiträge: 14435
Re: interaktive Bestimmungshilfen
« Antwort #40 am: 2014-09-26 21:24:25 »
Das hatte ich befürchtet: Eine Sisyphosarbeit. Ich hatte mir eine clevere Formen erhofft, die die „Nähe“ eines europäischen Landes errechten.

Du hast natürlich Recht, man müsste eigentlich auch die zoogeografischen Gegebenheiten einbeziehen. Das setzt aber intensive Recherche bei jeder Art voraus.

Arno

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #41 am: 2014-09-27 07:28:07 »
Das hatte ich befürchtet: Eine Sisyphosarbeit. Ich hatte mir eine clevere Formen erhofft, die die „Nähe“ eines europäischen Landes errechten.

Da habe ich wohl leichtfertig ein etwas zu spezielles Beispiel gewählt. Aber es zeigt, wie hilfreich es ist, Ideen und Einfälle einfach so auszusprechen.

Wir könnten eine Tabelle aufbauen, aus der hervor geht, welches Land an welches andere grenzt  – Nachbarländer bekommen 10%, andere 1 %/m, das Land des Vorkommens 89% (z. B. dk:no, se, gb, de; die von Rainer vorgeschlagenen 80 % für ein Nachbarland sind da nicht sinnvoll, da das eigentliche Vorkommensland so nur noch max. auf < 20% kommen könnte). An Hand dieser Tabelle könnten die entsprechenden Werte automatisch berechnet werden. Etwas ungenau wäre es an Europas Grenzen, da wir evtl. keine Verbreitungsdaten für die angrenzenden Länder haben (Algerien, Marokko ...); diese Daten müsste man künftig mit einpflegen.

Dies wäre aber nichts für unser Testsystem. Sowas kann man einbauen, sollte sich herausstellen, dass das System gut funktioniert.

Zurück zum eigentlichen Problem:
Ein neues Beispiel. Eine Art hat ein besonderes Merkmal, das die Bestimmung extrem vereinfacht; z. B. wie bei Dicymbium tibiale. Man bietet eine entsprechende Frage als Ankreuzfrage an und vergibt hierfür eine Wahrscheinlichkeit von 100%. Im Wiki haben wir drei Dicymbium-Arten. Das System würden den anderen beiden für verdickte Beine je eine Wahrscheinlichkeit von 1%/2 = 0,5% geben und Dicymbium tibiale eine von 100% x 0,99 = 99%.

Akzeptabel oder nicht? Ich würde sagen, ja. Die Wahrscheinlichkeit, dass die anderen beiden Arten verdickte Tibien haben, ist zwar in Wahrheit 0, aber eine andere Lösung sehe ich nicht. Um solche Fälle zu vermeiden, ist es sinnvoll, sich vor Eingabe der Daten einen geeigneten Fragenkatalog (für eine Gattung) zu überlegen. Arno hat das ja auch so gemacht (Fragenkatalog für Xysticus). Auf diese Weise wird vermieden, dass für eine Gattung nachträglich Fragen auftauchen, für die einigen Arten darunter Merkmal/Eigenschaft-Konstellationen fehlen.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Arno Grabolle

  • ******
  • Beiträge: 14435
Re: interaktive Bestimmungshilfen
« Antwort #42 am: 2014-09-27 09:06:08 »
So sehe ich das auch. Aber: Ich würde mir bei so einer sensiblen Sache wie einem Bestimmungssystem trotzdem die Mühe machen, bei möglichst allen Arten die Werte nachzutragen, wenn ich einen neuen Wert für die Gattung (taxonomischen Raum) ergänze. So viel Arbeit ist das wahrscheinlich nicht, v.a. wenn es Spezialmerkmale sind, die nur eine Art hat (alle anderen erhalten dann ja 0 oder so).

So oft wird das mit dem Ergänzen von Merkmalen nicht vorkommen, denke ich (außer in der Testphase). eigentlich ist das eher ein Problem von Arten bei denen wir über ein Merkmal keine Angaben haben. Z.B: Xysticus-Arten aus den „hinteren Reihen“, bei denen niemand weiß, wie sie aussehen (Prosomazeichnung, Gesamtfarbe ...)

Vielleicht ist ein späteres Backend ja so clever programmiert, dass ich eine generelle Eigenschaftenkombination für ein neues Merkmal für alle Arten erst mal vordefiniere und nur bei ein paar Arten korrigieren muss (Beisp: Harpactea hombergi ist die einzige Harpactea-Art mit geringelten Beinen).

Arno

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #43 am: 2014-09-27 09:23:09 »
So sehe ich das auch. Aber: Ich würde mir bei so einer sensiblen Sache wie einem Bestimmungssystem trotzdem die Mühe machen, bei möglichst allen Arten die Werte nachzutragen, wenn ich einen neuen Wert für die Gattung (taxonomischen Raum) ergänze.

Wir sollten eine Bearbeitungsanweisung formulieren und darin auch erklären, warum und wieso...

Zitat
So viel Arbeit ist das wahrscheinlich nicht, v.a. wenn es Spezialmerkmale sind, die nur eine Art hat (alle anderen erhalten dann ja 0 oder so).

Wenn man es von Anfang an richtig macht (wie Du), hält man den Fehler minimal oder vermeidet ihn ganz.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 2000
Re: interaktive Bestimmungshilfen
« Antwort #44 am: 2014-09-28 08:56:01 »
Kleine Randbemerkung: die geographische Verbreitung ist ein Merkmal, wo sich die einzelnen Eigenschaftswahrscheinlichkeiten nicht zu 100% addieren müssen. Vorkommen in einem Land schliesst ja ein Vorkommen in anderen nicht aus. Alle Länder aus denen eine Art sicher gemeldet ist können also mit 100% registriert werden. Etwas anderes ist es, wenn man dann noch die Häufigkeit im Land des vorliegenden Fundes berücksichtigen will. Aber das liegt wohl noch in ferner Zukunft.
Beste Grüße,
Rainer

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15531
Re: interaktive Bestimmungshilfen
« Antwort #45 am: 2014-09-28 09:23:25 »
Mir ist heute beim Mikrokopieren eine Randstrategie eingefallen: Nämlich die Möglichkeit, wie in der Mathematik (es ist ja Mathematik), den Wertebereich der Lösungsmenge zu begrenzen. Bisher gingen wir implizit davon aus, dass der mögliche Wertebereich alle europäischen Arten einer Gattung umfasst, bzw. bei einem Familienschlüssel alle europ. Gattungen einer Familie. Dies würde uns beim Erstellen vor teilweise nicht lösbare Herausforderungen stellen.

Was mir seit Jahren vorschwebt, ist ein Epigynenschlüssel nach Epigynenformen, der sich immer mehr verfeinert. So etwas würde mir meine Arbeit beim Mikroskopieren sehr erleichtern. Wäre ich aber gezwungen, alle europ. Linyphiiden zu typisieren, wäre der Aufwand praktisch nicht zu schaffen. Eine Eingrenzung auf häufige oder mitteleuropäische Arten wäre eine Lösung. Es müsste also die Möglichkeit bestehen, einen Werte-Pool zu definieren. Damit fielen dann die Strategien für nicht genannte Arten unter den Tisch und man kann mit absoluten Wahrscheinlichkeiten die Zielmenge möglicher Arten besser eingrenzen.

Syntaktisch: <bestimmungsschluessel gattung='Xysticus' pool='Mitteleuropa' />

[Häufigkeit in den Ländern]
Etwas anderes ist es, wenn man dann noch die Häufigkeit im Land des vorliegenden Fundes berücksichtigen will.

Ich denke, dieses Feature ist (erstmal?) zu komplex.

Im Grunde bedingt selbst die Nennung einer Art für ein Land eine grobe Vereinfachung. Hochgebirgsarten kommen an der Meeresküste nicht vor u.s.w.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Arno Grabolle

  • ******
  • Beiträge: 14435
Re: interaktive Bestimmungshilfen
« Antwort #46 am: 2014-09-28 10:18:09 »
Dein Einwurf (erster) wundert mich jetzt etwas. Ich dachte, das wäre das Ziel des interaktiven Schlüssels überhaupt. Ich kann doch über das Feld „Land“ das Zielland einstellen und dann (wenn in der Gattung/Familie angeboten) Epigynen-Typen auswählen.

Wir können das Feld „Land“ ja evtl. noch weiter aufbohren und „Ländergruppen“ anbieten (z.B: Mittel-, Nord-, Südeuropa oder Balkan, Iberische HI usw.). Das ist ja am Ende nur eine Frage der Abfrage, oder?

Arno