-
Notifications
You must be signed in to change notification settings - Fork 10
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Basics des Fragen-Samplings bzw -Vorauswahl näher erörtern bzw. quertesten #75
Comments
Ich bin mir nicht sicher, ob ich dich richtig verstehe, aber folgendes kann ich schonmal sagen:
Für die Fragenauswahl haben wir aus den vielen Abstimmungen nach folgenden Kriterien Fragen ausgewählt:
Wie könnte man denn Fragen auswählen, um bestimmte Parteien zu bevorzugen? |
Hallo,
Nun ja, ich dachte da zum Beispiel daran, dass von den verschiedenen Parteien die Ja/Nein - Stimmen irgendwo im Kontinuum zwischen 0 und 1 verteilt sind und dass der Score basierend auf der Nähe der Userantwort (diskret 0 oder 1) zu jenem Wert berechnet würde. Da wäre dann eine gewisser Spielraum vorhanden, wo eine Partei bei einer sehr zustimmungsfreundlichen Frage dauernd besser abschneidet. Das wäre zwar im Endeffekt auch nicht von den Tatsachen entrückt, aber eben Platz zum spielen. Bei einer erneuten Lektüre eurer FAQ musste ich mir eingestehen, dass ich noch nicht das volle Bild hatte -- die Parteien werden also auch auf 0 oder 1 heruntergebrochen. Im Prinzip könnte ich aber eine ähnliche Vorgehensweise entwerfen -- fraktionsintern umstrittene Entscheidungen suchen (nahe der 50%) und die Fragen nehmen wo's bei der hypothetischen Opferpartei knapp auf die Seite gefallen ist die prinzipiell weniger gern genommen wird. Hier würde man dann quasi den Rundungsfehler ausnutzen. Ich gebe ja zu, solche Fraktionsunentschlossenheit kommt mir selber zu selten vor als dass man da wirklich was ausnutzen könnte (uneducated guess, no expert). Von daher danke für die Antwort. Schick dass alles bei Github steht, gute Arbeit. |
Hi @simlei wie @tomthe schon gesagt hat, haben wir die Fragen eher nach schwammigen Kriterien plus viel Diskussion und Intuition ausgewaehlt. Wir haben zum Beispiel Fragen, bei denen (fast) alle gleich abgestimmt haben, eher rausgeschmissen, weil die nicht helfen die Parteienlandschaft zu trennen. Auf der anderen Seite haben wir uns Fragen mit grosser Varianz in den Antworten nochmal genauer angesehen. Siehe dazu auch https://wahlbilanz.de/2019/04/europawal/ Aber du hast natuerlich Recht und eine spannende Frage aufgeworfen - Danke! Ich hatte es vor der Wahl nicht mehr geschafft, aber habe heute mal ein bisschen rumprobiert. Aus Zeitgruenden (bin auch ab morgen ein paar Tage afk) dump ich die Results mal nur weitestgehend uninterpretiert hier rein. Weiss auch nicht ob das hier der richtige Platz dafuer ist, wuerde mich aber riesig ueber eine kritische Diskussion freuen! :) PCAIch hab aus unserer votes.json eine Matrix Die CSV hab ich mal hier hingedumpt: https://gist.github.com/binfalse/0886f1bdf464a282c2719595ad4e6e77#file-results-csv Darauf dann PCA (https://gist.github.com/binfalse/0886f1bdf464a282c2719595ad4e6e77#file-pca-r) gemacht, mit folgenden Ergebnissen: VennVielleicht noch spannend die einzelnen Uebereinstimmungen in den Parteien anzusehen? -> Venn Diagramme (code: https://gist.github.com/binfalse/0886f1bdf464a282c2719595ad4e6e77#file-venn-r) Sind noch konkrete Konstellationen spannend? Kann ich mittels https://gist.github.com/binfalse/0886f1bdf464a282c2719595ad4e6e77#file-venn-r gern einfach nachliefern Brute force :PDer Raum moeglicher Antworten ist natuerlich relativ gross - 4 Optionen (ja/nein/neutral/abwesend) bei 27 fragen: 4^27 ~1.80144e+16 Stark! Wir konnten offentsichtlich mit DeinWal ganz gut das Gegenteil des vorlaeufigen Europawahlergnisses vorhersagen :P Die Abbildung wirkt aber erstmal erschreckend. Zumindest gingen bei mir alle Alarmglocken - ist unsere Fragenauswahl wirklich so manipulativ!? Aber das laesst sich doch relativ einfach erklaeren:
Das bedeutet, wenn jemand nicht abstimmt:
Also, wenn CDU und Piraten beide wie du stimmen, aber bei der CDU einer schwaenzt, gewinnen die Piraten mit 100% Uebereinstimmung vor der CDU mit 97% (33/34) -> in der Grafik oben kriegen in diesem Fall die Piraten einen Punkt, aber CDU kriegt keinen Andersherum, wenn die Abgeordnete der Piraten einmal fehlt und die CDU nicht komplett gegen dich stimmt, ist die CDU in vielen Antwortvektoren weit vor den Piraten! Die Grafik zeigt halt nur, wer jeweils am Besten war bei einem Antwortvektor. Bei diesen 20 Fragen haben die Piraten immer eine Stimme abgegeben, waehrend die Gruenen bspw 13x gefehlt haben, damit konnten die Gruenen nur selten die hoechste Uebereinstimmung mit dir haben (nur ~500k mal), sind aber trotzdem oft oben mit dabei. Dazu kommen natuerlich noch so Effekte, wenn die Partei nicht geschlossen abstimmt, sondern sich einige enthalten oder so... In unserer Auswertungstabelle zeigen wir daher auch Logos der Parteien, wenn die Partei mehrheitlich wie du gestimmt hat. Mehrheitlich heisst 2/3-Mehrheit. Wenn ich im Beispiel oben zaehle, wie oft eine Partei mehrheitlich wie ein jeweiliger Antwortvektor gestimmt hat, sieht die Abbildung wesentlich fairer aus: Aber das ist auch gerade nur kurz zusammengehackt und fix ueberlegt plus/minus denk- und programmierfehler ;-) Vielleicht hast du noch andere/bessere Ideen zur Auswertung? Vielleicht hast du auch eine Idee wie wir einen Test implementieren koennen, der sicher stellt, dass eine bestimmt Fragensequenz, die wir uns ueberlegt haben, keine der Parteien statistisch benachteiligt..? -> Was koennen wir hier lernen und in Zukunft besser machen? Vielleicht ist ein PCA auf allen vorhandenen Daten nochmal spannend (also nicht nur die fragen, die wir ausgewaehlt haben)!? Aber das schaffe ich fruehestens naechste woche... |
Fantastisch. Ich muss das mal auf mich wirken lassen. Also, nachdem ich schon eine gute Stunde dabei bin, hoch und runter zu scrollen. Ich sehe kein konsistentes Muster zwischen den PCA-Grafiken und den unterschiedlichen Pole-Positions-Häufigkeiten. Die Analyse mit den Enthaltungen als entscheidender Faktor klingt zumindest ziemlich einleuchtend. Zu den letzten Abbildungen:
Dann zeigt die Grafik, wie zufällige Antworten für jede der Parteien in gleichem Maß >50% und <50% Ähnlichkeit mit der Stimmenabgabe repräsentieren? Wenn ich damit richtig liege: Ist diese Ähnlichkeit gleich (sensibly exact speaking) der %-Angabe auf dem "Treppchen", d.h. dem Rating, das man für jede Partei am Ende des Questionnaire angezeigt bekommt? Wenn du den Code/die Samples für diese Charts noch irgendwo hochladen könntest, brauche ich gar keine großartig detaillierte Antwort. Aber insgesamt bin ich schon mehr als zufrieden mit dem Ausmaß der Antwort auf dieses kleine Issue. Ich finde das eine äußerst aufmerksame Aktion und fühle mich etwas geehrt :) |
Statistisch interessiert ja schon eher richtung "brennend", wie "fair" die Fragenvorauswahl ist, oder?
Einfach gefragt, ist das rückwärts gelesene Spektum über die Parteien fair, so dass je nach Ja/Nein-Konstellation theoretisch jede der Parteien weit oben auf dem "stimmt mit deiner Einstellung überein"-Treppchen stehen könnte? Oder anders, wie ist das Spektrum
max_{answers} rating(Partei, answers)
verteilt (z.B. gewichtet nach representativität der Antworten vs. nicht gewichtet, oder stichproben nach PCA des bisher recordeten Stimmungsbildes (kann man ja anonym gestalten und weder Daten noch Eigensystem veröffentlichen, nur intern samplen)).Generaell würde es mich freuen, wenn man mehr zur Vorauswahl auf der Seite erfahren würde (derzeit: https://deinwal.de/faq#eu_auswahl nach subjektiven Kriterien). Und eine statistische Auswertung nach genannten Gesichtspunkten wäre schon sehr schön. Würde einen Boost an credibility geben, denke ich.
The text was updated successfully, but these errors were encountered: