Stěžování si na působnost známkovacích klanů je na Sprše tak častá záležitost, až se jejich existence začala víceméně všeobecně považovat za skutečnost. Jsa člověk ne dosti humanitně zaměřený, řekl jsem si, že se podívám, co o teorii známkovacích klanů může povědět řeč čísel.
Jako prostředek jsem zvolil analýzu podobnosti známkování stejných komentářů jednotlivými čtenáři Sprchy. Abych analýzu zacílil a dostal se na nějaký rozumný rozsah, zpracoval jsem všechny komentáře diskuze k článku Cui bono?, která podle Vodníka představuje typickou ukázku obludných forem, kterých dosáhlo klanové hodnocení založené na osobních sympatiích.
Aby bylo možné hodnotit podobnost známkování, do analýzy vstoupily pouze komentáře, které obdržely alespoň dvě či více známek. Celkem jich bylo 97. Dále jsem nepočítal s nulami, protože jsou anonymní. V celé diskuzi jsem ale zahlédnul jen dvě. K jedné se hlásil Boutros, druhá vypadala na Vodníka.
Závažným nedostatkem by mohlo být, že analýza nezahrnuje úplně vynulované komentáře. Z prostého důvodu - že je nevidím. (Kam se podělo moje mojo?) Ale jestli se dobře pamatuji, nulování v té době nepatřilo k běžne používaným prostředkům.
Výsledky analýzy
Vásledky jsou zobrazeny formou "polomatice", kde každá buňka obsahuje před lomítkem údaj o podobnosti známkování příslušných členů klanu a za lomítkem z kolika případů byla podobnost vypočtena (tedy kolikrát se ti dva sešli při známkování stejného komentáře).
Tedy např. hodnota 81/9 znamená, že oba známkovali 9 stejných komentářů a míra podobnosti jimi udělených známek v těchto 9 případech byla 81%.
Podobnost jsem počítal jako rozdíl známek převedený na procentní škálu, kde 100% reprezentuje stejné známky ve všech případech a 0% maximálně odlišné známky (1 v. 5) ve všech případech.
V průběhu výpočtu jsem stanovoval prahy statistické významnosti a co bylo pod nimi, jsem dále neuvažoval.
Z předběžných výsledků jsem vytipoval dva možné klany a jejich hlavy (podle největšího počtu známkování, Vodník a Boutros). Kritériem pro zahrnutí do klanu byla nejméně 80% podobnost známkování s hlavou klanu.
Sečtením hodnot z matic zjistíme, že klan č.1 známkoval spolu (resp. kterákoliv z dvojic jeho členů) 66-krát, klan č.2 27-krát.
Komu v klanu č.2 chybí některé "známé firmy", nechť si níže přečte popis výpočtu. Nicméně z výsledků je zřejmé, že klan č.2 je možná lépe definovaný, ale více se známkami šetří.
Znovu připomínám, že toto je pouze analýza podobnosti známkování v jedné diskuzi. Úplně jiné výsledky by mohla přinést analýza známkování autorů, tedy vztahu autor komentáře - známkovač - známka.
Pokud by něco takového provedl někdo s přístupem k databázi Sprchy a nemusel to ručně vyzobávat celý sobotní večer jako, třeba by výsledky ještě zamíchaly názory na (ne)zrušení známkování.
Pro zájemce přidávám neumělý
Popis výpočtu
Shromáždil jsem nenulové známky ze všech komentářů uvedeného článku, které dostaly alespoň dvě nenulové známky. Získal jsem tak 97 sad známek od 23 různých známkovačů.
Za kritérium statistické významnosti jsem zvolil alespoń 5 známkování od každého známkovače. Odpadlo tak 5 známkovačů (Yenya, cnemo, Jan Klabačka, Tomáš, bubak).
Ze zbylých dat jsem pro každou kombinaci dvou známkovačů spočítal hodnotu podobnosti jejich známkování a počet případů společného známkování stejného komentáře.
Zahodil jsem kombinace, které spolu měly méně než 4 společná známkování. Tak např. odpadla kombinace Boutros/Astr se 100% shodou!
Ze zbylých dat jsem vytipoval vůdce klanů podle počtu známování (Vodník 40, Pajout 34 ale stejný klan, Boutros 29). K vůdcům jsem dosadil členy klanu na základě alespoň 80-ti procentní podobnosti hlasování.
A kam že se to poděli Michaela, JN a TL? Prostě neměli dostatek společných známkování s hlavou předpokládaného klanu Boutrosem. Pokud by se kritérium příslušnosti ke klanu změnilo tak, že by stačila 80% shoda s kterýmkoliv členem klanu (a ne jen s jeho hlavou), klan č.2 by vypadal následovně (klan č.1 by zůstal beze změn):
Stále ovšem by počet společných známkování klanu č.2 byl 45 versus 66 klanu č.1.
Publikováno s vědomím, že pokud v analyzované diskuzi existuje nemalý počet vynulovaných (tudíž mně neviditelných), vícenásobně oznámkovaných komentářů, tak je tohle všechno na prd :-((