Analytics

Fru Justitia extraknäcker inte som Data Scientist

Share this post:

Det senaste året har jag vid ett flertal tillfällen hållit presentationer om rättvisa maskininlärningsmodeller. Mitt syfte är alltid att tala om tekniker som kan användas för att undvika orättvisa modeller – givet att vi har kunnat definiera rättvisa. Jag brukar med andra ord högst medvetet undvika att (själv) försöka definiera konceptet rättvisa. Anledningen till det är att det inte finns endast en definition. Vid min senaste presentation fick jag dock en fråga om just definitionen av rättvisa. Jag tänkte därför som en unik företeelse bege mig in på en snårig väg tillsammans med dig idag, för att utforska svårigheterna med att definiera rättvisa.

Låt oss börja vandringen med att röra oss mot USA och det amerikanska skolsystemet. Vi befinner oss på en prestigefylld och välrenommerad privatskola för högskolestudier. Här tar vi hjälp av en maskininlärningsmodell (ML-modell) för att avgöra vilka av alla sökande som ska bli antagna till skolan. De sökande har genomfört lägre studier vid antingen privatskolor eller kommunala skolor. Bland de sökande vill vi på ett rättvist sätt anta de studenter som är mest sannolika att slutföra sina studier. Jag kommer nu att presentera fyra olika sätt vi skulle kunna resonera på när vi definierar rättvisa gällande vilka studenter som bör antas.

Rättvisedefinition ett: Modellen är rättvis per definition

Vi kan anse att ML-modellen i sig är rättvis eftersom den bygger på statistik och data över vilka studenter som tidigare klarat sina studier. Den hjälper oss identifiera grupper som är mer eller mindre troliga att slutföra studierna. Men jag frågar mig, är det verkligen rättvist att modellen först ger avslag på en ansökan från John som gått på en kommunal skola för att sen godkänna samme Johns ansökan när jag uppger att han gått på en privatskola? Detta är något som kan hända om modellen lärt sig att studenter från privatskolor i högre utsträckning klarar sina studier än studenter från kommunala skolor. Att modellen replikerar ett sådant samband kan i sin tur bero på en rad olika saker. Om till exempel antalet antagna studenter från kommunala skolor från tidigare år har varit väldigt lågt, kan det slumpa sig så att flera av dessa studenter inte slutförde sina studier vilket innebär att modellen cementerar ett mönster som egentligen berodde på slumpen. Det kan också vara så att studenterna från kommunala skolor saknade nätverket med studiekamrater som privatskolestudenterna hade. Detta på grund av att de utgjorde en minoritet bland de antagna som inte kände de andra studenterna sedan innan. Alltså, genom att inte utvärdera modellen avseende rättvisa, sätter vi all tilltro till att datasetet är rättvist. Jag gav här ovan exempel på orsaker till varför datasetet kan anses att vara orättvist.

Efter den här tunga starten på vår vandring, föreslår jag att vi går vidare till en ny definition av rättvisa som hjälper oss motverka diskriminering mot vissa grupper.

Rättvisedefinition två: Rättvisa uppnås när personer med liknande kvalifikationer har samma sannolikhet att få ett positivt utfall

Att modellen favoriserar studenter från privatskolor kan delvis förklaras av att privatskolorna håller högre utbildningstakt än de kommunala skolorna och många sökande därifrån därför har en mer solid utbildningsgrund att stå på. John, från exemplet ovan, är dock ett exempel på att även sökande från kommunala skolor kan vara kvalificerade. Jag förväntar mig att antalet antagna studenter från de privata skolorna kommer vara högre än från de kommunala skolorna just på grund av att fler studenter vid privatskolorna är kvalificerade.

Jag anser att modellen är rättvis så länge alla kvalificerade studenter har samma chans att bli antagna oavsett vilken skola de tidigare gått på. Låt säga att vi har 100 privatskolestudenter av vilka 80 är kvalificerade och vi har 10 studenter från kommunala skolor av vilka 6 är kvalificerade. Jag anser att modellen är rättvis om det är lika stor sannolikhet att bli antagen för en kvalificerad student från en kommunal- som från en privat skola. Om exempelvis 50% av de 80 privatskolestudenterna blir antagna så strävar vi efter att 50% av de 6 kommunalskolestudenterna också ska antas.

Det vi har uppnått är alltså att kvalificerade studenter har lika stor sannolikhet att bli antagna oberoende av vilken skola de kommer från. Resultatet blir dock att vi även i fortsättningen kommer anta betydligt fler studenter från privatskolor än kommunala skolor. Jag frågar mig då, är det rättvist att föräldrarnas inkomst det år barnet fyller sex år ska avgöra huruvida barnet som 19-åring kommer ha en chans att bli antagen till en välrenommerad skola som kan ge en kick-start till en lysande karriär? För det är det som händer när man på kommunal skola hamnar efter redan från dag ett genom att man hamnar i en grupp med lägre utbildningstakt och färre avancerade kurser.

Rättvisedefinition tre: Rättvisa uppnås när alla demografiska grupper har samma möjlighet till positiva utfall

Vi vandrar vidare och jag beslutar mig för att alla studenter måste få en likvärdig chans oavsett vilken skola de gått på innan. Jag tänker därför att det vore mer rättvist att anta procentuellt lika många sökanden från kommunala som från privata skolor. Det vill säga om jag får 100 sökande studenter från privatskolor och 50 sökande studenter från kommunala skolor så skulle jag anse att modellen var rättvis om lika många procent blev antagna från de båda grupperna, exempelvis när 20% från de båda grupperna (20+10) blir antagna. Jag frågar mig då om detta verkligen är rättvisa med tanke på att Jimmy som gått på en kommunal skola får en plats medan Jane som gått på en privatskola inte får en. Jane är mer kvalificerad än Jimmy men Jimmy blir inkvoterad. Vi har alltså lyckats uppnå rättvisa på gruppnivå men misslyckats med att uppnå rättvisa på individuell nivå.

Rättvisedefinition fyra: Rättvisa uppnås på individuell nivå

Nu börjar vandringen nå sitt slut. Jag har nu landat i tanken att rättvisa bäst definieras på individnivå. Lika sökanden ska behandlas lika. Jag frågar mig nu hur jag avgör vilka variabler som har störst påverkan på om de sökande ska anses lika eller inte? Jane har läst franska i sex terminer plus att hon blivit hemskolad i franska som modersmål i två terminer, Jimmy har läst franska i fyra terminer plus att han blivit hemskolad i franska som modersmål i två terminer, John har läst franska i sex terminer och inte blivit hemskolad. För att kunna uppnå individuell rättvisa måste vi avgöra vilka två studenter som ska få samma utfall (antagen eller inte antagen) baserat på vilka som är mest lika varandra. Vad är rättvist? Att anta endast Jane? Att anta Jane och Jimmy eller att anta Jane och John? Individuell rättvisa bygger på att vi behandlar likvärdiga individer likvärdigt men svårigheten ligger i att avgöra vilka som är likvärdiga.

Det guldkorn jag hoppas du bär med dig efter denna rättvisans vandring är följande: för att vi ska kunna uppnå rättvisa behöver vi först definiera rättvisa – och detta kan göras på flera olika sätt.  Beslutet om vilken definition din organisation ska leva efter bör tänkas igenom noggrant och involvera betydligt fler personer än en ensam Data Scientist.

/Therése Svensson

 

För dig som vill veta mer, rekommenderas att titta på Episode 2 av video-serien ”When Tech Sparks”. Avsnittet heter ”Trust and Bias with Data and AI”, och där talar Therese Svensson om detta.  https://event.on24.com/wcc/r/2726453/CB385D7529C2A8CB0AE85E3C9CE6DBA1

Data Science & AI Ethics Solution Specialist

More Analytics stories

Lära för (arbets)livet – AI med New Minds

“Om du vill ge någon en bott, lär upp den först. Men om du vill ge någon en bott för livet, så lär denna någon hur man lär upp botten.” En av de trender som vi tror kommer fortsätta är att saker omkring oss blir mer och mer intelligenta. Vi kommer allt oftare stöta på […]

Läs mer

Framtidens energisamhälle är redan här!

Dagens överflöd och acceleration av ny teknik möter klimatets panikbromsande kamp mot klockan. Det är i denna dystopiska korsning som vi hittar såväl förtvivlan, ignorans som domedagsprofetior. Men i denna korsning möter världens viktigaste problem också hopp, innovation och god energi. Det är inte motsatta poler eller från varsin kortsida, skrikandes på varandra, som vi […]

Läs mer

AI-modeller som säkrar AI-modeller

Att IBM för tredje året i rad utsetts till ett av världens mest etiska bolag av Ethisphere grundar sig bland annat i vårt arbete med att förespråka och möjliggöra implementation av etisk och tillförlitlig AI. Men vad menas då med begreppet ”etisk AI”? Vi på IBM menar förklarbarhet, rättvisa, teknisk robusthet, transparens och integritet. Det […]

Läs mer