Bronnen bij Menswetenschappen, regels: data mining

De meest objectieve manier om sociologie te bedrijven is door middel van data mining. Dit is een term uit de informatie-technologie voor methodieken om uit een, meestal (zeer) grote, verzameling gegevens een patroon of trend te halen, die niets te maken hoeft te heeft met de reden waarvoor de gegevens verzameld zijn. Het is voor de sociologie "ontdekt" door de econoom Steven Levitt, in zijn boek Freakonomics (2005)  (Wikipedia), en vindt door de voortgang in het gebruik van databases steeds ingang.

Het eerste voorbeeld gevonden sinds het opstellen van de menswetenschappelijke regels (mei 2009) (Leids universiteitsblad Mare, 03-12-2009, door Bart Braun):
  Boeven voorspellen

Door slim te spitten in een database met misdadigers, is het mogelijk om uitspraken te doen over iemands toekomstige carrière. ...

Tussentitel: Opgepakt voor doodslag? Grote kans op eerdere veroordeling wegens racisme

...   Als een bepaald soort misdadigers een sterk verhoogd risico loopt om zich aan te sluiten bij de maffia, dan willen criminologen en beleidsmakers dat heel graag weten. Daar kan dan bij de reclassering extra aandacht aan besteed worden, bijvoorbeeld. Het grote probleem is: hoe weet je dat? Je kunt veroordeelde topcriminelen ondervragen, maar die staan niet bekend om hun spraakzaamheid.
    Je kunt ook aan de slag gaan met de gegevens die je al hebt. De politie heeft een database met alle Nederlanders die sinds 1986 zijn veroordeeld voor een misdrijf, of in de afgelopen zes maanden verdacht zijn van een misdrijf. Ongeveer een miljoen mensen, samen met hun demografische gegevens en criminele verleden. Een gigantische berg data, waarin een gewone sterveling door de bomen het bos niet meer kan zien.
    Een computergestuurde techniek om wegwijs te worden in een oerwoud van gegevens heet data mining. Verzekeraars doen het met hun klantenbestand, om makkelijker fraudeurs te kunnen vinden. Supermarkten doen het met boodschappen, Bol.com geeft u boekentips door aankopen te vergelijken met die van andere mensen die dezelfde boeken kopen. De politie zou het ook kunnen doen.
    Informaticus Tim Cocx promoveerde woensdag op zulke technieken voor criminaliteitsbestrijding. ‘Een programma dat zoekt naar onverwachte verbanden die vaak voorkomen’, zo licht hij toe: ‘Wordt iemand die graffiti spuit later een verkrachter, of juist niet?’
    In zijn proefschrift staat maar een handjevol van zulke relaties. Mensen die opgepakt worden voor doodslag, zijn opvallend vaak al eerder in aanraking gekomen met de politie vanwege racisme. De vrouwen in de database zijn significant vaker verslaafd aan drugs dan mannen. Joyriders worden vaker veroordeeld voor het overtreden van de arbeidswet. ...

Natuurlijk zijn er vanuit politiek-correcte kringen nu nog bezwaren tegen deze techniek voor dit soort toepassingen, maar net als met DNA zal dat waarschijnlijk door de effectiviteit ervan overwonnen worden.
    Natuurlijk veroorzaakt alleen al het idee van zulk onderzoek politiek-correcte bezwaren:
  Cocx is terughoudend om over zijn onderzoek te praten. ‘Dat heeft ermee te maken dat het niet onze gegevens zijn. Maar ook met het activistische karakter van mensen die hier moeite mee hebben.

De reden van de politiek-correcte bezwaren is dat dit soort onderzoek niet naar opvattingen kijkt, en dus heel politiek-incorrecte uitkomsten kan opleveren.

Het tweede opgedoken voorbeeld levert zo'n politiek-incorrecte uitkomst, aangaande de effecten van etnische vermenging op grotere schaal (Volkskrant.nl, 14-08-2009, rubriek Science Palooza, door Tim van Opijnen  ):
  Etnisch conflict management

Etnische groepen moet je scheiden of compleet integreren, blijkt uit onderzoek. Aan beide oplossingen zitten nare kantjes maar niets doen is op een tijdbom zitten.

Tussentitel: De enige informatie die je nodig hebt is de demografie

In de 20ste eeuw zijn meer dan 100 miljoen mensen omgekomen als gevolg van gewelddadige conflicten tussen groepen met verschillende etnische achtergronden. Conflicten in voormalig Joegoslavië, Rwanda en het nog altijd voortslepende conflict in Darfur tonen aan dat we nog maar slecht begrijpen hoe conflicten ontstaan en hoe ze zijn te vermijden. Terwijl je met een vrij simpel wiskundig model een heel eind blijkt te kunnen komen.
    Aannemende dat het voorkómen van conflicten het doel is, lijkt het voor de hand te liggen dat je eerst de oorzaak moet begrijpen. De realiteit is alleen zeer complex, en het blijkt dat aan ieder conflict een heel scala aan factoren ten grondslag ligt. Zo is de oorsprong van het conflict tussen Hutu’s en Tutsi’s in Rwanda in de jaren negentig gedeeltelijk terug te voeren tot het einde van de Eerste Wereldoorlog toen de Tutsiminderheid de macht in handen kreeg en etnische identificatiepapieren verplicht werden. Een opeenstapeling van frustraties, gevoed door voorkeursbehandelingen, gewelddadige machtswisselingen, een dramatische economie, de uitputting van het land door veeteelt en landbouw en het bewust onderstrepen van etnische verschillen, leidde uiteindelijk tot een apocalyptische uitbarsting van geweld.
    Zo kan je alle conflicten in de wereld afgaan om tot de conclusie te komen dat er niet één simpele oorzaak aan te wijzen is. Om dit soort complexe problemen beter te begrijpen worden op basis van allerlei factoren wiskundige modellen gebouwd om conflicten te analyseren. Maar die wiskundige modellen lopen tegen hetzelfde probleem aan: elk conflict vraagt om z’n eigen specifieke model en daarmee zijn modellen gebaseerd op het ene conflict onbruikbaar om voorspellingen te doen voor het andere conflict.
    Recentelijk is daar verandering in gekomen. Om te voorspellen waar haat tussen verschillende bevolkingsgroepen resulteert in geweld, blijkt het niet nodig om de oorzaak van het conflict te kennen. Je hoeft geen analyse te maken van de lokale economie of het karakter van de mensen.
    De enige informatie die je nodig hebt is de demografie van een gebied, oftewel de verdeling van etnische groepen over het gebied.
    Yaneer Bar-Yam en zijn collega’s van het New England Complex Systems Institute in Cambridge in de VS, laten zien dat etnische verschillen tussen groepen tot conflicten leiden als de groepen maar gedeeltelijk gemengd zijn. Zo stellen ze in hun model dat als groepen goed geïntegreerd en volledig gemengd zijn, er geen coherente groepen bestaan die kunnen twisten over publieke ruimtes. Aan de andere kant van het spectrum bestaan groepen met goed gedefinieerde grenzen die volledig gescheiden van elkaar leven. De groepen komen elkaar maar weinig tegen en conflicten zijn daardoor onwaarschijnlijk.
    Maar wanneer groepen gedeeltelijk zijn geïsoleerd zonder duidelijk grenzen liggen er problemen op de loer. Immers, een groep met een specifiek etnische achtergrond en daarbij horende regels zal van iedereen, in ieder geval in de publieke ruimtes, verwachten dat zij zich naar de culturele normen van de heersende groep conformeren. Daar waar onduidelijkheid bestaat over wiens regels nu eigenlijk zouden moeten domineren ontstaan conflicten.
    Om deze aannames te testen, bouwden Bar-Yam en collega’s een wiskundig model met demografische informatie als belangrijkste factor. Vervolgens werd het model gevraagd te voorspellen waar geweld was opgetreden tijdens de conflicten in voormalig Joegoslavië en tijdens conflicten in India. Voor beide landen werd op zeer nauwkeurige wijze door het model aangegeven op welke locaties geweld was uitgebroken. In hoeverre deze aanpak bruikbaar is voor andere gebieden zal zich moeten uitwijzen maar het laat zien hoe de mate van integratie van verschillende groepen een krachtige voorspeller van het uitbreken van geweld kan zijn.
    De oorzaak van haat en geweld tussen groepen zal per gebied verschillen, maar het blijkt dat etnisch geweld een collectief gedrag is dat voortkomt uit krachten die je kunt begrijpen. Dat betekent dat je daarop ook beleid kunt afstemmen; of je zorgt ervoor dat groepen compleet integreren of je scheidt ze van elkaar. ...

De essentie van de uitkomst van dit onderzoek is deze: voor de onderzochte situaties is er bij goede benadering één factor die het al dan niet optreden van een etnisch conflict bepaalt: de etnisch-geografische of demografische verdeling.
    Een karakteristieke politiek-correcte reactie op de Volkskrant-website onder het artikel:
  InaDijstelberge schreef op 14-08-2009 14:45
Even de link gevolgd
www.necsi.ed u/research/ethnicv...

=De enige informatie die je nodig hebt is de demografie =
volgens de makers:
Social and economic factors are important in violence, still, our model shows that the distribution of the population can be the underlying condition that fosters conflict and violence.

Niet dus.

De problemen in de wereld zijn niet etnisch te verklaren, hoe graag mensen dit ook willen geloven.

Ook als de feiten anders uitwijzen, zeg je gewoon: "Het is niet zo".
    Het idee van data-mining is al bekend uit de sciencefiction, zoals de projectomschrijving van bovenstaande onderzoek laat zien  :
  NECSI's ethnic violence research demonstrates an overall approach to understanding social behaviors based upon the collective patterns of human interactions. This is a real world version of the Isaac Asimov's "Psychohistory" --- the science of understanding how groups of individuals interact. While specific concepts that Asimov developed are not necessarily valid, the idea that such a science can exist has now been demonstrated.

Het idee dus al gebruikt door Isaac Asimov als "psychohistory", in de boeken van de Foundation serie  (Wikipedia).
    Deze bron geeft ook een zicht op het belang van dit soort werk:
  Many people feel that human freedom requires unpredictability, however, to understand how group behavior can lead to violence is an important opportunity to intervene in critical problems of the human condition.
    We are hopeful that our work will help enable relief of the severe problems of dislocation, suffering and tragic death that accompanies etnic, cultural and religious conflict.

Politiek-correcten, die bezwaar hebben tegen vooruitgang, zijn doodgewoon barbaren.

Een tweede voorbeeld van de politieke-incorrectheid van de uitkomsten (de Volkskrant, 18-06-2010, van verslaggever Robin Gerrits):
  'Veel culturen in de klas is slecht voor leerlingen'

Het idee dat gemengde scholen beter zijn voor leerlingen is populair. Maar volgens Dronkers is het tegendeel waar.

Leerlingen op middelbare scholen met veel verschillende culturen presteren duidelijk slechter dan leerlingen op scholen met een meer homogene populatie. Dat geldt voor zowel de allochtone als de autochtone leerlingen op die school.
    Dit betoogde onderwijssocioloog Jaap Dronkers donderdag in zijn inaugurele rede als hoogleraar aan de Universiteit Maastricht. ‘Voor scholen geldt niet: hoe meer gemengd, hoe beter. Met dat populaire idee wil ik afrekenen.’
     Dronkers baseert zijn conclusies op data uit grootschalig internationaal vergelijkend onderzoek naar schoolprestaties van 15-jarigen, PISA (2006). Hij onderzocht de gegevens en sloot andere mogelijke verklaringen voor de verschillen, zoals het opleidingsniveau van de ouders, uit. Dronkers stelt dat de resultaten meer achterblijven als de etnische diversiteit op een school groter is.
    Bovendien valt op dat met name leerlingen met een islamitische achtergrond de resultaten doen dalen. ‘Leerlingen afkomstig uit islamitische landen hebben een substantiële achterstand in taalscores op vergelijkbare migrantenleerlingen afkomstig uit andere herkomstlanden, en die achterstand kan niet met de sociaal-economische individuele achtergrond, de schoolkenmerken of de kenmerken van het onderwijsstelsel worden verklaard.’
    De onderwijssocioloog gebruikte voor de analyse PISA-gegevens van 9.279 migrantenkinderen (uit 35 verschillende herkomstlanden) en 76.569 leerlingen in 15 westerse landen. ...

Dit was natuurlijk gelijk aan een keiharde vloek in de multiculturele kerk, die predikt dat vermenging van culturen een meerwaarde heeft - in alle opzichten. Aangezien vrijwel de gehele sociologie lid is van deze kerk, zou dit resultaat nooit uit andere onderzoek dan data-mining hebben kunnen komen.

Een voorbeeld van het soort gegevens waaruit toekomstige resultaten kunnen komen (de Volkskrant, 02-08-2010, door Wouter Keuning):
  'Zoekopdrachten kunnen voorspellen'

Tel alle zoekopdrachten over een onderwerp bij elkaar op en je kunt voorspellingen doen. Over griep bijvoorbeeld.

Consumenten gebruiken zoekmachine Google zo intensief dat al hun zoekopdrachten kunnen helpen om voorspellingen te doen, zegt Hal Varian, hoofdeconoom bij Google.

Wat zegt het als ik op Google op zoek ga naar informatie over Jan Smit?
‘Een individuele zoekopdracht zegt niets, maar als je al die zoekopdrachten bij elkaar ‘optelt’, zoals wij doen in onze database Google Insights for Search, blijken ze een voorspellende waarde te hebben.’

Kunt u voorbeelden geven?
‘Neem griep. De zoektocht naar griep gerelateerde onderwerpen op Google blijkt behoorlijk nauwkeurig te voorspellen wanneer griepepidemieën zich voordoen (zie grafiek, red.). Ook blijkt dat de werkloosheidscijfers, in elk geval in de Verenigde Staten, vrijwel exact overeenkomen met de zoektocht naar onderwerpen over werkloosheid. Het mooie van Insights for Search is dat het om actuele zoekopdrachten gaat, terwijl je bij officiële gegevens over werkloosheid, autoverkopen, vakantiebestemmingen en ga zo maar door, altijd een tijdje moet wachten tot ze er zijn. Voor alle duidelijkheid: we zeggen niet dat we alles kunnen voorspellen, maar wel dat we voorspellingen beter kunnen maken.’

Dat veel mensen zoeken naar Maxime Verhagen betekent toch niet dat ze op hem gaan stemmen?
‘Daarom is het ook niet voor alle situaties een even goed hulpmiddel. Maar om nog een voorbeeld te geven: de zoekopdrachten van consumenten naar deelnemers aan het Eurovisiesongfestival voorspellen al twee jaar op rij vrijwel nauwkeurig de uiteindelijke uitslag.’

Hoe representatief zijn de uitkomsten?
‘In een land als Nederland heeft 90 procent van de mensen internet. Dan is het dus zeker representatief.’   ...

Het voorbeeld van griep is vermoedelijk niet correct: eerst is er de griep, en dan pas de zoekopdrachten.

Een grappig voorbeeld van data mining is eentje dat de redactie kende van een column van een Amerika-correspondent, maar waarvan de bron verloren is gegaan - een internetzoektocht op de terminologie leverde een alternatief op. Eerst de feiten waarom het gaat (academischeboekengids.nl, opgeslagen 19-08-2010  , door Ben Vollaard, universitair docent aan de Universiteit van Tilburg):
  Waarom Egyptenaren vaker foutparkeren dan Denen

Foutparkerende buitenlandse diplomaten in New York vertellen veel over de hardnekkigheid van corruptie.

In New York kunnen diplomaten parkeren waar ze willen. Parkeerboetes hoeven ze niet te betalen. Tot voor kort waren er ook geen andere sancties. Verkeerd geparkeerde auto’s van diplomaten verstopten de straten rond de gebouwen van de Verenigde Naties en voor restaurants door heel Manhattan.
   Het parkeergedrag van diplomaten in New York is ... een bron van ergernis voor andere bewoners en het stadsbestuur. ... blijkt ... dat niet alle diplomaten zich aan foutparkeren bezondigen. Nederlandse vertegenwoordigers bijvoorbeeld niet, Deense ook niet. Italiaanse diplomaten wel, Egyptische nog veel vaker. De foutparkeerders komen stuk voor stuk uit corrupte landen; de diplomaten die zich netjes aan de regels houden, komen juist uit landen met weinig corruptie.   ...

In de column werden Zweden genoemd als degenen die vrijwel nooit foutparkeerden, hier de Denen. Waar het omgaat, is dat iedereen kan aanvoelen dat dit gedrag van diplomaten in het buitenland iets zegt over de sociale sfeer in het land van oorsprong. Alle in New York gestationeerde diplomaten verkeren in dezelfde sociale omstandigheden, en eventuele significante groepsverschillen in sociaal gedrag moeten dus uit het land van origine stammen. Wat in dit geval ook  nog eens een door andere onderzoeken bekend resultaat oplevert, waarmee dus de beide soorten onderzoeken elkaar bevestigen. Hetgeen dé manier is waarop natuurwetenschappers hun resultaten beoordelen: zijn er bevestigende verbanden tussen verschillende onderzoeken.
    De gegevens verzameld in het kader van het verkeersonderzoek, hebben dus de waarde van een onbedoeld experiment in het kader van niet-verwant sociologisch onderzoek - citerend uit het artikel:
  Handige economen gebruiken hun parkeergedrag – en andere goedgekozen thema’s – als ‘natuurlijk experiment’ en blazen de sociale wetenschappen nieuw leven in.

Het is ook op te vatten als een experiment. Daarbij worden diplomaten uit totaal verschillende landen, van IJsland tot Nigeria, allemaal in dezelfde situatie gebracht. De regels zijn hetzelfde, de handhaving ervan ook. Dan blijkt in het experiment dat niet alle diplomaten zich aan foutparkeren bezondigen. Nederlandse vertegenwoordigers bijvoorbeeld niet, Deense ook niet. ...

De auteur haalt zijn informatie uit diverse boeken over dit onderwerp, het voorgaande uit Raymond Fisman en Edward Miguel, Economic Gangsters. Corruption, Violence, and the Poverty of Nations.
    Uit een ander boek (zie ook de lijst verderop) komt een voorbeeld dat laat zien dat men voorzichtigheid moet betrachten omtrent eventuele secundaire factoren
  Om een voorbeeld te geven: voormalige koloniën doen het vaak beter dan hun niet-gekoloniseerde buurlanden. Blijkbaar profiteren landen van hun koloniale erfenis, bijvoorbeeld in de vorm van infrastructuur en bestuursapparaat. Maar een andere verklaring voor hetzelfde resultaat is ook mogelijk. Koloniale mogendheden kozen de landen uit met de meeste grondstoffen, goede toegang tot zee en andere gunstige kenmerken. Deze landen doen het dankzij dergelijke gunstige condities nog altijd relatief goed; de koloniale tijd heeft daar niets mee te maken.
    ... Het onlangs verschenen ‘Colonialism and Modern Income’ van James Feyrer en Bruce Sacerdote is een mooi voorbeeld van sociaalwetenschappelijk onderzoek ‘nieuwe stijl’. In dit artikel vergelijken de auteurs de economische groei van een groot aantal eilanden, waaronder de Comoren en de Bermuda-eilanden. De kolonisten lieten sommige eilanden links liggen omdat deze door de heersende zeewinden niet of nauwelijks per zeilschip te bereiken waren. Het verschil tussen wel of niet gekoloniseerde eilanden zat dus niet zozeer in hun aantrekkelijkheid, maar in de vraag of men ze goed per schip kon bereiken. Dankzij het slimme onderzoeksontwerp is de relatief hoge economische groei van voormalige koloniën maar op één manier te verklaren: door de koloniale erfenis.

Een voorbeelden uit eigen wereld:
  Zo hebben economen de afgelopen tien jaar met hun oog voor natuurlijke experimenten eerdere conclusies van veel criminologisch onderzoek ondergraven. Zij toonden bijvoorbeeld aan dat méér politie wel degelijk leidt tot minder criminaliteit – in tegenstelling tot wat criminologen altijd dachten. Dezen hadden er namelijk geen rekening mee gehouden dat politie vooral daar wordt ingezet waar de criminaliteit zich ongunstig ontwikkelt. Omdat meer criminaliteit meer politie oplevert, is het niet verrassend dat de criminologen, zonder een goed natuurlijk experiment dat hiervoor corrigeert, niet opmerkten dat meer politie juist minder criminaliteit oplevert.
    Het wapen van de economen was een goed gekozen onderzoeksontwerp: toevallige variatie in politiesterkte als gevolg van bijvoorbeeld de aanslag op de Londense metro in 2005. Hierdoor moesten de buitenwijken van Londen veel agenten afstaan aan het stadscentrum. Pas maanden later kwamen deze agenten langzaam weer terug. Criminelen, groot en klein, bleken het tijdelijk ontbreken van politietoezicht in de buitenwijken goed te gebruiken om vaker te stelen en geweld te gebruiken.

En direct in het vervolg:
  Soortgelijke lessen volgden over het effect van gevangenisstraffen. Daarvan blijkt een duidelijke dreiging uit te gaan, zo toonde een natuurlijk experiment in Italië aan. Door overbevolking in de gevangenissen werden gedetineerden in 2006 massaal vervroegd vrijgelaten. De kwijtgescholden jaren moesten zij alsnog uitzitten als zij weer voor een vergrijp werden opgepakt. Deze dreiging bleek een sterke rem op crimineel gedrag.

Hier een lijst van literatuur die de auteur noemt:
  Raymond Fisman en Edward Miguel, Economic Gangsters. Corruption, Violence, and the Poverty of Nations.
J. Feyrer en B. Sacerdote. Colonialism and Modern Income. Islands as Natural Experiments, Review of Economics and Statistics 91/2 (2009) 245-262.
E. Miguel, S.M. Saiegh en S. Satyanath. National Cultural Norms and Soccer Violence. NBER Working Paper No. W13968. Cambridge, Mass. 2008 www.nber.org.
Joshua Angrist en Jörn-Steffen Pischke, Mostly Harmless Econometrics. An Empiricist’s Companion

De auteur constateert dat dit soort werk nu nog voornamelijk door econometristen, de rekenaars in de economische wetenschap, wordt gedaan, en trekt de terechte conclusie in de koptitels :
  Econometrie nieuwe stijl
...
... Handige economen gebruiken ... parkeergedrag – en andere goedgekozen thema’s – als ‘natuurlijk experiment’ en blazen de sociale wetenschappen nieuw leven in.

Voorbeelden gebruikt door deze website voor het geval van culturele vermenging zijn te vinden hier  .
    Een opruimactie leverde een nog oudere bron op van het verhaal. We houden dit in de vorm van een addendum, om nadruk te leggen op het gebrek aan bereidheid om dit soort cruciale informatie op te nemen. Want de uitkomsten van dit onderzoek zouden, vertaald naar de natuurkunde, reden zijn voor de toekenning van een Nobelprijs, en het overhoop gooien van een flink deel van de theorie - en het verwijderen van al die politiek-correcte ideeën over veranderlijkheid en gelijkwaardigheid van culturen (de Volkskrant, 16-08-2006, door David Brooks (The New York Times)):
  Een cultuur verander je niet van buitenaf

Diplomaten in New York scoren een hoop onbetaalde parkeerbonnen, maar niet iedereen scoort ze in hetzelfde tempo. Volgens de economen Raymond Fisman en Edward Miguel verzamelen diplomaten uit landen die hoog genoteerd staan op de corruptie-index van Transparency International gigantische aantallen bonnen, terwijl diplomaten uit landen die laag genoteerd staan er haast geen krijgen.
    In de jaren 1997-2002 kreeg de vertegenwoordiging van Koeweit bij de Verenigde Naties 246 parkeerbonnen per diplomaat. Ook diplomaten uit Egypte, Tsjaad, Sudan, Mozambique, Pakistan, Ethiopië en Syrië gingen enorm vaak in de fout. Maar diplomaten uit Zweden, Denemarken, Japan, Israel, Noorwegen of Canada kregen nooit een bon.
    De diplomaten hoefden geen boete te betalen voor foutparkeren, dankzij hun diplomatieke onschendbaarheid. Maar de mens wordt ook gevormd door culturele en morele normen en waarden. Als je een Zweed bent en je ziet een plekje pal voor een brandkraan, dan ga je daar niet staan. Je bent nu eenmaal Zweed.   ...

Het is gewoon een verschil in de mate van beschaving - de reden dat deze resultaten verdonkermaand worden.

Weer een voorbeeld van de politiek zeer incorrecte uitkomsten van onderzoek volgens de methode van data-mining: (DePers.nl, 18-10-2010):
  Antropologie | Wild wordt beschaafd

‘Beschaving kent een vaste ontwikkeling’

De menselijke samenleving kent zoiets als een ‘natuurlijke evolutie’. Dat blijkt uit statistisch onderzoek naar beschavingen in Azië en de Stille Zuidzee.

Menselijke beschavingen ontwikkelen zich volgens een vast patroon, van stammen, via koningschap naar (zoiets als) democratie. ... een halve eeuw geleden was iedereen die dat beweerde verdacht. Geloven in vaste stadia betekende immers geloven dat de westerse beschaving het hoogste stadium vertegenwoordigde – en dat was dus koloniaal denken. ... Maar de discussie bleef – en Britse antropologen besloten de vraag te beantwoorden langs statistische weg.
    Tom Currie en zijn team construeerden een stamboom van vierhonderd verwante talen, verspreid over de Indische Oceaan, Zuidoost-Azië en de Stille Zuidzee. Die stamboom biedt informatie over de verwantschap van de betreffende volken. Daarna vulden de onderzoekers in die stamboom de diverse typen samenleving in van die volken, en door de stamboom ‘af te lopen’ konden ze ‘aflezen’ hoe bepaalde culturen zich in de loop van honderden jaren hadden ontwikkeld. Conclusie: er bestaat zoiets als een vast ontwikkelingspatroon: stammen – koningen – een vorm van democratie. ...

Tegen de meest geliefde opvattingen van een groot deel van de sociologen, vrijwel alle antropologen, en een flink deel van de politiek, bestuurlijke en intellectuele elite en alle multiculturalisten. Die zijn er ideologisch van overtuigd dat de islamitische cultuur op hetzelfde punt staat als de westerse, en daarna in steeds meer stappen naar beneden alle andere culturen tot aan die van de Papoea's enzovoort.

Een misschien wat minder gewenste toepassing (de Volkskrant, 18-06-2013, door Arie Elshout):
  Interview | Tim Prescott (28), data-analist in #TeamObama

Whizzkids vinden in 'Big Data' exact wat zij zoeken

Als data-analist was hij mede van invloed op Obama's herverkiezing. De onderzoeksmethoden van Tim Prescott en de zijnen worden intussen steeds verfijnder, volgens critici 'Orwelliaans'.


...     Tim Prescott werd heel belangrijk voor Obama, samen met andere dataspecialisten en statistici. Een uitzonderlijk groepje mannen en vrouwen, stuk voor stuk piepjong en bevlogen. Ze werden gezien als nerds die van Mars leken te komen en heel lange dagen maakten in 'De Grot', een ruimte zonder ramen.
    Elke dag om half vijf 's middags ging het licht uit en dansten ze vijf minuten onder de discobal op een mix van Gangnam Style en een telefonische campagneboodschap. Hoewel een beetje excentriek, leverden ze een beslissende bijdrage aan de herverkiezing van de president. Was het in 2008 de droom die Obama aan de overwinning hielp, vier jaar later was het de technologie.
    In de 21ste eeuw draait alles om Big Data, zei Obama's triomferende campagnemanager Jim Messina achteraf. Data-analyse ontwikkelt zich zelfs zo snel dat het velen beangstigt. Zie de ophef over geheime spionageprogramma's, waarbij de Amerikaanse overheid gegevens van telefoon- en internetbedrijven naloopt op zoek naar terreurcomplotten. Behalve door regeringen worden datatechnieken ook gebruikt door bedrijven op zoek naar klanten, non-profitorganisaties op zoek naar oplossingen voor maatschappelijke problemen en politici op zoek naar kiezers.
    Tim Prescott en zijn vrienden bereikten wat dit laatste betreft zo'n hoge mate van verfijning dat Peggy Noonan, columniste van The Wall Street Journal, bekende dat het haar speet denigrerend over 'Marsbewoners' te hebben gesproken. Verkiezingscampagnes zullen nooit meer hetzelfde zijn, concludeerde ze. 'Petje af.'
    Durfkapitalisten vochten om hen, zei niemand minder dan topman Eric Schmidt van Google. Schmidt won dat gevecht: Obama's datateam heeft met geld van hem een nieuw bedrijf opgericht, Civis Analytics. Het is gevestigd in Chicago met een kantoor in Washington DC. Met zijn expertise wil het ondernemingen en non-profits helpen met gebruik van data betere en gerichtere besluiten te nemen. Maar het wil meer. 'Wij lossen 's werelds grootste problemen op met Big Data', is de missie - die getuigt van Obamiaanse ambitie en idealisme. ...
    ... Prescott ging daarna weer naar Nederland om in 2011 te worden teruggevraagd door Wagner, inmiddels hoofd Analytics van Obama's herverkiezingscampagne. De uitdaging was groot: Obama was door vier jaar regeerpraktijk en een kwakkelende economie niet meer de stemmenmagneet van 2008.
    Om opnieuw te kunnen winnen, mocht geen stem verloren gaan. Het werd het begin van een welhaast militaire operatie, waarbij Wagners mensen dank zij Big Data met grote precisie bepaalden waar de potentiële Obama-kiezers zaten. Die werden door een vrijwilligersleger in steden, buurten en dorpen aangemoedigd om echt te gaan stemmen. Hoewel media doorgaans de meeste aandacht besteden aan de luidruchtige air war, die met negatieve advertenties wordt uitgevochten op tv en radio, was ditmaal ook deze stille groundgame van cruciaal belang.
    Prescott was een van Obama's speerpunten in de veldoperatie. Hij zat in de slotfase in een scharrig kantoor in Columbus, de hoofdstad van Ohio. Het was de moeder aller swingsstaten en toen duidelijk werd dat Ohio belangrijker was dan al die andere staten bij elkaar, was het even schrikken voor hem. Maar het liep goed af. De data-analisten en vrijwilligers namen het electoraat in de tang en persten dat uit tot de laatste Obama-stem. De president won met een verrassend ruime voorsprong.

Hoe wisten jullie mogelijke aanhangers van de president zo enorm precies te lokaliseren?
Prescott: 'In de VS staat iedere kiezer geregistreerd. Die gegevens zijn voor iedereen toegankelijk. Wat vermeld wordt, varieert per staat, maar doorgaans zijn dat naam, adres, geslacht, leeftijd en soms de etniciteit. Omdat je weet waar de kiezers wonen, heb je tevens een idee wat hun gemiddelde inkomen is. Ook werden interviews afgenomen over partijvoorkeur.
    'Al deze data gebruikten we voor computermodellen waarin we probeerden voor ieder individu te anticiperen wie van de twee presidentskandidaten hij of zij zou steunen, Mitt Romney of Barack Obama. Vroeger werden kiezers in segmenten onderverdeeld, zeg de voetbalmoeders. Die werden van bovenaf benaderd, als collectief. Wij zakten af naar het individuele niveau. En dat is belangrijk omdat binnen segmenten altijd alsnog grote verschillen bestaan. Zo konden we veel nauwkeuriger te werk gaan. Wie ben jij als persoon? Heeft het zin je met jou te praten en wat is in jouw geval de juiste boodschap? Het waren landelijke verkiezingen maar we voerden een campagne alsof het lokale waren, vanwege die individuele benadering.'

Van iedere kiezer in Amerika bepaalden jullie hoe waarschijnlijk het was dat hij Obama zou steunen en de moeite zou nemen te gaan stemmen. Hij werd gerangschikt op een schaal van 1 tot 100.
'Na 2008 werkte Dan Wagner jaren achtereen door aan het verfijnen van de data en werden de voorspellende modellen beter, beter en beter. Hoe we dat deden, blijft geheim.'

Een Obama-vrijwilligster viel het op dat de Romney-mensen bij iedereen aanbelden, terwijl haar was gezegd dat zij in diezelfde straat maar bij twee deuren hoefde aan te kloppen.
'Dat is precies waarom wij van Analytics hebben bijgedragen aan de overwinning. De grote sprong voorwaarts in de campagne van 2012. Op basis van de data vergewisten we ons ervan dat we alleen met mensen contact zochten die te overtuigen waren. We moesten de 2,2 miljoen vrijwilligers zo efficiënt mogelijk inzetten en geen energie verliezen aan kiezers die niet over te halen waren. Als je die afstreept heb je meer tijd voor de kansrijke kiezer. Tijd is in een campagne meer waard dan een miljard dollar.'

Jullie werkten dus enorm gericht: micro-targeting. Messina zei dat jullie ernaar streefden 'zo dicht mogelijk bij de grond te komen'. Niet alleen hadden jullie scherp iedere potentiële kiezer in het vizier, maar ook bewerkten jullie hem het liefst via zijn buren, familie en vrienden. Ongelooflijk persoonlijk.
'Het beste is om mensen vanuit hun directe omgeving te benaderen. Als je een goed restaurant zoekt, laat je je sneller beïnvloeden door een vriend dan door een vreemde op een website of door een advertentie. De vrijwilligers begonnen te werken vanuit hun directe netwerk, eerst hun eigen straat en hun buren. Via een klop op de deur, een telefoontje of een mail. Dat levert de rijkste contacten op.
    'Een goed voorbeeld van individuele targeting is Facebook. Stel je downloadde de Obama-app, dan zagen we meteen je vrienden en die toetsten wij dan aan onze database. We keken of jij de president steunde en hoe dat met je vrienden zat. Vervolgens konden we vragen of jij je vrienden met een hoge overtuigingsscore de boodschap wilde overbrengen waarom zij echt de moeite moesten nemen hun stem uit te brengen op de president. Met andere vrienden hoefde je niks te doen.'

Hoe nieuw was het wat jullie deden?
'Eerlijk gezegd, het was ongekend, zeer sophisticated. Een groot succesverhaal.'

En nu?
'Zoals je met behulp van data heel gericht kiezers persoonlijk kunt benaderen, zo kan dat ook met andere zaken. We doen nu een project voor de College Board, de universiteitsraad. Hoe kan het dat scholieren uit lagere milieus minder vaak gaan studeren terwijl ze hoog scoren bij de SAT, de toelatingstest voor universiteiten? Het gaat om jongeren die hetzelfde potentieel hebben als anderen maar dat niet waarmaken, louter vanwege de directe omgeving waarin ze geboren zijn - waar minder mensen begrijpen hoe je op een goede universiteit komt. Dat is ongelooflijk oneerlijk. Het machtige van data is dat je kunt anticiperen welke jongeren dat probleem in de toekomst gaan krijgen, zodat je ze kunt bereiken en zeggen: je hebt deze SAT-score, daarmee kun je naar de universiteit en als je dat wilt, kun je deze financiële steun krijgen. We maken zo de maatschappij een beetje eerlijker.'

Zoals jullie met precisiewerk lagere inkomens naar de stembus kregen, zo proberen jullie nu kinderen uit de lagere milieus naar de universiteit te krijgen. Ideëel werk. Wat kunnen jullie betekenen voor commerciële bedrijven?
'Zij zitten vaak op een berg data, maar weten niet altijd zeker wat daarmee te doen. Wij kunnen helpen deze gegevens te begrijpen en leren hoe je ze kunt gebruiken om de besluitvorming te verbeteren en ieders werk efficiënter te maken.'

Eric Schmidt zei tegen Bloomberg Businessweek te verwachten dat bedrijven enorm kunnen profiteren van data-analyse als het gaat om marketing, logistiek, planning en productie. Ze kunnen gerichter en zuiniger werken. Volgens veteranen van de Obama-campagne werden zo tientallen miljoenen dollars bespaard op hun mediabudget van een half miljard dollar. Goede-doelenorganisaties kunnen beter uitzoeken waar potentiële donoren zitten en met welk verhaal en op welk moment ze die het beste kunnen benaderen.
    Niet iedereen is gerust op die micro-targeting. In de MIT Technology Review laat iemand de term 'Orwelliaans' vallen. In de Financial Times zegt een voormalig hoofd van Google in China over data-analyse: 'Het is zowel een wonderbaarlijke als beangstigende toekomst. Bedrijven met enorme hoeveelheden data weten straks meer over jou dan jijzelf. Zij zullen in staat zijn te voorspellen wat je volgende stap zal zijn.'
    Voor Schmidt zijn data-analisten gewoon mensenwetenschappers: 'Zij passen wetenschappelijke technieken toe op hoe mensen zich zullen gedragen wanneer ze geconfronteerd worden met een keus of vraag.'    ...

Gunst ... Jammer dat de menswetenschappers het zelf nog niet weten ...

Een bevestiging van de weerlegging van de uitkomst van de enquête omtrent het vreemdgaan bij Franse mannen  en vrouwen (80 procent van de mannen en 20 procent van de vrouwen zeiden dat ze vreemdgingen) (de Volkskrant, 28-08-2015, van verslaggever Thomas van der Kolk):
  Vrouwen schaars op overspelsite

Veel profielen van vrouwen op Ashley Madison zijn nep, zo werd al snel bericht nadat de site voor vreemdgangers was gehackt en de gegevens van miljoenen gebruikers op straat kwamen te liggen. Het blijkt nog veel erger te zijn: vrouwen zijn vrijwel non-existent op het netwerk.
    De Amerikaanse onderzoeksjournaliste Annalee Newitz besloot de proef op de som te nemen en dook in de berg data. De gegevens zijn vrij toegankelijk sinds hackers ze ruim een week geleden op internet publiceerden, na ze die al in juli hadden buitgemaakt. Ashley Madison is wereldwijd een van de grootste websites waarop iedereen met of zonder een vaste relatie anoniem afspraakjes kan maken. Dat er veel meer mannen dan vrouwen actief zijn op het netwerk wordt door niemand betwist, ook niet door Ashley Madison zelf.
    Het blijken er nog minder te zijn: vrouwen zijn er vrijwel niet op het netwerk. Onderzoeksjournaliste Newitz komt tot die conclusie na een grondige analyse van de beschikbare gegevens - sinds de hack is bijna alles na te pluizen. Volgens de officiële database zijn er 31.343.429 mannen geregistreerd op de site, tegenover 5.550.687 vrouwen. Newitz concludeert dat tegenover 20 miljoen actieve mannelijke gebruikers slechts zo'n 12 duizend actieve vrouwelijke gebruikers staan.
    Dat is des te opmerkelijker omdat vrouwen zich gratis konden aanmelden op de site, terwijl mannen daarvoor moesten betalen. Newitz baseert haar analyse op de metadata van de gebruikersdatabase. Ze keek naar opvallende afwijkingen in e-mail- en IP-adressen, gebruikersnamen en achternamen.    ...

Aangezien mannen (over het algemeen) vreemdgaan met vrouwen, kunnen de percentages niet al te veel uiteenlopen, en wat hier aangetoond wordt, door data mining, is dat vrouwen veel minder bereid zijn dat openlijk te doen. Zelfs als het een website betreft.


Naar Menswetenschappen, regels  , Menswetenschappen, huidig  , of site home  ·.

31 dec.2009