Sovint és difícil aconseguir que la gent respongui d'una forma veraç en les enquestes. Sortosament, hi han mètodes matemàtics que ens permeten salvar la reticència de les persones a contestar certes preguntes incòmodes.
(Aquesta entrada participa a l'Edició 6.4 Pseudoprimers del Carnaval de Matemáticas, l'amfitrió del qual és el blog PiMedios.)
PRIMERA PART
Aquesta setmana es disputarà la semifinal de la Lliga de Campions de l'AFC 2015 entre el Guangzhou Evergrande xinés i el Kashiwa Reysol coreà.
Fabio Cannavaro, entrenador de l'equip xinés, ha advertit que en les últimes setmanes ha baixat força el nivell de joc del seu equip.
Alguns asseguren que els jugadors del Guangzhou surten per les nits a passar-s'ho bé, i que per això no rendeixen als entrenaments ni als partits. Però ningú ha pogut provar que sigui cert.
El club ha contractat a investigadors privats perquè els segueixin, però fins ara els jugadors han aconseguit sempre lliurar-se de la persecució dels detectius.
Fabio està preocupat, i no sap molt bé què fer. Els hi ha cridat d'un en un al seu despatx, i els hi ha preguntat directament a cada un d'ells si són veritat els rumors que corren. Però cap d'ells ha admès que surt per les nits. I tampoc han volgut dir-li quants dels seus companys ho fan.
És ben clar que l'han mentit, i que són un grup molt unit, que no volen trair-se entre ells. Però Fabio necessita saber si el problema de les sortides nocturnes està molt estès o no entre la plantilla.
Aquesta nit, quan sopava en un restaurant de Hong Kong, ha coincidit amb Pep Vitruvi, que ha anat a la ciutat per participar en un congrés de Matemàtiques. Li ha comentat el problema que té, i Pep pensa que potser hauria de tornar a citar-los al seu despatx.
- Però em tornaran a respondre una altra vegada el mateix, Pep.
- No necessàriament. Pots aconseguir que alguns d'ells et contestin la veritat.
- Doncs no veig com. No m'agradaria d'amenaçar-los, ni tampoc d'oferir-los cap tipus de recompensa per trair els seus companys.
- Bé, hi ha una forma de fer que et diguin la veritat, sense coaccionar-los ni premiar-los...
Pots endivinar de quina forma aconseguiran que els jugadors els hi contin la veritat del que està passant?
SEGONA PART
- Anem a veure, Fabio, quines preguntes els hi has fet?
- En primer lloc, els hi he fet: Tu surts per les nits? I tots ells m'han contestat que no.
I després els he preguntat: Saps quants companys de l'equip surten a divertir-se de nit? I m'han contestat que cap.
- Bé, crec que hauries de cridar-los novament d'un en un i tornar a formular-los les mateixes preguntes.
- No ho entenc, Pep. Si torno a preguntar-los el mateix, les seves repostes seran iguals.
- Ja t'he dit que no els hi podràs subornar. I menys encara amb una simple moneda, per molt màgica o estranya que sigui.
- Estic segur que amb aquesta moneda esbrinarem el que hi està passant a l'equip.
- Doncs no sé pas de quina manera.
- Ja ho veuràs, és molt senzill. Els hi rebràs d'un en un al teu despatx, i els hi proposaràs el següent: els hi donarem aquesta moneda, i els direm que la llencin a l'aire sense que nosaltres els vegem.
Si surt el panda, hauran de contar-nos la veritat sobre si surten de gresca o no.
No obstant això, si surt la serp, hauran de contestar-nos en tot cas que sí surten a les nits.
No obstant això, si surt la serp, hauran de contestar-nos en tot cas que sí surten a les nits.
Llavors llençaran una altre cop la moneda. Si surt panda, hauran de dir-nos el nombre de jugadors que coneixen que surten de marxa, mentre que si surt la serp, podran inventar-se la xifra que vulguin entre el 0 i el 20.
Nosaltres, en cap moment, sabrem si a cada jugador particular li ha sortit panda o serp, és a dir, no sabrem si està mentint-nos o no, així que als qui els surti el panda no tindran cap por de dir-nos la veritat. Creus que acceptaran aquest tracte?
- Jo crec que sí. Sembla que el mètode no els compromet res.
- Doncs anem-hi. Digues-li al primer jugador que passi...
- ...a la fi hem acabat l'enquesta, Pep!
- Bé, ara ja podem obtenir una idea prou clara del que passa al teu equip.
- Bé, ara ja podem obtenir una idea prou clara del que passa al teu equip.
- Ah, sí? Doncs ja m'ho explicaràs, si no sabem si ens han dit la veritat o en han mentit.
.
.
- No pateixis, Fabio. Vegem els resultats de la nostra enquesta. Pel que fa amb la primera pregunta, en què directament els hi preguntem si ells surten de festa o no, hem hagut un total de 12 respostes afirmatives i 8 negatives.
La probabilitat de que surti panda o serp a la moneda és del 50%, així que ho més normal és que la meitat dels jugadors amb els que hem parlat ens hauran dit la veritat, i l'altra meitat ens hauran contestat obligatòriament que sí surten de festa.
Això vol dir que aproximadament 10 jugadors han dit que surten de festa perquè els ha sortit la serp (independentment de que sigui veritat o no). I dels altres 10 jugadors als quals els ha sortit el panda, i que per això havien de dir la veritat, 2 han contestat que surten, i 8 han fet que no surten.
Són 2 respecte de 10, és a dir, un 20%, així que en el total de 20 jugadors de la plantilla podem pensar que hi haurà només 4 que surten de festa per la nit.
Són 2 respecte de 10, és a dir, un 20%, així que en el total de 20 jugadors de la plantilla podem pensar que hi haurà només 4 que surten de festa per la nit.
- Sí, però si per casualitat han sortit 20 pandes, llavors tots haurien fet la veritat, i serien 12 jugadors els que tenen aquest problema.
- Es veritat. Però fíxa't en aquesta altra taula. Si calculem la probabilitat de que surti un nombre determinat de pandes, quan llancem 20 vegades una moneda, podem veure, primer, que l'opció més probable de totes és que surtin 10 pandes, un 17,62% de las vegades.
I, en segòn lloc, que la probabilitat de que surtin 20 pandes és del 0,0001%, és a dir, una vegada de cada milió de cops que féssim la prova. De fet, hi ha una probabilitat de gairebé un 98% de que puguin sortir 14 pandes com màxim.
De totes formes, resulta una mica arriscat extreure conclusions d'una mostra de nomé 10 jugadors. Així que ens vindran bé les contestacions que ens han donat a la segona pregunta, per veure així si les nostres suposicions són correctes.
- Pero aquí, Pep, ens trobem amb el mateix problema. Tampoc sabem quines són les dades veritables i les inventades. De fet, tenim un munt de respostes, prou diferents. N'hi han des dels que han contestat que cap jugador surt per les nits, fins als que han dit que són 20 els pendons.
- De segur que podrem fer alguna cosa, Fabio. Així, si calculem la mitjana de les respostes que hem obtingut, ens dóna que hauria 5,25 persones als què els agrada sortir. Però el coeficient de variació, que mesura la dispersió de les dades de la mostra és enorme. Caldrà treballar amb les dades per obtenir uns valors estadístics més acceptables.
Sabem que aproximadament la meitat de les respostes són inventades, i que probablement tan sols la meitat de les dades són fiables. Així que hauríem de tractar d'eliminar determinades dades, per tal que la mijana fos més ajustada a la realitat.
- I, com separarem les dades correctes de les inventades? Si haguéssim llençat la moneda una sola vegada coneixeríem algunes dades corrects, les d'aquells jugadors als que el ha tocat el panda i que han contestat que no surten per les nits, però en llançar la moneda de nou per respondre aquesta segona pregunta, no sabem a què atenir-nos.
- És ben cert. Els he fet llençar novament la moneda tot i per evitar que ens menteixin en contestar la segona pregunta tots aquells que ens han dit la veritat en la primera, especialment aquells que han contestat que no surten, ja que aquesta resposta solament la poden donar aquells als que els hi ha tocat el panda, i per tant estan obligats a dir la veritat.
Afortunadament, en estadística existeixen diversos mètodes per a eliminar certes dades incorrectes que poden desvirtuar força les mitjanes.
Hi ha qui elimina aquells valors més allunyats de la mitjana , distanciats de la mateixa per un múltiple determinat de la desviació típica , quedant-se així amb l'interval de dades .
En altres casos, s'hi poden ordenar les dades de menor a major, i eliminar el primer i el quart quartil, quedant-nos només amb les dades dels dos quartils centrals, més propers a la mediana.
Amb qualsevulla d'aquestes dues opcions, veiem que la desviació típica baixa considerablement, fins a uns valors més acceptables.
Amb qualsevulla d'aquestes dues opcions, veiem que la desviació típica baixa considerablement, fins a uns valors més acceptables.
Tot i que en el nostre cas concret, i atès que amb prou feines si disposem de 20 dades, hem de ser cauts a l'hora d'eliminar algunes d'elles. En tot cas, tenim 3 valors que podem donar considerar impossibles.
- I, quins són?
- I, quins són?
- Si n'hi han 8 persones que asseguren que no surten, no pot haver-hi ni 17 ni 20 festers. I tampoc pot haver 0 jugadors que surtin, perquè llavors tots els jugadors als que els ha sortit el panda haurien d'haver contestat que no coneixen a ningú que surti, és a dir, hauria d'haver diversos zeros, llevat del molt improbable cas de que hagin sortit 20 serps.
- Ja, una vegada de cada milió de cops que féssim l'enquesta, oi?
- Ja, una vegada de cada milió de cops que féssim l'enquesta, oi?
- Aixó és. Podríem seguir amb el procés eliminant aquells resultats poc probables de ser certs, que serien els que són més allunyats de la mediana o de la mitjana. Encara que en aquest cas pot causar-nos més confusió, ja que pot ser que no tots els jugadores sàpiguen el que fan els restants per les nits.
Ja saps que tots ells no són amics entre sí, ni es diverteixen tots junts, pel qual, si eliminem la dada del 2, potser aquesta dada l'ha proporcionat una persona que ha dit la veritat, però que al mateix temps és incorrecta, ja que el jugador que ho ha dit tan sols està segur de que 2 jugadors surten, i no sap res dels altres que també ho fan.
Com la mostra que tenim ara és molt petita, potser el biaix que generem realitzant una selecció de les dades restants sigui més perjudicial que la d'eliminar algunes d'elles, així que ens conformarem amb fer la mitjana de les dates que ens resten.
- Llavors, a la fi, quin mètode de depuració de dades triarem?
- Doncs en un principi, el mètode que ens dóna un coeficient de variació més petit és el dels quartils centrals. En tot cas, la mitjana tots el mètodes en qué hem eliminat dades està propera al valor de 4. I aquesta data coincideix amb la que vam obtenir amb la primera pregunta, així que podem donar per bo que prop d'un 20% dels teus jugadors surten per les nits.
- Doncs en un principi, el mètode que ens dóna un coeficient de variació més petit és el dels quartils centrals. En tot cas, la mitjana tots el mètodes en qué hem eliminat dades està propera al valor de 4. I aquesta data coincideix amb la que vam obtenir amb la primera pregunta, així que podem donar per bo que prop d'un 20% dels teus jugadors surten per les nits.
- Per tant, pots estar content, Fabio. Hi ha una alta probabilitat de que tan sols siguin 4 els jugadors als quals els hi agrada la gresca!
- Doncs sí, ja que això vol dir que el baix rendiment podem corregir-lo amb més entrenament o més sessions tàctiques. Ara només cal convèncer els 4 jugadors que surten de marxa de que es controlin fins després que guanyem el campionat...
I n'estàs segur de que aquesta tècnica que hem emprat és fiable?
- Sens dubte. S'atribueix aquest enginyós mètode a Eduardo Cattani, professor argentí de Matemàtiques i Estadística de la Universitat de Massachusetts, segons ens refereix Adrián Paenza al seu llibre “Matemática... ¿estás ahí?". D'altra banda, Stanley L. Warner, matemàtic estatunidenc, va publicar al març de 1965 un article sobre tècniques de resposta aleatòria per a eliminar respostes evasives al Journal of the American Statistical Association.
És clar que hi han certes preguntes sobre temes sensibles com el consum de drogues, el comportament sexual, temas il·legals o prohibits, violència, assetjament, conductes no ben vistes socialment, etc., en què els entrevistats solen respondre amb respostes incorrectes.
La única forma de garantitzar l'anonimat i la confidencialitat, i guanyar-se la confiança del subjete entrevistat és mitjançant aquestos sistemes de respostes aleatòries, encara que no sempre funcionen, uns cops perqué els consultats no acaben d'entendre la mecànica, perquè no acaben de fiar-se del procediment, o perquè malgrat tot, no responen de forma veraç.
En aquest cas, com hem establert dues preguntes sobre el mateix tema, ens assegurem que el resultat sigui prou fiable.
- Fenomenal, Pep. Moltes gràcies per tot. Que ho passis d'allò millor al teu congrés en Xina!
- Ben segur que sí, però abans vaig a donar un tomb pel centre de Guangzhou (Cantón), a veure si em trbo amb algun dels meus amics xinesos, o potser amb algun dels teus jugadors.
Espero que tingueu sort als pròxims partits, Fabio. Fins aviat!
Espero que tingueu sort als pròxims partits, Fabio. Fins aviat!
Si estàs interessat en aprofundir més en aquest tema, pots visitar qualsevulla d'aquestes estupendes pàgines: Encuesta con pregunta prohibida, Muestreo de respuestas aleatorizadas en poblaciones finitas: un enfoque unificador, Respuesta aleatoria y técnicas de preguntas indirectas, El anonimato, la respuesta aleatoria e Internet como control de la deseabilidad social en contenidos sexuales.
I no us oblidéu de donar un tomb pel Carnaval de Matemáticas i votar la història que més us agradi. Allà trobareu uns excel·lents articles matemàtics dels que gaudireu amb la seva lectura.
Cap comentari :
Publica un comentari a l'entrada