Mètodes estadístics contemporanis en la investigació científica: anàlisi bayesià


Il·lustració: Riu Serra 

Contemporary Statistical Methods in Scientific Research: Bayesian Analysis. An extremely powerful paradigm to analyse the results of scientific experimentation, which is firmly based on axiomatic foundations, is gradually substituting the traditional recipe-based techniques which have been dominant in statistics for most of this century. The new paradigm, usually referred to as the Bayesian methodology, uses a probability concept which closely matches that used in ordinary language, directly solves the more relevant scientific questions on data analysis, and may be applied to complex, richly structured problems, fairly inaccessible to traditional statistical methods.

Els metodes estadístics convencionals han estat durant generacions una font d’insatisfacció per als qui, interessats en una anàlisi adequada dels resultats experimentals, no se senten especialment atrets per una col·lecció de receptes mancades d’una estructura lògica que les relacione. Òbviament, científics o enginyers troben útils formularis que els resumesquen els procediments d’ús més freqüent, però, entrenats en un raonament lògic, exigeixen que se’ls oferesca una justificació convincent. Convencionalment, la formació en probabilitat i estadística dóna començament al batxillerat amb exemples elementals de probabilitat, que certament resulten raonables, però que semblen limitar-se a problemes relacionats amb els jocs d’atzar. Naturalment, els alumnes amb aspiracions a una feina científica o tècnica es mostren interessats per aprendre a analitzar dades experimentals; tanmateix, molts se senten decebuts quan, ja a la universitat, se’ls comença a parlar d’inferència estadística. En efecte, encara que els procediments que se’ls exposen semblen assenyats per separat, no se’ls posa de manifest (perquè no existeix) cap principi bàsic que els estructure. El que rarament s’explica als estudiants és que existeix un paradigma alternatiu amb sòlids fonaments lògics, la metodologia bayesiana, que únicament requereix les matemàtiques d’una teoria general de la probabilitat perfectament justificada, i el concepte de probabilitat que correspon a l’ús convencional d’aquesta paraula en el llenguatge quotidià.

L’element més característic del paradigma bayesià és precisament el seu concepte general de probabilitat com a mesura d’incertesa. Per exemple, l’observació dels resultats de proves d’immunodeficiència realitzades a 200 persones triades a l’atzar els resultats dels quals han estat negatius per a tots, permet afirmar que la proporció de persones seropositives en la població és probablement menor del 0,5%; més precisament, que la probabilitat que aquesta proporció siga menor del 0,5% és 0,84. Observeu que el concepte de probabilitat utilitzat en aquesta frase és el d’una mesura d’incertesa (basada en els resultats experimentals), sobre l’ocurrència d’un determinat succés, el que no requereix l’existència de simetries (com en la probabilitat clàssica, basada en la relació de casos favorables a casos possibles), ni tampoc requereix l’existència de possibles repeticions (com en l’estadística convencional, basada en freqüències relatives).

La teoria de la probabilitat permet garantir que si les dades estan constituïdes per un conjunt d’observacions homogènies, llavors existeix un model probabilístic que descriu la relació entre les dades obtingudes i la naturalesa del procés estudiat, i existeix una distribució inicial de probabilitat que descriu la informació de què es disposa sobre la naturalesa del procés. En problemes d’investigació complexos, la determinació d’un model probabilístic adequat pot ser un problema difícil que requeresca la col·laboració entre científics que coneguen bé les característiques del problema i matemàtics capaços de formalitzar-les adequadament; això no obstant, en problemes elementals, el model probabilístic pot ser directament deduït del context experimental. És important subratllar que l’elecció d’un model probabilístic adequat és una condició indispensable per a la validesa de l’anàlisi estadística, qualsevol que siga el paradigma des del qual s’analitzen les dades. La distribució inicial ha de descriure la informació de què inicialment es dispose sobre els possibles estats de la naturalesa. Sovint, però, no es disposa d’informació inicial rellevant, o la informació inicial de què es disposa és de caire subjectiu, i es desitja limitar l’estudi a les conclusions objectives que puguen ser deduïdes basant-se exclusivament en el model probabilístic acceptat i en les dades experimentals efectivament obtingudes; en aquest cas, és necessari recórrer a l’anàlisi de referència, que fa servir la teoria de la informació per a determinar la forma matemàtica d’aquella distribució inicial que descriu una situació en la qual no es disposa d’informació inicial sobre el vertader valor de l’estat de la naturalesa.

El teorema de Bayes, un dels resultats bàsics de la teoria de la probabilitat, permet quantificar el procés d’inferència i establir la relació existent entre la distribució inicial, que descriu la incertesa de la qual es parteix sobre el vertader valor de l’estat de la naturalesa, i la distribució final que descriu la incertesa residual sobre aquest valor, una vegada observades i analitzades les dades experimentals. La distribució final resumeix totes les conclusions (necessàriament probabilístiques) que poden ser deduïdes de les dades observades sobre el vertader valor de l’estat de la naturalesa. Intuïtivament, el teorema de Bayes afirma que la informació final de què es disposa sobre el vertader estat de la naturalesa és la suma de la informació de què inicialment es parteix (que pot, ser nul·la) més la informació que proporcionen les dades; el seu ús sistemàtic justifica el nom de metodologia bayesiana amb què generalment es coneix aquest paradigma.

Quan l’estat de la naturalesa és una magnitud contínua, la seua distribució final es descriu mitjançant una densitat de probabilitat, és a dir, una funció no negativa que tanca una àrea unitat, de manera que la probabilitat que el vertader estat de la naturalesa se situe entre dos límits qualsevulla és l’àrea tancada per la funció de densitat entre aquests límits.

Per exemple, en l’anàlisi de la proporció θ de persones seropositives en una població, basant-se en els resultats obtinguts amb una mostra aleatòria de n persones entre les quals se n’han observat r de seropositives, la distribució final de θ corresponent a una situació en la qual no se suposa cap informació inicial sobre θ resulta ser una distribució Beta de paràmetres r+½ i nr+½ la funció de densitat de probabilitat del qual es reprodueix en la figura per al cas particular n = 100 i r = 0. Aquesta funció conté tota la informació que les dades proporcionen sobre el valor de q;


Conclusions sobre la proporció q de seropositus en la població basades en proves
d’immunodeficiència realitzades a 200 persones elegides a l’atzar, que han resultat
totes negatives.

en particular, com es pot observar en la figura, l’observació de 200 proves negatives permet afirmar, pràcticament amb certesa, que la proporció θ de seropositius en la població és menor de 0,015, atès que la probabilitat associada a valors majors és pràcticament zero. A més, la probabilitat que θ siga, per exemple, menor que 0,005 és 0,84 (àrea de la part ombrejada), i la probabilitat que θ siga menor que 0,0011 (valor assenyalat per una línia) resulta ser 0,5. Conseqüentment, una descripció aproximada, de les conclusions sobre el valor de θ que el paradigma bayesià permet extraure de les dades (descrites en la seua totalitat per la funció de densitat de probabilitat reproduïda en la figura), és que la proporció de persones seropositives és certament menor de l’1,5%, probablement menor del 0,5%, i que és igual de probable que siga major o que siga menor del 0,11%.

En síntesi, la metodologia bayesiana és una conseqüència matemàtica de la teoria de la probabilitat i per tant (a diferència de l’estadística convencional) és lògicament consistent. La solució bayesiana a un problema d’inferència és una distribució de probabilitat, la distribució final de la magnitud objecte d’estudi (no un simple estimador o un interval de confiança), que en el cas continu es descriu mitjançant una funció de densitat de probabilitat, la interpretació gràfica de la qual és intuïtivament immediata. Quan no es disposa d’informació inicial objectiva, s’utilitza la distribució final de referència, que solament depèn del model probabilístic acceptat i de les dades efectivament observades.

Una descripció aproximada de la solució descrita per la distribució final és la proporcionada per les probabilitat associades a un conjunt d’intervals apropiadament escollits. La idea recorda la noció convencional d’interval de confiança, però és conceptualment molt diferent: un interval de confiança freqüentista solament permet afirmar que si es repetira el mateix procediment amb moltes mostres, els intervals corresponents contindrien el vertader valor de la magnitud estudiada en una determinada proporció dels casos. Òbviament, però, aquesta no és la qüestió rellevant per al científic, interessat en canvi en la probabilitat que, en aquest cas concret, el vertader valor de la magnitud estudiada estiga contingut en un determinat interval, probabilitat que el paradigma bayesià permet deduir immediatament a partir de la distribució final.

La metodologia bayesiana permet abordar amb èxit problemes d’estructura complexa, com ara els que presenten els models jeràrquics, totalment inaccessibles per a la metodologia estadística convencional; els Proceedings del darrer congrés mundial d’estadística bayesiana, celebrat fa uns mesos sota el patrocini de la Universitat de València (Bernardo et al., 1999, Bayesian Statistics 6, Oxford University Press), proporcionen una visió de conjunt tant sobre les noves línies d’investigació com sobre les noves aplicacions del paradigma bayesià.

José M. Bernardo. Facultat de Matemàtiques, Universitat de València.
© Mètode 24, Hivern 1999/00.

«Els Proceedings del darrer congrés mundial d’estadística bayesiana, celebrat fa uns mesos sota el patrocini de la Universitat de València, proporcionen una visió de conjunt tant sobre les noves línies d’investigació com sobre les noves aplicacions del paradigma bayesià»

© Mètode 2000 - 24. Temps de matemàtiques - Número 24. Hivern 2000

Facultat de Matemàtiques, Universitat de València.