Predstavte si dva lieky na chudnutie, ktoré majú rovnaké vedľajšie účinky a sú rovnako drahé. Pri jednom je priemerný úbytok hmotnosti 20 kilogramov za pol roka, s priemernou odchýlkou 10 kilogramov. Pri druhom je priemerný úbytok päť kilogramov za pol roka a priemerná odchýlka jeden kilogram. Môžete teda očakávať, že pri užívaní prvej tabletky schudnete čosi medzi 10 a 30 kilogramami, kým pri druhej bude strata hmotnosti medzi štyrmi a šiestimi kilami.
Ktorá tabletka je lepšia? Človek, ktorý chce schudnúť, by si istotne vybral prvú. Akademický ekonóm by povedal, že druhá tabletka je „štatisticky významnejšia“. Vo väčšine situácií dôraz na presnosť, nie na veľkosť celkového efektu, poskytuje skreslenú predstavu o realite. Stephen Ziliak a Deirdre McCloskey tvrdia, že tento neoprávnený dôraz je hlavný nedostatok moderných empirických metód v spoločenských vedách.
Štatistická významnosť
Stephen T. Ziliak a Deirdre N. McCloskey: The Cult of Statistical Significance. How Standard Error Costs Us Jobs, Justice and Lives. Ann Arbor: University of Michigan Press (2008), 320 s. |
Štatistická významnosť je pojem, ktorý sa vzťahuje na regresnú analýzu. V nej sa vedci snažia vysvetliť nejakú závislú premennú (napríklad hospodársky rast) prostredníctvom kombinácie iných premenných (napríklad intenzity vedeckého výskumu, gramotnosti populácie alebo kvality inštitúcií). Regresná analýza teda poskytuje súbor odhadov, z ktorých možno usudzovať efekt výskumu, gramotnosti či inštitúcií na hospodársky rast.
Tradičná náplň práce tých, ktorí pracujú s regresnou analýzou, je testovanie štatistickej významnosti – toho, či odhad efektu povedzme vedeckého výskumu nemôže byť vysvetlený výhradne ako dôsledok náhody. Ak takú hypotézu nemožno zamietnuť, na premennú sa hľadí ako na štatisticky nevýznamnú. Ak takú hypotézu môžeme zamietnuť, tak sa vplyv výskumu na hospodársky rast považuje za čosi viac ako dielo náhody.
Lenže mechanické testovanie štatistickej významnosti môže zakrývať skutočnú, „substantívnu“ významnosť. Podobne ako v príklade s tabletkami na chudnutie, i v empirickej ekonómii môže nastať situácia, keď sa nám potenciálne veľký efekt bude javiť ako štatisticky nevýznamný. Napríklad preto, lebo je príslušná premenná meraná veľmi nepresne.
Sedliacky rozum hovorí, že veľkosť efektu je dôležitejšia než jeho štatistická významnosť. Fyzici to chápu veľmi dobre a ich prvý reflex je vždy to, že sa pýtajú na veľkosť študovaného vplyvu. Vo fyzike sa považujú mnohé štatisticky významné vzťahy za zanedbateľné, ak je veľkosť efektov príliš malá. Naopak v ekonómii sa hľadí na mnoho malých a zanedbateľných efektov ako na štatisticky významné vzťahy. A príliš často sa ignorujú potenciálne významné efekty, ktoré vykazujú veľkú nepresnosť. Je kľúčové si uvedomiť, že štatistická významnosť sama osebe nie je ani nutná, ani postačujúca podmienka reálneho významu pozorovanej premennej.
Školácky omyl
Bezmyšlienkovité testovanie štatistickej významnosti navyše skrýva nástrahu v podobe školáckeho omylu – zámeny dvoch rôznych typov podmienenej pravdepodobnosti. Aká je pravdepodobnosť, že náhodne vybraný mŕtvy človek bol obesený? Je rozumné predpokladať, že bude pomerne malá. Naopak, aká je pravdepodobnosť, že náhodne vybraný obesený človek je mŕtvy? Táto pravdepodobnosť bude veľmi blízka istote.
Môže ísť napohľad o triviálnu a ľahko demaskovateľnú chybu. No čitateľ ekonomických žurnálov sa môže poľahky stretnúť s jej „vedeckejšou“ formou – nesprávne aplikovaným alebo interpretovaným Studentovým t-testom. Za týmto názvom sa skrýva matematický nástroj testovania hypotézy o štatistickej významnosti údajov nameraných u vybratej vzorky. V praxi sa používa napríklad na porovnávanie toho, či sa výsledky meraní z vybratej vzorky štatisticky významne líšia od kontrolnej vzorky.
Matematik by povedal, že pri t-teste sa overuje, či možno hypotézu o tom, že skutočný efekt je nulový, vylúčiť na základe údajov nameraných na vybratej vzorke. Je veľký omyl zamieňať si to so zjednodušeným konštatovaním, že sa testuje, či veľkosť skúmaného efektu je nulová. Ak takzvanú nulovú hypotézu nemôžeme zamietnuť, stále nám to nedáva právo jednoznačne povedať, že skutočný efekt je nulový. Alebo ľudskou rečou: je to podobné ako v situácii, keď nevieme zamietnuť hypotézu, že náhodne vybraný obesený človek je mŕtvy. Tejto chyby sa však dopúšťa príliš veľa spoločenských vedcov.
Zavádzajúci a škodlivý
Dôraz na štatistickú významnosť je podľa Ziliaka a McCloskey zavádzajúci a škodlivý. Štatistická významnosť nie je podľa nich ani len užitočný nástroj prvotného preskúmania dát, lebo príliš často môže viesť k úplne mylným záverom. Je paradoxné, aký veľký význam sa prikladá tomu, aby empirický výskum vykazoval „signifikantné“ výsledky. Jeden z prvých poznatkov, ktoré sa vštepujú do mysle každého študenta ekonometrie, je, aby jeho výsledky boli štatisticky významné.
Učebnice ekonometrie vytvorili z t-testu a jednopercentnej hladiny významnosti modlu, ktorej sa nekriticky klania skoro celá ekonomická profesia. Ziliak a McCloskey sledovali empirické články v American Economic Review, najprestížnejšom časopise ekonomickej profesie, a zistili, že dôraz na štatistickú významnosť zatláča do úzadia iné, oveľa dôležitejšie ohľady. Len minimum článkov vykazovalo aj silu príslušného testu. Mnoho článkov neposkytovalo diskusiu veľkosti nájdených efektov a ich porovnanie s tým, čo autori na základe modelov očakávali.
Je pravda, že situácia sa oproti osemdesiatym rokom o čosi zlepšila. Ale stále dominuje prístup k využívaniu metód, ktorý bezmyšlienkovito aplikuje princíp štatistickej významnosti a ignoruje veľkosť skúmaných efektov. Tento trend sa nevyhýba ani veľkým menám modernej ekonómie. Autori s gustom spomínajú práce Garyho Beckera, Bena Bernankeho, Paula Krugmana či Davida Carda a Alana Kruegera, ktoré mechanicky a bezmyšlienkovito používajú pojem štatistickej významnosti ako údajný dôkaz reálnej významnosti nimi študovaných efektov.
Rozšírená choroba
Regresná analýza sa nevyužíva len v ekonómii. Je bežný nástroj v psychologickom aj medicínskom výskume. Oproti ekonómii je podľa autorov na tom dnešná psychológia lepšie, lebo vedecké žurnály kladú prísnejšie nároky na vecnú, nielen štatistickú významnosť výsledkov. V medicíne sa na štatistickú významnosť spoliehajú klinické testy liekov. A to môže mať doslova fatálne následky.
Vioxx, liek utišujúci bolesť vyvinutý firmou Merck, bol medzi rokmi 1999 a 2003 distribuovaný vo vyše osemdesiatich krajinách. Po tom, čo na infarkt zomrela sedemdesiattriročná žena, ktorá užívala Vioxx na predpis, klinické testy jeho účinkov boli podrobené previerke. Očakávajúc žaloby, Merck liek stiahol z predaja. Ako to súvisí so štatistickou významnosťou?
Počas klinických testov utrpelo päť pacientov užívajúcich Vioxx srdcový infarkt. Za to isté obdobie utrpel infarkt len jeden pacient z kontrolnej skupiny, užívajúcej iný liek. Tento rozdiel nedosiahol päťpercentnú hranicu štatistickej významnosti. Merck preto tvrdil, že v efekte oboch liekov na obehový systém nebol rozdiel, napriek očividnému pomeru päť ku jednej v neprospech Vioxxu. Aby to nebolo málo, neskôr sa zistilo, že počas testovania boli zo vzorky vylúčení ďalší traja pacienti, ktorí buď utrpeli, alebo zomreli na infarkt. Nakoniec teda nešlo o pomer piatich k jednému, ale ôsmich k jednému (ktorý by už bol štatisticky významný).
Pochopiteľne, poctivý ekonometer by považoval manipuláciu s dátami za neprijateľnú. No hlavný problém je, že na manipuláciu zvádzal sám dôraz na štatistickú významnosť ako jedinú mierku rizika. Jej mechanické uplatňovanie vytvára dokonalé motivácie, aby k manipuláciám dochádzalo často. Preto ak chceme dosiahnuť vyššiu úroveň transparentnosti vo vedeckom skúmaní, mali by sme trvať na tom, aby testy štatistickej významnosti netvorili základný kameň práce s dátami.
Príbeh štatistiky
Fascinujúci je i príbeh vzniku Studentovho t-testu, ktorý Ziliak a McCloskey rozprávajú v poslednej tretine knihy. Student, ktorý publikoval teórie v časopise Biometrika, sa v skutočnosti volal William S. Gosset a pracoval v Guinessovom pivovare v Dubline. Zamestnávateľ mu neumožňoval, aby publikoval pod pravým menom. Metóda, ktorú využíval najmä pri porovnávaní technologických postupov pri príprave piva či pri porovnávaní kvality odrôd chmeľu, sa dostala do rúk Ronalda A. Fishera, ambiciózneho štatistika, ktorý sa neskôr stal profesorom eugeniky na University College v Londýne.
Gosset varoval pred tým, aby sa z t-testu stal mechanický nástroj posudzovania významu vysvetľujúcich premenných v štatistickej regresii a aby sa pritom ignorovala veľkosť efektu. Bezškrupulózny Fisher, ktorý vedome význam Studenta pre vlastný výskum bagatelizoval, však z testu štatistickej významnosti urobil modlu modernej štatistiky.
Vplyv R. A. Fishera a prvoplánová príťažlivosť jednoduchých, automaticky uplatňovaných pravidiel stoja za tým, že aplikovaná ekonómia, psychológia a klinická medicína prikladajú t-testu neoprávnený dôraz. Rozšírenie počítačovej techniky, ktorá umožňuje bezprácne testovanie štatistickej významnosti, zohralo úlohu tiež.
Ak sú náklady používania testu štatistickej významnosti prakticky nulové, tak ekonómia predpovedá, že v dlhodobej rovnováhe budú aj výnosy z týchto testov nulové. A to, zdá sa, presne popisuje situáciu v súčasných empirických disciplínach. Štatistická významnosť je každodenný jav, ktorý má veľmi malý prínos pre znalosti o reálnom svete.
Ziliak a McCloskey volajú po radikálnej zmene paradigmy. Volajú po tom, aby spoločenskí vedci neaplikovali t-test ako recept z kuchárskej knihy, ale aby sa pri vyhodnocovaní významnosti rôznych efektov pozerali skôr na ich veľkosť. A konfrontovali ju s tým, čo predpovedajú ich teórie s rozumne nastavenými parametrami. Takáto zmena by kládla väčšie nároky na kvalitu a prispela by k tomu, aby spoločenské vedy boli poctivejšie a hovorili o realite viac, než v súčasnosti hovoria.
- Stephen T. Ziliak je profesor ekonómie na Roosevelt University v Chicagu. Okrem ekonomickej histórie sa venuje metodológii a dejinám matematickej štatistiky.
Deirdre N. McCloskey (narodená ako Donald N. McCloskey) je profesorka ekonómie, histórie, angličtiny a komunikácie na University of Illinois v Chicagu. Patrí k zakladateľom kliometrie – kvantitatívneho skúmania ekonomickej histórie. Okrem významných príspevkov na tomto poli sa McCloskey preslávila najmä skúmaním významu rétoriky v ekonómii a sociológie ekonomickej profesie.
Autor recenzie je doktorand na George Mason University.