Johdanto

Tässä SHV-työssä tarkastellaan suomalaisten miesten ja naisten ikäkohtaisten kuolevuuksien mallintamista ARIMA eli Autoregressive Integrated Moving Average -malleilla. Lisäksi tässä työssä tarkastellaan kuolevuusaikasarjojen tilastollisia ominaisuuksia aikasarja-analyysin näkö- kulmasta. Luotettavia kuolevuusennusteita tarvitaan vakuutusalalla esimerkiksi henkivakuutusvastuiden ja eläkemuotoisten vastuiden arvioimiseen. Haastetta kuolevuuden ennustamiseen on perinteisesti tuonut kuolevuuden laskeva trendi, joka on suomalaisten miesten ja naisten kuolevuusaikasarjoissa jatkunut vaihtelevalla vauhdilla käytännössä yli sadan vuoden ajan (pl. sotavuodet) aina 2020-luvun alkuun asti. Toisaalta aivan viime vuosina eli koronapandemian aikana kuolevuus on merkittävästi kasvanut erityisesti yli 80-vuotiaissa, mikä tuo tällä hetkellä uudenlaista epävarmuutta kuolevuuden ennustamiseen [1].

Kuolevuuden ennustamista varten on luotu useita erilaisia tilastollisia malleja. Booth ja Tickle (2008) [2] toteavat, että kuolevuuden mallintaminen suoraan ARIMA-malleilla, eli ns. nollan faktorin ARIMA-malleilla, on kuitenkin ollut suhteellisen harvinaisia. Nollan faktorin ARIMA-mallien haasteena on mallikokonaisuuden valtava koko, sillä jokainen ikäkohtainen malli vaatii omat parametrinsa. Lisäksi ikäkohtaisten kuolevuusaikasarjojen keskinäinen riippuvuus ei tule yksiulotteisissa ARIMA-malleissa huomioiduksi, jolloin kuolevuus voi kehittyä epäuskottavasti erityisesti pidemmissä ennusteissa. Kuolevuusaikasarjojen keskinäinen riippuvuus voitaisiin huomioida moniulotteisia aikasarjamalleja käyttämällä, mutta tällöin mallin koko (dimensio) olisi suuri. Edellä mainittujen ongelmien takia ARIMA-malleja onkin yleensä käytetty vain osana kuolevuuden faktorimalleja. Faktorimalleissa ikäkohtaisten kuolevuuksien kehitys jaetaan yhteen tai useampaan faktoriin, jolloin ajassa muuttuvien faktoreiden kehitystä voidaan mallintaa ARIMA-malleilla. Näin ikäkohtaisten kuolevuusennusteiden keskinäinen riippuvuus saadaan mallinnettua ilman, että mallin koko paisuu liialliseksi.

Tällä hetkellä yleisimpiä kuolevuuden tilastollisia mallinnusmenetelmiä ovat Lee-Carter - malli (1992) [8] ja tästä pienillä muutoksilla saatava Lee-Miller -malli (2001) [9]. Malleissa kuolevuuden kehitys jaetaan kahteen faktoriin, ikä- ja aikafaktoriin, jolloin kuolevuuden ikä- kohtaiset ennusteet saadaan muodostettua ennustamalla aikafaktorin kehitystä tulevaisuuteen satunnaiskulkuprosessilla (ks. luku 2.1). Suomessa Lee-Miller -malli on käytössä esimerkiksi Finanssivalvonnan ylläpitämässä henkivakuutuksen K2012-referenssikuolevuusmallissa (Sirén (2013) [11]) sekä Tapaturma-, Liikenne- ja Potilasvakuutuskeskuksen ylläpitämässä työtapaturma, liikenne- ja potilasvakuutuksen K2021-referenssikuolevuusmallissa. Lee-Carter ja LeeMiller -mallien tarkemmat tekniset kuvaukset esitetään liitteessä C.

Lee-Carter -malliin liittyvässä varhaisemmassa kirjallisuudessa nollan faktorin satunnaiskulkumalleja on jonkun verran hyödynnetty vertailukohtana Lee-Carter -mallille. Esimerkiksi Carter ja Lee (1992) [4] vertasivat nollan faktorin satunnaiskulkuprosessilla muodostettuja yhdysvaltalaisten miesten ja naisten elinajanodotteiden ennusteita Lee-Carter -mallilla tuotettuihin ennusteisiin. Heidän tulosten perusteella satunnaiskulkuprosessilla muodostettu ennuste pärjäsi Lee-Carter -mallin ennustetta huonommin, kun ennustetta verrattiin toteutuneisiin elinajanodotteisiin. Sen sijaan Bell (1997) [1] mallinsi yhdysvaltalaisten miesten ja naisten ikäkohtaisten kuolevuuksien logaritmeja (ns. log-kuolevuutta) satunnaiskulkuprosessilla. Bellin tulosten perusteella yksinkertainen satunnaiskulkumalli pärjäsi käytännössä yhtä hyvin kuolevuuden lyhyen aikavälin (15 vuotta) ennustamisessa kuin Lee-Carter -malli. Bellin tulos antaakin tukea sille, että yksinkertaisillakin aikasarjamalleilla voidaan saada vertailukelpoisia kuolevuuden ennusteita aikaiseksi.

Kiinnostus nollan faktorin ARIMA-malleihin vaikuttaa hieman lisääntyneen 2010-luvun aikana. Esimerkiksi Giacometti ym. (2012) [5] esittivät mallin, jossa ikäkohtaisia kuolevuuksia mallinnetaan AR-ARCH -mallilla, jossa ARCH-termi (Autoregressive Conditional Heteroskedasticity) viittaa kuolevuusaikasarjan volatiliteetin ehdolliseen mallintamiseen. He sovittivat AR-ARCH -mallin Italian kuolevuusaikasarjoihin ja vertasivat mallin tuottamaa ennustetta Lee-Carter -mallin tuottamaan ennusteeseen kolmen peräkkäisen vuoden osalta. Vertailun perusteella AR-ARCH -mallin ennusteet olivat Lee-Carter -mallin ennusteita huomattavasti parempia. Hieman vastaavasti Syuhada ja Hakim (2021) [12] testasivat yhdysvaltalaisten miesten ja naisten kuolevuusaikasarjojen tilastollisia ominaisuuksia ja päätyivät tämän analyysin perusteella mallintamaan log-kuolevuuden muutoksia AR-ARCH ja AR-SVAR (Stochastic Volatility Autoregressive) -malleilla. Tutkimuksessa malleilla toteutettiin kuolevuudelle VaR-riskimitan tyyliset yhden vuoden riskimitat eli ns. "Mortality-at-Risk" -mitat.

Lin ym. (2015) [10] vertasivat ikäkohtaisten log-kuolevuuksien AR, AR-ARCH ja ARGARCH -mallien (General Autoregressive Conditional Heteroskedasticity) ennustekykyä LeeCarter -malliin Japanin, Yhdysvaltojen ja Ison-Britannian kuolevuusaineistoilla vuosien 2001 2009 ajalta. Kaikki mallit oli sovitettu vuosien 19502000 aikasarjoihin. Heidän tulosten perusteella kaikkien aikasarjamallien ennustekyky oli Lee-Carter -mallia parempi. Lisäksi aikasarjamallit pääsääntöisesti tuottivat Lee-Carter -mallia leveämpiä ja paremmin toteutuneen kuolevuuden kattaneita ennusteiden luottamusvälejä. Valitettavasti tutkimuksessa ei kuitenkaan vertailtu aikasarjamalleja Lee-Miller -malliin, joka olisi voinut odotetun kuolevuuden osalta pärjätä Lee-Carter -mallia paremmin (ks. liite C). Lisäksi tutkimuksessa ei vertailtu malleja elinajanodotteiden ennusteiden näkökulmasta. Tutkimuksen tulokset antavat kuitenkin erittäin positiivisia viitteitä ARIMA-mallien potentiaalista.

Lyhyen kirjallisuuskatsauksen perusteella nollan faktorin ARIMA-mallit vaikuttavat olevan potentiaalisia työkaluja kuolevuuden mallintamiseen, mutta tutkimusta aiheesta on vielä verrattain rajallisesti. Tämän SHV-työn tarkoituksena onkin tarkastella, miten yksinkertaiset ARIMA-mallit soveltuisivat suomalaisten miesten ja naisten kuolevuuksien ja elinajanodotteiden ennustamiseen. Tämän työn luvussa 2 käydään läpi yksiulotteisten aikasarjojen ja ARIMAprosessien olennainen teoria sekä kuvataan ARIMA-mallien valintaan, sovittamiseen ja ennusteisiin liittyvää teoriaa. Luvussa 3 kuvataan suomalaisten miesten ja naisten log-kuolevuuden aikasarjojen tilastollisia ominaisuuksia, valitaan ja sovitetaan ARIMA-mallit ja toteutetaan eri ARIMA-malleilla kuolevuuden ja elinajanodotteiden ennusteet. Lisäksi luvussa 3 vertaillaan eri ARIMA-mallien ennusteita sekä keskenään että Lee-Carter ja Lee-Miller -mallien ennusteisiin. Luvussa 4 tiivistetään tämän työn päätulokset.

Share Share Share