Big Datan mahdollisuudet media-alalla

Asta Bäck, Ville Ollikainen, Caj Södergård, Sari Vainikainen

    Research output: Book/ReportReport

    Abstract

    Hankkeen tavoitteena oli edistää mediatalojen mahdollisuuksia palvelujensa kehittämiseen erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla tavoitteena oli edistää näitä mahdollisuuksia määrittelemällä käyttöön soveltuva testiympäristö ja tekemällä käytännön kokeiluja esimerkkiaineistoilla. Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin nousivat tilaajien/käyttäjien käyttäytymisen parempi ymmärtäminen eli sisältöjen lukeminen ja tilaajakäyttäytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten kohdistaminen, ja mainosten näyttömäärien ennustaminen. Hankkeen käytännön työn kohteeksi valittiin klikkausdata ja sen hyödyntäminen palvelujen käyttötapojen analysoinnissa ja suosituksissa. Suositusten osalta päätettiin rajautua UPCVmenetelmän käyttöön. Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa käytettiin avoimen lähdekoodin R- ja Weka -ohjelmistoja sekä pienessä määrin Microsoftin Azure Machine Learning -ympäristöä. Näistä viimeksi mainittu tukee mallien kehittämisen ohella myös kehitettyjen mallien käyttöönottoa REST API -rajapinnan kautta. Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niistä toinen perustui evästeisiin, ja toinen kirjautuneiden käyttäjien anonymisoituun käyttödataan. Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. evästeiden ikäjakauman ja eväste/käyttäjätilikohtaiset klikkausmäärät. Assosiaatiosääntöjä käytettiin palveluyhdistelmien tunnistamiseen. Klusterointia käytettiin luokittelemaan evästeet/käyttäjätilit erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista klikkausmäärää ennustettiin multiclass decision jungle -menetelmällä. Datan perustella käyttäjistä erottui selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen suhteen. Palvelujen käytön toistuvuus tuli aineistossa hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten signaalien löytämiseen muuttumassa olevista käyttötavoista. UPCV-menetelmää kokeiltiin evästeaineistolla ja menetelmän oletusasetuksilla. Saatuja suositustuloksia tarkasteltiin laadullisesti aineistosta tasavälein poimitussa otoksessa. Havaintona oli, että jos käyttäjällä on klikkauksia vain osastotasolle tai vain hyvin suosittuihin artikkeleihin, suositukset eivät vaikuttaneet merkityksellisiltä; relevantilta vaikuttavien suositusten tuottamiseksi käyttäjällä tulisi olla klikkauksia myös vähemmän suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelmästä.
    Original languageFinnish
    PublisherVTT Technical Research Centre of Finland
    Number of pages24
    Publication statusPublished - 2015
    MoE publication typeD4 Published development or research report or study

    Publication series

    SeriesVTT Tutkimusraportti
    NumberVTT-R-04362-15

    Cite this