TY - BOOK
T1 - Big Datan mahdollisuudet media-alalla
AU - Bäck, Asta
AU - Ollikainen, Ville
AU - Södergård, Caj
AU - Vainikainen, Sari
N1 - Project code: 102125
PY - 2015
Y1 - 2015
N2 - Hankkeen tavoitteena oli edistää mediatalojen
mahdollisuuksia palvelujensa kehittämiseen erityyppisten
suositus-, segmentointi- ja ennustusmenetelmien avulla.
Konkreettisella tasolla tavoitteena oli edistää näitä
mahdollisuuksia määrittelemällä käyttöön soveltuva
testiympäristö ja tekemällä käytännön kokeiluja
esimerkkiaineistoilla. Hankkeen alussa tehtiin
mediatalojen haastatteluja, joissa lupaavina
sovelluskohteina esiin nousivat tilaajien/käyttäjien
käyttäytymisen parempi ymmärtäminen eli sisältöjen
lukeminen ja tilaajakäyttäytyminen, suositusten
parantaminen, artikkelien metadatoitus, mainosten
kohdistaminen, ja mainosten näyttömäärien ennustaminen.
Hankkeen käytännön työn kohteeksi valittiin klikkausdata
ja sen hyödyntäminen palvelujen käyttötapojen
analysoinnissa ja suosituksissa. Suositusten osalta
päätettiin rajautua UPCVmenetelmän käyttöön.
Tilastollisten ja koneoppimisen menetelmien soveltamiseen
hankkeessa käytettiin avoimen lähdekoodin R- ja Weka
-ohjelmistoja sekä pienessä määrin Microsoftin Azure
Machine Learning -ympäristöä. Näistä viimeksi mainittu
tukee mallien kehittämisen ohella myös kehitettyjen
mallien käyttöönottoa REST API -rajapinnan kautta.
Hankkeen aikana analysoitiin kahden mediatalon
toimittamaa klikkausdataa. Niistä toinen perustui
evästeisiin, ja toinen kirjautuneiden käyttäjien
anonymisoituun käyttödataan. Aineistoille tehtiin ensin
kuvaileva tarkastelu, joka toi esiin mm. evästeiden
ikäjakauman ja eväste/käyttäjätilikohtaiset
klikkausmäärät. Assosiaatiosääntöjä käytettiin
palveluyhdistelmien tunnistamiseen. Klusterointia
käytettiin luokittelemaan evästeet/käyttäjätilit
erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista
klikkausmäärää ennustettiin multiclass decision jungle
-menetelmällä. Datan perustella käyttäjistä erottui
selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen
suhteen. Palvelujen käytön toistuvuus tuli aineistossa
hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten
signaalien löytämiseen muuttumassa olevista
käyttötavoista. UPCV-menetelmää kokeiltiin
evästeaineistolla ja menetelmän oletusasetuksilla.
Saatuja suositustuloksia tarkasteltiin laadullisesti
aineistosta tasavälein poimitussa otoksessa. Havaintona
oli, että jos käyttäjällä on klikkauksia vain
osastotasolle tai vain hyvin suosittuihin artikkeleihin,
suositukset eivät vaikuttaneet merkityksellisiltä;
relevantilta vaikuttavien suositusten tuottamiseksi
käyttäjällä tulisi olla klikkauksia myös vähemmän
suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo
tarkemmin klikkausaineiston analysoinnista ja
UPCVsuositusmenetelmästä.
AB - Hankkeen tavoitteena oli edistää mediatalojen
mahdollisuuksia palvelujensa kehittämiseen erityyppisten
suositus-, segmentointi- ja ennustusmenetelmien avulla.
Konkreettisella tasolla tavoitteena oli edistää näitä
mahdollisuuksia määrittelemällä käyttöön soveltuva
testiympäristö ja tekemällä käytännön kokeiluja
esimerkkiaineistoilla. Hankkeen alussa tehtiin
mediatalojen haastatteluja, joissa lupaavina
sovelluskohteina esiin nousivat tilaajien/käyttäjien
käyttäytymisen parempi ymmärtäminen eli sisältöjen
lukeminen ja tilaajakäyttäytyminen, suositusten
parantaminen, artikkelien metadatoitus, mainosten
kohdistaminen, ja mainosten näyttömäärien ennustaminen.
Hankkeen käytännön työn kohteeksi valittiin klikkausdata
ja sen hyödyntäminen palvelujen käyttötapojen
analysoinnissa ja suosituksissa. Suositusten osalta
päätettiin rajautua UPCVmenetelmän käyttöön.
Tilastollisten ja koneoppimisen menetelmien soveltamiseen
hankkeessa käytettiin avoimen lähdekoodin R- ja Weka
-ohjelmistoja sekä pienessä määrin Microsoftin Azure
Machine Learning -ympäristöä. Näistä viimeksi mainittu
tukee mallien kehittämisen ohella myös kehitettyjen
mallien käyttöönottoa REST API -rajapinnan kautta.
Hankkeen aikana analysoitiin kahden mediatalon
toimittamaa klikkausdataa. Niistä toinen perustui
evästeisiin, ja toinen kirjautuneiden käyttäjien
anonymisoituun käyttödataan. Aineistoille tehtiin ensin
kuvaileva tarkastelu, joka toi esiin mm. evästeiden
ikäjakauman ja eväste/käyttäjätilikohtaiset
klikkausmäärät. Assosiaatiosääntöjä käytettiin
palveluyhdistelmien tunnistamiseen. Klusterointia
käytettiin luokittelemaan evästeet/käyttäjätilit
erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista
klikkausmäärää ennustettiin multiclass decision jungle
-menetelmällä. Datan perustella käyttäjistä erottui
selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen
suhteen. Palvelujen käytön toistuvuus tuli aineistossa
hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten
signaalien löytämiseen muuttumassa olevista
käyttötavoista. UPCV-menetelmää kokeiltiin
evästeaineistolla ja menetelmän oletusasetuksilla.
Saatuja suositustuloksia tarkasteltiin laadullisesti
aineistosta tasavälein poimitussa otoksessa. Havaintona
oli, että jos käyttäjällä on klikkauksia vain
osastotasolle tai vain hyvin suosittuihin artikkeleihin,
suositukset eivät vaikuttaneet merkityksellisiltä;
relevantilta vaikuttavien suositusten tuottamiseksi
käyttäjällä tulisi olla klikkauksia myös vähemmän
suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo
tarkemmin klikkausaineiston analysoinnista ja
UPCVsuositusmenetelmästä.
M3 - Report
T3 - VTT Tutkimusraportti
BT - Big Datan mahdollisuudet media-alalla
PB - VTT Technical Research Centre of Finland
ER -