Big Datan mahdollisuudet media-alalla

Research output: Book/ReportReport

Abstract

Hankkeen tavoitteena oli edistää mediatalojen mahdollisuuksia palvelujensa kehittämiseen erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla tavoitteena oli edistää näitä mahdollisuuksia määrittelemällä käyttöön soveltuva testiympäristö ja tekemällä käytännön kokeiluja esimerkkiaineistoilla. Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin nousivat tilaajien/käyttäjien käyttäytymisen parempi ymmärtäminen eli sisältöjen lukeminen ja tilaajakäyttäytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten kohdistaminen, ja mainosten näyttömäärien ennustaminen. Hankkeen käytännön työn kohteeksi valittiin klikkausdata ja sen hyödyntäminen palvelujen käyttötapojen analysoinnissa ja suosituksissa. Suositusten osalta päätettiin rajautua UPCVmenetelmän käyttöön. Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa käytettiin avoimen lähdekoodin R- ja Weka -ohjelmistoja sekä pienessä määrin Microsoftin Azure Machine Learning -ympäristöä. Näistä viimeksi mainittu tukee mallien kehittämisen ohella myös kehitettyjen mallien käyttöönottoa REST API -rajapinnan kautta. Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niistä toinen perustui evästeisiin, ja toinen kirjautuneiden käyttäjien anonymisoituun käyttödataan. Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. evästeiden ikäjakauman ja eväste/käyttäjätilikohtaiset klikkausmäärät. Assosiaatiosääntöjä käytettiin palveluyhdistelmien tunnistamiseen. Klusterointia käytettiin luokittelemaan evästeet/käyttäjätilit erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista klikkausmäärää ennustettiin multiclass decision jungle -menetelmällä. Datan perustella käyttäjistä erottui selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen suhteen. Palvelujen käytön toistuvuus tuli aineistossa hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten signaalien löytämiseen muuttumassa olevista käyttötavoista. UPCV-menetelmää kokeiltiin evästeaineistolla ja menetelmän oletusasetuksilla. Saatuja suositustuloksia tarkasteltiin laadullisesti aineistosta tasavälein poimitussa otoksessa. Havaintona oli, että jos käyttäjällä on klikkauksia vain osastotasolle tai vain hyvin suosittuihin artikkeleihin, suositukset eivät vaikuttaneet merkityksellisiltä; relevantilta vaikuttavien suositusten tuottamiseksi käyttäjällä tulisi olla klikkauksia myös vähemmän suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelmästä.
Original languageFinnish
PublisherVTT Technical Research Centre of Finland
Number of pages24
Publication statusPublished - 2015
MoE publication typeD4 Published development or research report or study

Publication series

SeriesVTT Tutkimusraportti
NumberVTT-R-04362-15

Cite this

Bäck, A., Ollikainen, V., Södergård, C., & Vainikainen, S. (2015). Big Datan mahdollisuudet media-alalla. VTT Technical Research Centre of Finland. VTT Tutkimusraportti, No. VTT-R-04362-15
Bäck, Asta ; Ollikainen, Ville ; Södergård, Caj ; Vainikainen, Sari. / Big Datan mahdollisuudet media-alalla. VTT Technical Research Centre of Finland, 2015. 24 p. (VTT Tutkimusraportti; No. VTT-R-04362-15).
@book{3ad406027b5740d7bf4b02c2ecdac538,
title = "Big Datan mahdollisuudet media-alalla",
abstract = "Hankkeen tavoitteena oli edist{\"a}{\"a} mediatalojen mahdollisuuksia palvelujensa kehitt{\"a}miseen erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla tavoitteena oli edist{\"a}{\"a} n{\"a}it{\"a} mahdollisuuksia m{\"a}{\"a}rittelem{\"a}ll{\"a} k{\"a}ytt{\"o}{\"o}n soveltuva testiymp{\"a}rist{\"o} ja tekem{\"a}ll{\"a} k{\"a}yt{\"a}nn{\"o}n kokeiluja esimerkkiaineistoilla. Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin nousivat tilaajien/k{\"a}ytt{\"a}jien k{\"a}ytt{\"a}ytymisen parempi ymm{\"a}rt{\"a}minen eli sis{\"a}lt{\"o}jen lukeminen ja tilaajak{\"a}ytt{\"a}ytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten kohdistaminen, ja mainosten n{\"a}ytt{\"o}m{\"a}{\"a}rien ennustaminen. Hankkeen k{\"a}yt{\"a}nn{\"o}n ty{\"o}n kohteeksi valittiin klikkausdata ja sen hy{\"o}dynt{\"a}minen palvelujen k{\"a}ytt{\"o}tapojen analysoinnissa ja suosituksissa. Suositusten osalta p{\"a}{\"a}tettiin rajautua UPCVmenetelm{\"a}n k{\"a}ytt{\"o}{\"o}n. Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa k{\"a}ytettiin avoimen l{\"a}hdekoodin R- ja Weka -ohjelmistoja sek{\"a} pieness{\"a} m{\"a}{\"a}rin Microsoftin Azure Machine Learning -ymp{\"a}rist{\"o}{\"a}. N{\"a}ist{\"a} viimeksi mainittu tukee mallien kehitt{\"a}misen ohella my{\"o}s kehitettyjen mallien k{\"a}ytt{\"o}{\"o}nottoa REST API -rajapinnan kautta. Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niist{\"a} toinen perustui ev{\"a}steisiin, ja toinen kirjautuneiden k{\"a}ytt{\"a}jien anonymisoituun k{\"a}ytt{\"o}dataan. Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. ev{\"a}steiden ik{\"a}jakauman ja ev{\"a}ste/k{\"a}ytt{\"a}j{\"a}tilikohtaiset klikkausm{\"a}{\"a}r{\"a}t. Assosiaatios{\"a}{\"a}nt{\"o}j{\"a} k{\"a}ytettiin palveluyhdistelmien tunnistamiseen. Klusterointia k{\"a}ytettiin luokittelemaan ev{\"a}steet/k{\"a}ytt{\"a}j{\"a}tilit erilaisten k{\"a}ytt{\"o}tapojen mukaisiin ryhmiin. Viikoittaista klikkausm{\"a}{\"a}r{\"a}{\"a} ennustettiin multiclass decision jungle -menetelm{\"a}ll{\"a}. Datan perustella k{\"a}ytt{\"a}jist{\"a} erottui selvi{\"a} ryhmi{\"a} sek{\"a} palveluyhdistelmien ett{\"a} k{\"a}ytt{\"o}aikojen suhteen. Palvelujen k{\"a}yt{\"o}n toistuvuus tuli aineistossa hyvin esiin, mik{\"a} tarjoaa mahdollisuuksia aikaisten signaalien l{\"o}yt{\"a}miseen muuttumassa olevista k{\"a}ytt{\"o}tavoista. UPCV-menetelm{\"a}{\"a} kokeiltiin ev{\"a}steaineistolla ja menetelm{\"a}n oletusasetuksilla. Saatuja suositustuloksia tarkasteltiin laadullisesti aineistosta tasav{\"a}lein poimitussa otoksessa. Havaintona oli, ett{\"a} jos k{\"a}ytt{\"a}j{\"a}ll{\"a} on klikkauksia vain osastotasolle tai vain hyvin suosittuihin artikkeleihin, suositukset eiv{\"a}t vaikuttaneet merkityksellisilt{\"a}; relevantilta vaikuttavien suositusten tuottamiseksi k{\"a}ytt{\"a}j{\"a}ll{\"a} tulisi olla klikkauksia my{\"o}s v{\"a}hemm{\"a}n suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelm{\"a}st{\"a}.",
author = "Asta B{\"a}ck and Ville Ollikainen and Caj S{\"o}derg{\aa}rd and Sari Vainikainen",
note = "Project code: 102125",
year = "2015",
language = "Finnish",
series = "VTT Tutkimusraportti",
publisher = "VTT Technical Research Centre of Finland",
number = "VTT-R-04362-15",
address = "Finland",

}

Bäck, A, Ollikainen, V, Södergård, C & Vainikainen, S 2015, Big Datan mahdollisuudet media-alalla. VTT Tutkimusraportti, no. VTT-R-04362-15, VTT Technical Research Centre of Finland.

Big Datan mahdollisuudet media-alalla. / Bäck, Asta; Ollikainen, Ville; Södergård, Caj; Vainikainen, Sari.

VTT Technical Research Centre of Finland, 2015. 24 p. (VTT Tutkimusraportti; No. VTT-R-04362-15).

Research output: Book/ReportReport

TY - BOOK

T1 - Big Datan mahdollisuudet media-alalla

AU - Bäck, Asta

AU - Ollikainen, Ville

AU - Södergård, Caj

AU - Vainikainen, Sari

N1 - Project code: 102125

PY - 2015

Y1 - 2015

N2 - Hankkeen tavoitteena oli edistää mediatalojen mahdollisuuksia palvelujensa kehittämiseen erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla tavoitteena oli edistää näitä mahdollisuuksia määrittelemällä käyttöön soveltuva testiympäristö ja tekemällä käytännön kokeiluja esimerkkiaineistoilla. Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin nousivat tilaajien/käyttäjien käyttäytymisen parempi ymmärtäminen eli sisältöjen lukeminen ja tilaajakäyttäytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten kohdistaminen, ja mainosten näyttömäärien ennustaminen. Hankkeen käytännön työn kohteeksi valittiin klikkausdata ja sen hyödyntäminen palvelujen käyttötapojen analysoinnissa ja suosituksissa. Suositusten osalta päätettiin rajautua UPCVmenetelmän käyttöön. Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa käytettiin avoimen lähdekoodin R- ja Weka -ohjelmistoja sekä pienessä määrin Microsoftin Azure Machine Learning -ympäristöä. Näistä viimeksi mainittu tukee mallien kehittämisen ohella myös kehitettyjen mallien käyttöönottoa REST API -rajapinnan kautta. Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niistä toinen perustui evästeisiin, ja toinen kirjautuneiden käyttäjien anonymisoituun käyttödataan. Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. evästeiden ikäjakauman ja eväste/käyttäjätilikohtaiset klikkausmäärät. Assosiaatiosääntöjä käytettiin palveluyhdistelmien tunnistamiseen. Klusterointia käytettiin luokittelemaan evästeet/käyttäjätilit erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista klikkausmäärää ennustettiin multiclass decision jungle -menetelmällä. Datan perustella käyttäjistä erottui selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen suhteen. Palvelujen käytön toistuvuus tuli aineistossa hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten signaalien löytämiseen muuttumassa olevista käyttötavoista. UPCV-menetelmää kokeiltiin evästeaineistolla ja menetelmän oletusasetuksilla. Saatuja suositustuloksia tarkasteltiin laadullisesti aineistosta tasavälein poimitussa otoksessa. Havaintona oli, että jos käyttäjällä on klikkauksia vain osastotasolle tai vain hyvin suosittuihin artikkeleihin, suositukset eivät vaikuttaneet merkityksellisiltä; relevantilta vaikuttavien suositusten tuottamiseksi käyttäjällä tulisi olla klikkauksia myös vähemmän suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelmästä.

AB - Hankkeen tavoitteena oli edistää mediatalojen mahdollisuuksia palvelujensa kehittämiseen erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla tavoitteena oli edistää näitä mahdollisuuksia määrittelemällä käyttöön soveltuva testiympäristö ja tekemällä käytännön kokeiluja esimerkkiaineistoilla. Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin nousivat tilaajien/käyttäjien käyttäytymisen parempi ymmärtäminen eli sisältöjen lukeminen ja tilaajakäyttäytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten kohdistaminen, ja mainosten näyttömäärien ennustaminen. Hankkeen käytännön työn kohteeksi valittiin klikkausdata ja sen hyödyntäminen palvelujen käyttötapojen analysoinnissa ja suosituksissa. Suositusten osalta päätettiin rajautua UPCVmenetelmän käyttöön. Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa käytettiin avoimen lähdekoodin R- ja Weka -ohjelmistoja sekä pienessä määrin Microsoftin Azure Machine Learning -ympäristöä. Näistä viimeksi mainittu tukee mallien kehittämisen ohella myös kehitettyjen mallien käyttöönottoa REST API -rajapinnan kautta. Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niistä toinen perustui evästeisiin, ja toinen kirjautuneiden käyttäjien anonymisoituun käyttödataan. Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. evästeiden ikäjakauman ja eväste/käyttäjätilikohtaiset klikkausmäärät. Assosiaatiosääntöjä käytettiin palveluyhdistelmien tunnistamiseen. Klusterointia käytettiin luokittelemaan evästeet/käyttäjätilit erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista klikkausmäärää ennustettiin multiclass decision jungle -menetelmällä. Datan perustella käyttäjistä erottui selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen suhteen. Palvelujen käytön toistuvuus tuli aineistossa hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten signaalien löytämiseen muuttumassa olevista käyttötavoista. UPCV-menetelmää kokeiltiin evästeaineistolla ja menetelmän oletusasetuksilla. Saatuja suositustuloksia tarkasteltiin laadullisesti aineistosta tasavälein poimitussa otoksessa. Havaintona oli, että jos käyttäjällä on klikkauksia vain osastotasolle tai vain hyvin suosittuihin artikkeleihin, suositukset eivät vaikuttaneet merkityksellisiltä; relevantilta vaikuttavien suositusten tuottamiseksi käyttäjällä tulisi olla klikkauksia myös vähemmän suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelmästä.

M3 - Report

T3 - VTT Tutkimusraportti

BT - Big Datan mahdollisuudet media-alalla

PB - VTT Technical Research Centre of Finland

ER -

Bäck A, Ollikainen V, Södergård C, Vainikainen S. Big Datan mahdollisuudet media-alalla. VTT Technical Research Centre of Finland, 2015. 24 p. (VTT Tutkimusraportti; No. VTT-R-04362-15).