Ota yhteyttä

Ammattina datatieteily

6.10.2015 9:53

Data Science -termi on suomennettu datatieteilyksi, jota harjoittavat datatieteilijät. Datatieteily on suurten datamäärien ymmärtämistä ja järjestämistä.

InlineMarketin kaksi datatieteilijää, Arun ja Raj, jakavat ajatuksiaan työstään, joka on tällä hetkellä yksi it-alan kuumimmista. 

Mitä on datatieteily?

Datatieteily on lainalaisuuksien, poikkeuksien ja riippuvuussuhteiden löytämistä suurista datamääristä. Dataa pureskellaan kunnes siinä on vähemmän muuttujia enemmän rakennetta. Datan analysointi voidaan aloittaa vasta kun siihen on saatu hahmotettua ymmärrettävää rakennetta. 80% työstä on datan siistimistä ja prosessointia, ja 20% datan tulkitsemista ja kääntämistä jotta se tuottaisi arvoa.

Työmme voi karkeasti ottaen jaotella kolmeen alueeseen:

  1. Dataputken rakentaminen jotta se säilyy ja siihen pääsee helposti käsiksi
  2. Datan siistiminen ja rakenteellistaminen jotta analysointi olisi mahdollista
  3. Analysointi ja älykkyyden löytäminen datasta perustuen liiketoiminnan asettamiin tavoitteisiin

Minkälaisia liiketoimintatarpeita asiakkailla on?

Tyypillisesti asiakkaan markkinointi- tai BI-yksikkö haluaa kerryttää ymmärrystä asiakkaiden käyttäytymisestä myynti- tai markkinointitoimenpiteiden suhteen. Ajatellaanpa vaikka vähittäiskauppaketjua, jolla on kahdentyyppisiä kauppoja; lähikauppa ja supermarket. Halutaan ymmärtää vaikkapa 32-vuotiaiden miesten ostokäyttäytymistä oluen ja vaippojen suhteen: ostevatko he lähikaupasta sekä vaipat että oluet koska ne sijaitsevat vierekkäisillä hyllyillä? Vai ostavatko he molemmat supermarketista, vaikka ne ovat kaukana toisistaan, mutta molempia mainostetaan runsaasti.

Etsimme datasta riippuvuustekijät ja saamme muuttujien määrän vähennettyä tuhansista alle kahteensataan. Näin pystymme tarjoamaan lukuja joiden perusteella asiakas voi päättää hyllypaikkojen uudelleenjärjestelyistä ja markkinoinnin kohdentamisesta.

Toinen esimerkki tulee kuluttajaelektroniikan toimialalta. Keräämme jatkuvasti uusista tuotteista isoja määriä kuluttajien kyselytutkimuksiin perustuvaa dataa. Halusimme ymmärtää kuinka kuluttajat näkevät ja käyttävät tuotteen eri ominaisuuksia. Sitten järjestimme datan ja rakensimme 95% tarkkuudella toimivan koneoppimisen sen päälle. Prosessi toimii samoin kuin vaikkapa web-analytiikassa.

Kuinka paljon dataa on "isossa datassa"?

Määrittely riippuu aina organisaation koosta. Jos on pakko sanoa lukuja, dataa voi kutsua isoksi kun sitä kertyy Teratavun (TB) verran päivässä. Teratavu on tuhat Gigatavua. InlineMarketin asiakkaiden tietokannassa voi olla 500 miljoonaa datapistettä (data point).

Minkälaisia työkaluja tarvitsette työssänne?

Datatieteilyssä yleisimmin käytetty ohjelmointikieli, tai ympäristö, on nimeltään "R". Se on perustava osa työtämme. Lisäksi käytämme SQL servereitä ja niiden analysointopalveluita, pilvivarastoja, Microsoft Power BI -ohjelmistoa - sekä viimeisimpänä muttei vähäisimpänä - Excel ei ole meille täysin tuntematon väline;)

Kuinka hektistä datatieteilijän työ on? Tapahtuuko kaikki reaaliajassa vai oletteko hautautuneet arkistoon kaivamaan dataa?

Pullonkaulana on rakentaa toimiva dataputki analysointia varten. Kun se on tehty, kaikki toimii aika lailla reaaliaikaisesti.

Minkälaista osaamista ja kyvykkyyttä tarvitaan tullakseen datatietelijäksi?

Se on cocktail johon on sekoitettu matemaattis-tilastotieteellistä ymmärrystä, hakkerointia, perinteistä tutkimusosamista, koneoppimista ja toimialakohtaista substanssiosaamista. Kaikkia näitä aiheita pitää ymmärtää, ja paria niistä syvemmin. Datatieteily kehittyy niin kovaa vauhtia että osaamisen pitäminen ajantasalla on haastavaa - ja osaamisen tuloksellinen hyödyntäminen vielä haastavampaa.

Data Table

Data Science is about understanding and structuring large amounts of data. InlineMarket's two data scientists, Arun and Raj, share thoughts on their line of work.

What is Data Science?

Data Science is finding patterns, anomalies and dependencies in large data sets. The data is being chewed down to have less variables and more structure. After structuring the data, it is only then even possible to start analysing it. Majority, even 80% is data engineering, i.e. cleaning and processing the data, and the remaining 20% is interpreting the data to be valuable and actionable.

Our job can be roughly divided into the following areas:

  1. Creating the pipeline for the data to be stored properly and accessed easily
  2. Cleaning and bringing structure to make the data ready for analysis
  3. Analysing and creating intelligence out of the data based on the business questions one is after.

Can you give an example of a data science case for business needs?

Typically the customer's BI unit wants to gain more insight on the customers' behaviour regarding sales or marketing performance. Let's imagine there are two types of stores in the chain; the local grocery store and the hypermarket. We would like to know if 32-year old male customers from certain area who are buying beer, also buy diapers when they are located next to each other in the store. In the hypermarket, they are located far away from each other, but are being heavily advertised.

Data science can discover dependencies between all the variables, and find out that advertising is not cost effective without moving the beer and the diapers closer in the hypermarket.

Another case is from consumer electronics. We are collecting large amount of feedback data regarding a new electronics product. We want to understand how they perceive and use the product's features. What we did was structuring the data and building machine learning on top of it with 95% accurancy rate. It was very similar how web analytics works.

How much data is big data?

It depends always on the size of the organisation. Data can be called big when there is, say, one terabyte of data being produced each day. We at InlineMarket are discovering knowledge from databases of more than 500 million data points in them.

What kind of tools do you need to succeed?

The main programming language, or environment, in data science is called "R". That is essential part of our work. In addition, we use SQL servers, Microsoft Analysis Services, cloud storages, Microsoft Power BI - and last but not least - Excel is not totally unfamiliar to us;)

How frantic is Data science? Is everything happening realtime or are you just buried in the data mining archives?

Setting up the pipeline for data analytics is the bottleneck. Once it is in place, everything works pretty much in realtime.

What kind of skill/mind-set is required to become a data scientist?

It is a cocktail containing mathematical and statistical knowledge, hacking, traditional research, machine learning and substantial industrial understanding. You have to be jack of all trades and a master in a couple. Data science evolves in such a fast pace that just in order to keep on top of it is challenging. To utilise your knowledge effectively is even more challenging.