Spark Summit 2015

Wessel en Tamara zijn van 27 – 29 oktober bij de allereerste Spark Summit in Europa geweest. Het was druk, het was technisch, het was internationaal en het was inspirerend.

Clear Value @ Spark Summit

Wat is Spark?

Spark is een open source analyse platform om data te kunnen rapporteren en analyseren via gedistribueerde methodes en technieken. De clue zit ‘m in gedistribueerd. Door gedistribueerd te werken is het mogelijk om (stukken van) computer programma’s naast elkaar te kunnen laten draaien, in plaats van alles achter elkaar uit te voeren. Daardoor is het mogelijk om een analyse veel sneller te laten uitvoeren dan via traditionele technieken. Of, sterker nog, er zijn genoeg situaties waarbij een analyse überhaupt niet uitgevoerd kan worden op 1 computer, simpel weg omdat de data niet meer past op 1 computer. In zulke gevallen biedt Spark een oplossing.
Vandaar de geschiktheid voor big data analyses.

Databricks en IBM als grote koplopers

Spark heeft momentum, dat is duidelijk. Je ziet dat steeds meer grote software bedrijven en aanbieders van cloud diensten aan de slag gaan met het implementeren van Spark voor eigen processen en met het aanbieden van Spark aan klanten. Niet op de laatste plaats vinden we IBM, die onlangs heel duidelijk haar commitment voor Spark heeft uitgesproken. “Spark is agile, fast and easy to use.” aldus IBM.

Naast Databricks, het bedrijf dat is ontstaan vanuit de makers van Spark en dat nu nog steeds voor zo’n 75% verantwoordelijk is voor de doorontwikkeling van Spark, was IBM op de summit zwaar vertegenwoordigd. Van de circa 20 stands in de exhibition hall was de aanloop bij IBM en Databricks groot, en ook hun bijdrage aan de summit in de vorm van keynotes, presentaties en andere activiteiten was groot.

IBM: “Spark is HET analytical operating system van het komende decennium.”

Een duidelijke uitspraak. Waar we ons wel wat bij kunnen voorstellen.

Cloudera, een van de grootste – wellicht wel de grootste – aanbieder van cloud diensten, had ook behoorlijke aanloop. De signeersessie van het book ‘Advanced Analytics with Spark’ veroorzaakte een behoorlijke rij. Helaas voor ons waren wij hiervoor te laat.

Veel potentie, maar nog niet volwassen

De voordelen van Spark waren ons al duidelijk en werden op de summit nog eens bevestigd:

  • Spark is snel. Niet alleen in het verwerken van data, maar ook over de hele linie verkort Spark de time-to-market van gehele data-driven projecten;
  • Spark levert een complete suite van analyse tools: streaming, SQL, machine learning, Graph en werkt met diverse talen: Scala, Java, Python en R;
  • Spark is toegankelijker (gemakkelijker te leren), dan Hadoop/MapReduce programma’s die tot nu toe de standaard waren bij Big Data.

We zijn ervan overtuigd dat Spark, door deze voordelen, het gaat ‘winnen’ van Hadoop/MapReduce. Maar we realiseren ons dat we er nog niet zijn, er is echt nog een aantal zaken die verder doorontwikkeld moeten worden om alles nog gebruikersvriendelijker te maken.

Beweging van data engineering / development naar data science / business analysis

Het is ons erg opgevallen dat de spark summit erg technisch van aard was. De meeste presentaties hadden behoorlijke technische diepgang, en meer dan eens miste de business context. De meest voorkomende use case bleek te zijn dat Spark de performance heel sterk heeft verbeterd. Maar een echte business aanpak ontbrak wat ons betreft te vaak. Zonde!! Want die use case is er dikwijls wel!

Aan het woord: Hossein Falaki van Databricks over SparkR

Aan het woord: Hossein Falaki van Databricks over SparkR

Wel werd heel duidelijk uitgelegd, vooral door Databricks en IBM, dat er een verschuiving plaatsvindt van focus: het is niet langer de data engineer die die primaire gebruikersgroep van Spark is, maar de beoogde gebruikersgroep is de data scientist.

Databricks timmert hard aan de weg om een volledige integratie te maken van R in Spark, een tool die wij en onze collega data scientisten heel vaak gebruiken. Het ultieme doel is dat de gebruiker van R überhaupt niet meer hoeft na te denken of zijn data nu gedistribueerd is of zou moeten zijn.  Het is de bedoeling dat Spark dit volledig onder de motorkap verzorgt.

IBM vervangt achter de schermen alle Hadoop/Mapreduce programma’s door Spark en geeft heel duidelijk aan dat zij ervoor willen zorgen dat de data scientist volledig zelfstandig aan de slag kan met de data op hun platform. Dus zonder tussenkomst van een developer of data engineer.

Business use cases

Zoals vermeld waren de uses cases wat ons betreft iets te technisch bij deze summit. Wij zouden het zeker toejuichen als er de volgende keer naast de application, developer en data science track ook een business track komt.

Hierbij toch een aantal cases.

  1. Hortonworks heeft een use case behandeld over een claims afhandeling van een amerikaanse verzekeraar. Met behulp van Spark heeft deze verzekeraar de diepgang van hun analyses (voorheen middels R op losse computers) zodanig verbeterd, dat dit de claims afhandeling veel efficiënter heeft gemaakt. Voorheen kon slechts een deel van de claims worden geanalyseerd, en niet zo diep als gewenst – zo werd tekstanalyse in het geheel buiten beschouwing gelaten. Met Spark zijn modellen gebouwd en konden alle claims geanalyseerd worden.
    Het verkezeringsbedrijf kan hierdoor veel beter sturen op overbetaling. Dit heeft besparingen opgeleverd van honderdduizenden dollars op jaarbasis (aldus Hortonworks). Exacte cijfers zijn niet genoemd
  2. IBM heeft een case behandeld over een bus maatschappij in Madrid. In de huidige/oude situatie zijn er diverse medewerkers die de verkeerssituatie in de gaten houden en eventueel actie ondernemen wanneer het ergens te druk wordt.
    In een groot project zijn er in Madrid zo’n 3000 sensors geplaatst die het verkeer meten. Deze data wordt realtime verwerkt en geanalyseerd door Spark. Als het verkeer binnen bepaalde bandbreedtes blijft, dan gebeurt er niets, maar wanneer het erg druk wordt op bepaalde punten, dan worden busroutes omgeleid en verkeerslichten aangepast om zo toch een zo goed mogelijke doorstroom te bereiken.
    Resultaat is flinke besparing op arbeidskrachten en hogere klanttevredenheid door betere en snellere reactie op veranderende omstandigheden
  3. Bitly produceert maandelijks 7 Terabyte aan data. Echte big data dus. Toch willen zij graag snel interactief analyses kunnen doen om klantgedrag te kunnen analyseren. Sarah van Bitly heeft ons tijdens haar presentatie meegenomen in een tweetal analyses: een clustering van de afgekorte links in logische groepen (topic modelling) en het voorspellen van trends (trend detection).  Het eerste voorbeeld, de indeling in groepen, is vooral handig bij het intern sturen. Het tweede voorbeeld is een dienst die Bitly direct aan haar klanten kan bieden door hen te adviseren over zeer goed presterende content.
    Deze analyses werden voor Spark niet gestructureerd gedaan, maar kunnen nu wel gedaan worden. Betere sturing en hogere toegevoegde waarde voor hun klanten als gevolg.

Onze conclusie

Het zal niet als verrassing komen, maar wij zien veel potentie in Spark. We verwachten dat in 2016 de trend zich verder zal voorzetten dat Spark nog toegankelijker zal worden voor de data scientist en dat stukken van het werk van de data engineer straks onder de Spark motorkap zullen gebeuren.

Als een bedrijf nu nog geen gebruik maakt van big data technologieën, maar daar wel behoefte aan heeft, dan denken wij dat het in veel gevallen de moeite loont om rechtstreeks met Spark aan de slag te gaan. We zien veel toegevoegde waarde in big data analytics.

Google Zoektrends wereldwijd Apache Spark versus Mapreduce

Google Zoektrends wereldwijd Apache Spark versus Mapreduce

Meer weten?

Clear Value voert momenteel een aantal proof-of-concept projecten uit gebruik makend van Spark.
Heb je ook interesse om te bespreken of Apache Spark iets kan voor je kan betekenen of heb je ook interesse in een proof of concept? Neem dan gerust contact op met een van ons.

Neem contact op met ons