Big Data-analytics: snel en krachtig sturen op alle klantdata

De hamvraag: heb je een goed en volledig beeld van de behoefte van je klant?

De meeste bedrijven hebben de feitelijke transactiedata van hun klanten redelijk goed vastgelegd. Maar data omtrent hun (online) gedrag, voordat ze tot de transactie overgaan, is veelal niet vastgelegd, dan wel wordt niet echt uitgenut.

Behavioral data of in het Nederlands: gedragsgegevens

Juist deze data, data omtrent klantgedrag, is ontzettend waardevol om te ontsluiten, analyseren en te interpreteren.  Maar wegens het karakter van deze data is er ook iets bijzonders aan de hand. De data is groot (voordat iemand overgaat tot de 1 aankoop in je webshop gaan er wellicht honderden clicks aan vooraf). De data is zeer verschillend (clickdata op de website, cliks in emails, tweets enz). De data is ongestructureerd, bestaande uit lappen tekst (tweets, reviews op websites).  De data is vluchtig (het clickgedrag van een klant een uur geleden is belangrijker dan van een dag geleden en veel belangrijker dan van een maand geleden).

De opkomst van big data

Kortom: de ‘traditionele’ manieren van data analyse voldoet niet meer. Analyses duren te lang, komen te laat of lopen domweg vast. Je loopt tegen de grenzen van traditionele software en hardware.
Dit is een van de bestaansreden van big data en big data analytics. Big data in de vorm van Hadoop MapReduce kwam met een antwoord op deze vragen door een andere implementatie van software waarbij het mogelijk is verschillende computers (processen) te combineren om zo tot snellere analyses te komen.

Inmiddels zijn we enkele jaren verder en de ogen zijn nu gericht op Apache Spark. Apache Spark is een snelle en generieke engine voor het verwerken van Big Data (en Small Data). Het is een open source cluster computing framework dat gebruikt maakt van in-memory data sharing en is daardoor 10 tot 100 keer sneller dan Hadoop MapReduce.

Over Apache Spark.

Apache Spark is oorspronkelijk ontwikkeld in het AMPLab van de Universiteit van Californië in Berkeley (VS). De oplossing is later gedoneerd aan de Apache Software Foundation.

Waarom Apache Spark?

ApacheSparkSpark is snel. Door deze snelheid is Spark zeer geschikt voor het toepassen van machine learning-algoritmes. Bovendien is het een complete suite aan tools. Het is dus niet meer nodig om concessies te doen in de analyses en algoritmes simpel omdat de data te groot of te ingewikkeld is!

 

De belangrijkste voordelen van Apache Spark zijn:

  • Apache Spark is 10 tot 100 keer sneller dan Hadoop MapReduce;
  • Applicaties zijn makkelijk te schrijven in Java, Scala, Python en R;
  • Spark draait o.a. op Hadoop, standalone of in de Cloud;
  • Apache Spark combineert SQL, streaming en complexe analyses.

Voor wie is deze tool geschikt?

Apache Spark is heel geschikt voor elke onderneming

  • met veel (site-)bezoekers, veel producten en veel interacties, die in real-time aanbevelingen willen geven en verbeteren.
  • die ongestructureerde data (m.a.w. klikdata, tekstdata, social media-data), naast de bekende transactiedata in data warehouses wilen uitnutten
  • die op basis van veel klantdata modellen en algoritmes wil gebruiken om betere voorspellingen en aanbevelingen te kunnen doen
  • die rekensnelheid nodig hebben om batchprocessen sneller te laten lopen

Neem voor meer informatie vrijblijvend contact met ons op:

Klik hier en neem contact met ons op