Wat speelt er bij EDM.

afbeelding-big-data-expo-blogpost.jpg

Wat als je niet bij Google werkt?

Keuzes in Data Science met beperkte resources

In Data Science is ‘being ahead of the curve’ een soort paradijselijk streven. De gemiddelde Engineer of Scientist wil beschikken over nieuwe experimentele technieken, terwijl de meeste bedrijven zich nog in het midden van die curve bevinden. Zo ook EDM.

Er wordt in Europa al ruim 25 jaar met zelflerende modellen gewerkt, maar pas een aantal jaren met de nieuwste technieken. En dat brengt weer nieuwe uitdagingen met zich mee. Omdat ook wij niet over de resources beschikken zoals bijvoorbeeld Google, hebben we een pragmatische oplossing ontwikkeld om AI structureel te kunnen inzetten.

Ook bij EDM dromen we van een overvloed aan Data Engineers en Data Scientists en overal geautomatiseerde processen. We dromen van een wereld waar iedereen elke programmeertaal kent en waar we beschikken over onbeperkte en gratis computing power. En niet te vergeten: perfecte datakwaliteit. Maar helaas, de werkelijkheid is anders. We hebben namelijk geen eindeloze hoeveelheid resources en zijn gedwongen om dagelijks keuzes te maken voor een goed resultaat voor onze klanten.

Van ruwe data tot een volledig klantbeeld
Onze opdrachtgevers willen hun business laten groeien en beter communiceren met klanten, onder andere door te handelen op actionable insights van klantgedrag. Om via modellen een goed klantbeeld te krijgen, is kwalitatief goede en geintegreerde data een vereiste, en daaraan ontbreekt het vaak. Er wordt veelal gewerkt met versnipperde klantdata in diverse operationele systemen. In onderstaand voorbeeld is te zien hoe verschillende gegevens worden achtergelaten in de fasen van de customer journey. Het verzamelen van de juiste actionable insights is dus niet zozeer het probleem, het structureren blijkt daarentegen een opgave.

afbeeldingen-big-data-expo-blogs-1.png

Met behulp van referentie- en profieldata van alle Nederlandse huishoudens, verbetert, verrijkt en combineert EDM de losse klantdata tot één golden record. Daarbij worden onder meer oude en nieuwe adresgegevens gecombineerd en losse klanten samengevoegd tot één gezin. Vervolgens worden profiel- en gedragskenmerken uit in- en externe databronnen toegevoegd zoals aankopen, klantcontacten, nieuwsbrief abonnementen, promotie en reactie historie, klikgedrag, sociodemografie en lifestyle. Hierdoor ontstaat een volledig klantbeeld dat nodig is voor goede voorspellingen.

Actionable insights
Aan de hand van klantvoorspellingen kan de opdrachtgever relevanter communiceren. Met AI modellen kunnen deze voorspellingen vrij eenvoudig worden gerealiseerd (zie onderstaand voorbeeld). Soms zijn dat custom modellen, maar EDM voegt in ieder geval per consument zes AI-scores toe:
1. Mate van look-a-like van een bepaalde groep
2. Klanttype
3. Beste aanbieding voor cross-sell
4. Beste aanbieding voor upsell
5. Respons gevoeligheid
6. Kans op vertrek (churn)

afbeeldingen-big-data-expo-blogs-2.png

Wat zijn de beperkingen van deze dataverwerking?

Het is niet moeilijk om voor bovenstaande een AI-model te ontwikkelen en met de hand te runnen. Maar als je veel verschillende modellen wilt gebruiken en die dagelijks wilt toepassen, dan is handwerk geen optie meer. Het kost namelijk veel tijd, is complex en kan hoge kosten met zich meebrengen.

Custom dataverwerking is mensenwerk en complex
Custom dataverwerking is arbeidsintensief, foutgevoelig en afhankelijk van specialisten. Laten we eerlijk zijn: daar hebben we er onvoldoende van rondlopen. De specialisten onderling (Engineers, Analisten, Scientists) werken bovendien niet allemaal met dezelfde software, dus code is versnipperd.

Grotere datasets en hoge kosten
De datasets worden groter en daardoor wordt de datatransmissie een steeds groter probleem. Ook het Spark cluster kost ons ruim €6.000,- per maand, wat natuurlijk veel geld is, zeker als het maar beperkt gebruikt wordt. Verder zijn er juridische en security randvoorwaarden en beperkingen vanuit opdrachtgevers, zoals het wel of niet mogen gebruiken van de grote (Amerikaanse) cloudleveranciers. EDM is ISO27001 gecertificeerd, dus alles moet gestructureerd en secure ingericht zijn.

De Modellenfabriek

Al met al een behoorlijke uitdaging om met weinig resources, opdrachtgevers goed van dienst te kunnen zijn. Met het oog hierop hebben we nagedacht over een pragmatische en toegankelijke oplossing: de ‘Modellenfabriek’. Met deze oplossing worden kosten beperkt en tegelijkertijd de mogelijkheden voor het inzetten van AI vergroot en schaalbaar.

De Modellenfabriek heeft de volgende uitgangspunten:
1. Het toepassen van de bestaande modellen moet ook uitgevoerd kunnen worden door niet-Scientists en zoveel mogelijk geautomatiseerd zijn.
2. De datatransmissie moet minimaal zijn.
3. MS SQL blijft de basistaal voor de data.
4. Niet-Scientists moeten eenvoudig AI modellen kunnen ontwikkelen.
5. De werking van de modellen moet inzichtelijk zijn.
6. De modellen moeten onderhouden kunnen worden.

Hoe hebben we dit aangepakt?

afbeeldingen-big-data-expo-blogs-3.png

Welke keuzes zijn er gemaakt; hard- en software, dataprocessing, monitoring en capaciteit
Doorgaans is een Scientist continu bezig met het samenvoegen van losse databestanden, deze te corrigeren en te verrijken, om hier vervolgens een model van te maken. Met de Modellenfabriek is het proces zo ingericht dat alle brondata centraal door ons geautomatiseerde datakwaliteit proces loopt zodat een Scientist direct kan starten met een goede, geintegreerde dataset. Dit scheelt veel tijd, biedt een betere kwaliteit en minimaliseert handmatig werk.

Er is gekozen om de data op de eigen servers in SQL te verwerken en afscheid te nemen van het eigen Spark cluster. Zodra een cluster nodig is, maken we een Azure omgeving beschikbaar. Dat scheelt zo’n €60.000,- per jaar.

De Python scripts die de scoring uitvoeren draaien binnen de SQL-omgeving, tenzij een cluster nodig is. Door Python in SQL te draaien verwijderen we een datatransmissie stap ten opzichte van het laden van de data in-memory of zelfs nog meer ten opzichte van de transmissie naar het Spark cluster.

De dashboards die al langere tijd gebruikt worden door medewerkers en klanten, zijn uitgebreid met een model performance pagina. Dit is een dashboard waarin ze dagelijks werken, waardoor er niet nóg een nieuwe tool bij komt.

De Scientists houden zich met name bezig met ontwikkeling, de Analisten roepen via templates AI-modellen op en hoeven feitelijk alleen features te ontwikkelen om een nieuw model te maken met de bestaande technieken. Hiermee is de datascience technologie beschikbaar voor niet-scientists.

A step on the curve

Met de Modellenfabriek lukt het ons om AI schaalbaar in te zetten binnen alle beperkingen. We zijn ervan overtuigd dat er veel bedrijven zijn in een vergelijkbare situatie en die hiermee, net zoals EDM, een stapje op de Data Science curve kunnen zetten.

Dit blog is geschreven naar aanleiding van de lezing over de Modellenfabriek, gegeven door Robert Feltzer en Roelant Stegmann op de Big Data Expo 2019.

Heeft u vragen of wilt u meer informatie? Neem dan gerust contact met ons op.

Nieuwsoverzicht
Verstand van data.
Gevoel voor marketing.