#3 Methodes voor het voorspellen van aardbevingen

13-05-19 / Sophie Smits

Joanneke schreef vorige week al over het maatschappelijke doel van de LANL Kaggle competition om aardbevingen te voorspellen. In deze blog vertel ik kort welke data er gebruikt wordt en welke methodes we kunnen gebruiken om de voorspellingen te doen.

De data

De data die we gebruiken voor de Kaggle Competition bestaat uit een trainingsset en een testset. De trainingsset bestaat uit 629 miljoen regels data. Hierin staan seismische signalen en een gegeven tijd (in secondes) tot de volgende aardbeving. De testset bestaat uit ruim 2.600 segmenten van elk 150.000 regels met seismische golven. De bedoeling is dat het model uiteindelijk voor elk segment in de testset voorspelt hoelang het nog duurt tot de volgende aardbeving.

Methode 1: time series modellen

Voor het maken van voorspellingen kunnen we gebruikmaken van een recurrent neural network. Een recurrent neural network is een neuraal netwerk dat gericht is op het maken van voorspellingen aan de hand van time series. De dataset van de competitie is een tijdreeks en maakt dit netwerk daarom geschikt.

Methode 2: data in tabelvorm

Een tweede manier om voorspellingen te doen is om de trainingsset van time series in tabulaire data om te zetten. Dit kan door de time series in segmenten te verdelen en variabelen aan te maken die wat zeggen over een bepaald segment. Hierbij kan gedacht worden aan bijvoorbeeld het gemiddelde, maximum en minimum seismisch signaal van dat segment. Op deze manier kunnen honderden variabelen gegenereerd worden voor elk segment. Elke regel in de tabel geeft dan de gegenereerde variabelen voor dat segment weer. Vervolgens kan hier machine learning op toegepast worden, met behulp van bijvoorbeeld een XGBoost- of LGB-model. Deze modellen zijn zeer geschikt voor tabulaire data.

Methode 3: modellen combineren

Een derde optie die we kunnen gebruiken is een combinatie van bovenstaande opties. Onze voorspellingen van het tijdreeksmodel kunnen we dan combineren met de voorspellingen gebaseerd op de tabulaire data. Op deze manier proberen we een model te creëren dat minder gevoelig is voor specifieke fouten.

Volg wekelijks de blog over de Kaggle competition en blijf op de hoogte.  Het team bestaat uit consultants van Solid Professionals en Hermes Partners en doet mee onder de naam van onze overkoepelende organisatie ‘The Hup’. Benieuwd op welke positie zij nu staan? Kijk dan hier.

Naast Sophie Smits bestaat het team uit: Casper RutjesJoanneke MeijerLars de RuiterLaurens ReulinkLaurens StronksMarlon Velthorst en Viviënne Haring.

Deel:

Terug naar blogs