Project R-9422

Titel

Optimaliseren van geavanceerde analytische taken over gedistribueerde data (Onderzoek)

Abstract

In het tijdperk van big data worden bedrijven en wetenschappelijke instellingen geconfronteerd met gegevens die voorkomen in variëteiten en volumes die nog nooit eerder zijn aangetroffen. Tegelijkertijd bestaan ​​er nieuwe behoeften en verwachtingen over het inzicht en de intelligentie die kunnen worden afgeleid uit deze gegevenssets met behulp van voorspellende analyses via statistische en machine-learning modellen en algoritmen. Hoewel sampling een veelgebruikte, gebruikte techniek is om de kloof tussen grote datasets en diepe analyses te overbruggen via experttools, is er tegenwoordig, gedreven door goedkope opslag- en verwerkingscapaciteit, een enorme vraag om de volledige dataset te gebruiken. In dit voorstel richten we ons op de ondersteuning van geavanceerde big data-analyse door een nieuwe generatie gedistribueerde query-engines. Hier wordt de term big data-analyse gebruikt als een overkoepelende term voor complexe taken die traditionele querybewerkingen combineren, zoals tabel joins en bewerkingen uit lineaire algebra, zoals matrixvermenigvuldiging. In het bijzonder proberen we big data-analyses te ondersteunen vanuit een databaseperspectief, waarbij een gedistribueerde query-engine een solide ondersteunende omgeving biedt voor effectieve berekening en optimalisatie van typische geavanceerde analytische taken. Het algemene doel van dit project is bij te dragen tot een beter fundamenteel begrip van hoe complexe data-analytische workflows kunnen worden uitgevoerd in een big data-setting, waarbij distributie en parallellisatie centraal staan.

Periode

01 januari 2019 - 31 december 2022