Databricks Lakehouse Platform is vernieuwd
Databricks, data- en AI-speler in lakehouse-architectuur, heeft tijdens de uitverkochte Data + AI Summit in San Francisco de nieuwste versie van het Databricks Lakehouse Platform onthuld. Nieuw zijn onder meer de best-in-class datawarehousing performance en functionaliteit, uitgebreide data governance, nieuwe innovaties op het gebied van data delen, waaronder een analytics-marktplaats en Cleanrooms voor veilige datasamenwerking, automatische kostenoptimalisatie voor ETL-acties en machine learning (ML) lifecycle-verbeteringen.
"Onze klanten willen business intelligence, AI en machine learning op één platform waar hun data zich al bevindt. Dit vraagt om best-in-class datawarehousing-functionaliteiten die direct op hun data lake kunnen worden ingezet. We hebben zelf de lat erg hoog gelegd en bewijzen keer op keer dat datateams met het Databricks Lakehouse Platform het beste van twee werelden hebben op een eenvoudig, open en multi-cloud platform", zegt Ali Ghodsi, mede-oprichter en CEO van Databricks. "De aankondigingen van vandaag betekenen een belangrijke stap voorwaarts in onze Lakehouse-visie, omdat we het sneller en gemakkelijker dan ooit maken om de waarde van data te maximaliseren, zowel binnen als tussen bedrijven."
Organisaties als Amgen, AT&T, Northwestern Mutual en Walgreens maken de overstap naar het lakehouse vanwege de mogelijkheid om analyses uit te voeren op zowel gestructureerde als ongestructureerde data. Vandaag onthult Databricks nieuwe datawarehousing mogelijkheden op zijn platform die de analyse activiteiten verder verbeteren.
Databricks SQL Serverless is beschikbaar als preview op AWS en biedt directe, veilige en volledig beheerde elastische bewerkingen voor verbeterde prestaties tegen lagere kosten.
Photon, de recordbrekende query engine voor lakehousesystemen, komt in de komende weken algemeen beschikbaar op Databricks Workspaces, waarmee het bereik van Photon over het platform verder wordt uitgebreid. Sinds Photon twee jaar geleden werd aangekondigd, heeft het exabytes aan data verwerkt, miljarden query’s uitgevoerd en een in de markt toonaangevende prijs-prestatieverhouding geleverd die tot 12 keer beter is dan die van traditionele clouddatawarehouses.
Open source connectoren voor Go, Node.js en Python maken het nu nog eenvoudiger om vanuit operationele applicaties toegang te krijgen tot het lakehouse.
Databricks SQL CLI stelt ontwikkelaars en analisten nu in staat om query’s direct vanaf hun lokale computer uit te voeren.
Databricks SQL biedt nu de mogelijkheid om query’s uit te voeren op externe databronnen zoals PostgreSQL, MySQL, AWS Redshift en andere, zonder dat het nodig is om eerst de data uit de bronsystemen te halen en te laden (query federation).
Datagovernance is topprioriteit met geavanceerde functionaliteiten voor Unity Catalog
Unity Catalog is nu algemeen beschikbaar op AWS en Azure en biedt een gecentraliseerde governance oplossing voor alle data en AI assets, met ingebouwde search en discovery, geautomatiseerde lineage voor alle workloads, met prestaties en schaalbaarheid voor een lakehouse op elke cloud. Databricks introduceerde bovendien eerder deze maand data lineage voor Unity Catalog, waarmee de mogelijkheden voor data governance op het lakehouse aanzienlijk worden uitgebreid en waarmee bedrijven een compleet beeld krijgen van de gehele datalevenscyclus. Dankzij data lineage krijgen klanten inzicht in waar data in hun lakehouse vandaan komt, wie deze heeft aangemaakt en wanneer, hoe de data in de loop der tijd is gewijzigd, hoe deze wordt gebruikt in datawarehousing en data science workloads, en nog veel meer.
Als eerste marktplaats voor alle data en AI, biedt Databricks Marketplace een open marktplaats voor het verpakken en distribueren van data en analytics. Databricks Marketplace gaat verder dan alleen het aanbieden van datasets. Het stelt aanbieders van data in staat om op een veilige manier een groot aantal middelen te verpakken en te gelde te maken, zoals datatabellen, bestanden, machine learning-modellen, notebooks en analytics-dashboards. Dataconsumenten kunnen eenvoudig nieuwe data en AI-assets vinden, direct starten met hun analyses en sneller inzichten en waarde uit data halen. In plaats van toegang te krijgen tot een dataset en zelf tijd te investeren in het ontwikkelen en onderhouden van dashboards om erover te rapporteren, kunnen ze zich bijvoorbeeld abonneren op bestaande dashboards die al de nodige analyses bieden. Databricks Marketplace werkt met Delta Sharing, waardoor dataleveranciers hun data kunnen delen zonder deze te hoeven verplaatsen of te kopiëren vanuit hun cloudopslag. Dit stelt aanbieders in staat om data te leveren aan andere clouds, tools en platforms vanuit één enkele bron.
Databricks helpt klanten ook bij het delen van en samenwerken met data over organisatiegrenzen heen. Cleanrooms zullen in de komende maanden beschikbaar worden en een manier bieden om data te delen en samen te voegen tussen organisaties op een manier waarbij privacy centraal staat, met een veilige, gehoste omgeving en zonder dat het kopiëren van data nodig is. Als voorbeeld van een toepassing in media en reclame, willen twee bedrijven mogelijk inzicht krijgen in de overlap tussen doelgroepen en het bereik van campagnes. Bestaande cleanroomoplossingen hebben grenzen, omdat ze meestal beperkt zijn tot SQL-tools en het risico bestaat dat gegevens over meerdere platforms worden gedupliceerd. Met Cleanrooms kunnen organisaties eenvoudig samenwerken met klanten en partners in elke cloud en hen de flexibiliteit bieden om complexe berekeningen en workloads uit te voeren met zowel SQL als op data science gebaseerde tools - waaronder Python, R en Scala - met consistente dataprivacycontroles.
MLflow 2.0 stroomlijnt en versnelt productie Machine Learning op schaal
Databricks blijft voorop lopen in MLOps-innovatie met de introductie van MLflow 2.0. Het in productie nemen van een machine learning-pipeline vereist het opzetten van infrastructuur, niet alleen het schrijven van code. Dit kan moeilijk zijn voor nieuwe gebruikers en vervelend voor iedereen op grotere schaal. MLflow Pipelines, mogelijk gemaakt door MLflow 2.0, regelt nu de operationele details voor gebruikers. In plaats van het opzetten van harmonisatie van notebooks, kunnen gebruikers eenvoudig de elementen van de pijplijn definiëren in een configuratiebestand en MLflow Pipelines beheert de uitvoering automatisch. Verder heeft Databricks ook Serverless Model Endpoints toegevoegd om direct het hosten van productiemodellen te ondersteunen, evenals ingebouwde Model Monitoring dashboards om teams te helpen de performance in het ‘echte-wereld-model’ te analyseren.
Delta Live Tables omvat de eerste prestatie-optimalisator voor data engineering pipelines
Delta Live Tables (DLT) is het eerste ETL-framework dat een eenvoudige, declaratieve benadering gebruikt voor het bouwen van betrouwbare data pipelines. Sinds de lancering eerder dit jaar blijft Databricks DLT uitbreiden met nieuwe mogelijkheden, waaronder de introductie van een nieuwe performance-optimalisatielaag die is ontworpen om de uitvoering te versnellen en de kosten van ETL te verlagen. Daarnaast is de nieuwe Enhanced Autoscaling speciaal ontwikkeld om op intelligente wijze middelen mee te schalen met de fluctuaties van streaming workloads. Change Data Capture (CDC) voor Slowly Changing Dimensions - Type 2, houdt eenvoudig elke verandering in brondata bij voor zowel compliance als het experimenteren met machine learning.