Begin nu met duurzame data-architecturen! | Get started with sustainable data architectures!

De persoonlijke blog van Reinoud Kaasschieter | The personal blog of Reinoud Kaasschieter

Post

Een hangbrug in een bosCapgemini heeft zichzelf verplicht om een substantiële bijdrage te leveren aan het terugdringen van de CO₂-uitstoot. We streven ernaar om in 2040 een netto-nul bedrijf te zijn. Ook willen we onze klanten helpen om voor 2030 10 miljoen tCO₂e te besparen. Hierom moeten we rekening houden met de CO₂-impact van IT. Vandaag de dag is ICT verantwoordelijk voor ≈3% van de wereldwijde CO₂-uitstoot.¹ Datacentra zijn verantwoordelijk voor 2% van de wereldwijde uitstoot van kooldioxide als je alle apparaten meetelt die gebruik maken van dataopslag.² Interne dataopslag wordt niet eens meegeteld.

Zelfs als datacenters draaien op 100% hernieuwbare energie, die elektriciteit kan niet gebruikt worden voor andere doeleinden, zoals huishoudens en de industrie. We moeten echt energie-efficiënt zijn om onze klimaatdoelstellingen te halen.³

Hieronder volgen enkele tips om data-architecturen duurzamer te maken.

Ruim op!

Tien jaar geleden lanceerde Capgemini een offering om onze klanten te helpen hun gegevensopslag te verminderen. Gegevens die “Redundant, Obsolete and Trivial” (ROT) zijn nemen opslagruimte in beslag, moeten worden beheerd en kunnen worden gestolen. Het systematisch opschonen van data helpt deze problemen te verminderen en daarmee de energiebehoefte te reduceren.

Je kunt ook methoden zoals compressie, filtering en aggregatie gebruiken om de hoeveelheid gegevens te verkleinen. Dit maakt het mogelijk om data met kleinere omvang over het netwerk te versturen en op te slaan.⁴ Kleinere data sets betekenen minder energieverbruik en minder uitstoot.

Op basis van je informatie over dataclassificatie kunt je gegevens verplaatsen naar energiezuinige opslag of veilig verwijderen.⁴ “Delete or Archive” is de methode die wordt gebruikt voor e-mails – ook bij Capgemini – maar deze strategie zou eigenlijk toegepast moeten worden voor alle soorten gegevens.

Archiveer!

Het datacentrum van CERN⁵, de Europese Organisatie voor Kernonderzoek in Genève, moet meer dan 600 petabytes aan gegevens (600 miljoen gigabytes) opslaan – gelijk aan meer dan 20.000 jaar 24/7 HD video-opnames – per run van de Large Hydron Collider.⁶

CERN gebruikt magnetische tapes als belangrijkste opslagmedium voor de lange termijn. Tape is goedkoop en betrouwbaar, maar ook zeer energiezuinig.⁷ Het creëren van een datalevenscyclus (“Data Life Cycle”) waarbij gegevens uiteindelijk worden opgeslagen op langzamere, maar goedkopere en duurzamere media, is zeker een te overwegen strategie.

Data Life Cycle Management (DLM) definieert het concept waarbij gegevens worden gecreëerd op één opslagsysteem en vervolgens worden gemigreerd naar minder dure en energievretende opslagsystemen.⁸ Dit wordt “Multi Tier” of gelaagde opslag genoemd, een bestaande technologie die aanwezig is in de meeste databasemanagementsystemen. DLM is een integraal onderdeel van gegevensbeheer, dus neem het serieus.

Een klassieke “multi-tier” opslagpyramide voor bedrijven

Figuur 1 Een klassieke “multi-tier” opslagpyramide voor bedrijven

Optimaliseer!

De simpelweg uitvoeren van computerprogramma's verbruikt ook aanzienlijke hoeveelheden energie. Onnodige functies en functionaliteit kunnen de benodigde rekenkracht – en dus de CO₂-voetafdruk – aanzienlijk verhogen.⁹ Algoritmen voor blockchain en kunstmatige intelligentie zijn berucht om hun hoge energieverbruik.¹⁰ Gelukkig zijn er tools beschikbaar om de CO₂-voetafdruk van computerapplicaties in te schatten.¹¹

Het computationele aspect – inclusief netwerkverkeer en interfaces – van datasystemen moet deel uitmaken van elke strategie om de CO₂-uitstoot te verminderen. “Keep It Simple, Stupid!” zou wel eens de beste manier kunnen zijn om energie te besparen bij datasystemen.

Noten:

¹ Bron: Weekly Note 473 – What Is My Role Related to Sustainability? (Capgemini)

² Bron: What is the Carbon Footprint of Data Storage? (greenly)

³ Bron: How Energy Efficiency Will Power Net Zero Climate Goals – Analysis (IEA)

⁴ Bron: Optimize your modern data architecture for sustainability (AWS)

⁵ Hoewel de meeste van onze klanten niet zoveel data genereren, is het erg handig om de datastrategie van CERN als voorbeeld te nemen. Bovendien zijn ze, als door de overheid gefinancierde onderzoeksorganisatie, opener over hun uitdagingen op het gebied van gegevensbeheer dan particuliere bedrijven. Zie ook: Research Data Management at CERN (IntechOpen)

⁶ Bron: Storage (CERN)

⁷ Bron: Tape Storage Might Be Computing’s Climate Savior (IEEE Spectrum)

⁸ Bron: Managing the Life Cycles of Backups (Data Mobility Group)

⁹ Bron: Making software and data architectures more sustainable (McKinsey Digital)

¹⁰ Bron: AI slurpt energie: ‘Kan over vier jaar net zoveel stroom als Nederland gebruiken’ (nos)

¹¹ Bron: Green Algorithms – Towards environmentally sustainable computational science (Green Algorithms)

text in English:

Capgemini has committed herself to contribute substantially to reducing CO₂ emissions. We are committed to becoming a net-zero business by 2040. We also want to help our clients to save 10 million tCO₂e by 2030. We must consider the CO₂ impact of IT. Today ICT accounts for ≈3% of global CO₂ emissions.¹ Data storage centers are responsible for 2% of global carbon emissions when you include all devices that make use of data storage.² On-premise data storage is not even counted in.

Even when data centers operate on 100% renewable energy, this electricity cannot be used for other purposes, like households and industry. We need to be really energy efficient to reach our climate goals.³

Here are some directions for you to make data architectures more sustainable.

Clean up!

A decade ago, Capgemini launched an offering to help our client reduce their data storage. “Redundant, Obsolete and Trivial” (ROT) data took up storage space, had to be managed and could be subject to data theft. Systematically cleaning up data helps mitigate these issues. And it saves on energy consumption for data storage!

You can also use strategies such as compression, filtering, and aggregation to reduce the size of data. This will permit smaller data sizes to be transferred over the network and stored.⁴ Smaller data sets mean less energy consumption and less emissions.

Based on your data classification information, you can move data to more energy-efficient storage or safely delete it.⁴ “Delete or archive” is the method to use for e-mails – also at Capgemini – but this strategy should be applied for all data types everywhere.

Archive!

The Data Centre of CERN⁵, the European Organization for Nuclear Research in Geneva, has to store more than 600 petabytes of data (600 million gigabytes) – equivalent to over 20,000 years of 24/7 HD video recording – per run of the Large Hydron Collider.⁶

CERN uses magnetic tapes as the main long-term storage medium. Tape is cheap and reliable, but also very energy efficient.⁷ Creating a data life cycle where data is eventually stored on slower, but cheaper and more sustainable media, is a strategy to be considered.

Data Life Cycle Management (DLM) defines the DLM concept where data is created on one storage system, and then migrated to, less expensive and less energy consuming storage systems.⁸ This is called tiered storage, a proven technology present in most database management systems. DLM is an integral part of data management, so give it serious consideration.

A classical multi-tier storage pyramid voor enterprises

Figure 1 A classical multi-tier storage pyramid voor enterprises

Optimize!

An application’s computation also consumes substantial amounts of energy. Unnecessary features and functionality can significantly increase computation – and thus the carbon footprint.⁹ Algorithms for blockchain and artificial intelligence are notorious for their high energy consumption.¹⁰ For your convenience, there are tools available to estimate the carbon footprint of computations.¹¹

The computational aspect – including network traffic and interfaces – of data systems should be part of any strategy to reduce CO₂ emissions. “Keep It Simple, Stupid!” could be the best way to save energy in data systems.

Notes:

¹ Source: Weekly Note 473 – What Is My Role Related to Sustainability? (Capgemini)

² Source: What is the Carbon Footprint of Data Storage? (greenly)

³ Source: How Energy Efficiency Will Power Net Zero Climate Goals – Analysis (IEA)

⁴ Source: Optimize your modern data architecture for sustainability (AWS)

⁵ While most of our clients do not generate that much data, it is particularly useful to take the data strategy of CERN as an example. Moreover, being a publicly funded research organization, they are more open about their data management challenges compared to privately owned companies. See also: Research Data Management at CERN (IntechOpen)

⁶ Source: Storage (CERN)

⁷ Source: Tape Storage Might Be Computing’s Climate Savior (IEEE Spectrum)

⁸ Source: Managing the Life Cycles of Backups (Data Mobility Group)

⁹ Source: Making software and data architectures more sustainable (McKinsey Digital)

¹⁰ Source: AI slurpt energie: ‘Kan over vier jaar net zoveel stroom als Nederland gebruiken’ (nos)

¹¹ Source: Green Algorithms – Towards environmentally sustainable computational science (Green Algorithms)

Photo Creative Commons CC0 Public Domain via pxhere