Een beknopte gids voor het kiezen van een digitaal videoformaat voor archiveringsbestanden

Auteur: Emanuel Lorrain (PACKED vzw)

Publicatiedatum: maart 2014

 

Honderdduizenden uren audiovisueel materiaal worden door cultureel-erfgoedorganisaties en omroepen in Vlaanderen nog steeds bewaard op dragers die reeds in onbruik zijn geraakt, of weldra zullen raken. Vanaf het einde van 2013 zal het Vlaams Instituut voor Archivering (VIAA)1 opereren als een dienstenleverancier die de digitalisering en opslag van audiovisuele collecties voor eigenaars en zorgdragers organiseert. De geproduceerde digitale bestanden zullen uiteindelijk de oude tapes vervangen en de nieuwe moederbestanden voor preservering2 worden.

 

Bestandgebaseerde videoformaten hebben een aantal nieuwe termen (bv. wrapper, codec en compressie) en aspecten geïntroduceerd in videopreservering die zorgdragers van audiovisuele collecties zich moeten eigen maken. Verwarring omtrent technologieën kan ervoor zorgen dat cultureel-erfgoedorganisaties terughoudend zijn om hun collecties en middelen op te nemen in grootschalige digitaliseringsprojecten. In de context van dergelijke digitaliseringsprojecten, is de keuze van het bestemmingsformaat en bijhorende specificaties steeds een zeer complexe fase omdat in de archiefwereld een echte consensus ontbreekt over de formaten en specificaties die dienen te worden gebruikt voor langdurige preservering van video. Niettemin is deze beslissing een cruciale stap die gevolgen zal hebben voor het toekomstige gebruik en de toegankelijkheid van de gedigitaliseerde inhoud.

 

In het kader van het de voorbereiding van de digitaliseringsprojecten van VIAA, heeft PACKED vzw onderzoek gedaan naar gemeenschappelijke praktijken bij omroepen en audiovisuele archieven om te zien wat de beste oplossing zou zijn voor de digitalisering van audiovisuele collecties van cultureel-erfgoedinstellingen in Vlaanderen. Deze tekst geeft een overzicht van de verschillende elementen die bij de keuze van het bestemmingsformaat en de bijhorende specificaties in aanmerking dienen te worden genomen en van de beschikbare opties.

 

1 Videoformaten

 

1.1 Codecs en containerformaten

Videobestanden bestaan uit verschillende datastromen die ingekapseld zijn in een container of wrapper. Video-en audiosignalen worden gecodeerd met behulp van codecs. Een codec is een stuk hardware of software dat nodig is om een datastroom of signaal voor overdracht, opslag of encryptie te coderen en decoderen zodat het kan worden afgespeeld of gebruikt voor andere doeleinden, zoals het montage. Codec is een 'kapstok'-term die is opgebouwd uit de woorden coderen en decoderen. De term codec wordt vaak gebruikt om rechtstreeks te verwijzen naar de codering of het compressieformaat. Video en audio essences (de bit streams) kunnen worden gecodeerd met behulp van verschillende codecs, en met of zonder compressie.

Enkele voorbeelden van videocodecs zijn: H264, MPEG2, JPEG2000, IV41, Cinepak en Sorenson.

Om een videobestand te creëren dat leesbaar is door computersoftware, worden de geëncodeerde video- en audiostromen in een container verpakt, samen met andere datastromen zoals bijvoorbeeld beschrijvende metadata en ondertitels. Het aantal, het type en de variëteit aan datastromen die een container kan bevatten, zijn specifiek aan het gebruikte containerformaat.

Voorbeelden van videocontainers: AVI, MOV, MP4, WMV en MXF.

 

1.2 Ongecomprimeerde video, ‘lossless’ en ‘lossy’ compressie

Zoals eerder vermeld, kunnen audio en video worden geëncodeerd met of zonder compressie. In een ongecomprimeerd videobestand is de volledige informatie van de gedigitaliseerde bron opgenomen en geëncodeerd zonder compressie. Ongecomprimeerde video resulteert in zeer grote bestanden die een aanzienlijke opslagcapaciteit vereisen wanneer grote hoeveelheden content dienen te worden gedigitaliseerd. Om kleinere bestandsgroottes en bit rates te kunnen genereren, wordt compressie gebruikt om de originele content op een verschillende manier te herencoderen. Compressiecodecs kunnen lossless of lossy zijn. Bij het gebruik van lossless compressiecodecs kan  een bitidentieke kopie worden bekomen (zoals bij een ongecomprimeerd bestand). Bij het gebruik van lossy compressiecodecs wordt de volledige data niet behouden. Videocompressie kan worden uitgevoerd door gebruik van verschillende methodes en algoritmes (bv. wavelet, bewegingscompensatie en discrete cosinustransformatie of DCT). Compressiemethoden wordt gewoonlijk opgedeeld in drie hoofdcategorieën:

  • lossy compressie;
  • visuele lossless compressie;
  • mathematische lossless compressie.

Bij lossy compressie worden een aantal bits verwijderd om de grootte van het videobestand te verkleinen. Meestal gebeurt dit door de hoeveelheid kleurinformatie te verkleinen. Dit proces impliceert dat een deel van het beeld, en details van zijn chrominantie (de chroma subsampling en de kleurbitdiepte) en soms ook zijn luminantie voorgoed verloren zijn. MPEG-2/D10, Apple ProRes, DVCPro en H264 zijn voorbeelden van codecs die een lossy compressie uitvoeren. De meerderheid van digitale camera’s leggen video van nature vast met behulp van lossy compressiecodecs; lossy compressieformaten worden steeds gebruikt voor productie en toegang (o.a. web, tv en dvd).

Fabrikanten noemen lossy compressieschema’s vaak visueel lossless omdat het verschil tussen de gecomprimeerde video en het origineel onwaarneembaar wordt verondersteld te zijn voor het (gemiddelde) menselijke oog. Ondanks de benaming, is visueel lossless een compressiemethode waarbij data definitief wordt verwijderd. Omwille van deze reden wordt visueel lossless soms ook meer accuraat gedefinieerd als bijna-lossless compressie. In de rest van deze tekst zal de term lossy ook worden gebruikt om te verwijzen naar visuele lossless compressie.

Mathematische lossless compressie is ook een methode om de grootte van een bestand te verkleinen, maar hier blijft de geëncodeerde data exact dezelfde wanneer ze wordt gedecodeerd. In echte lossless compressie gaat geen informatie verloren. De bestandsgrootte wordt verkleind door exact dezelfde informatie op een beknoptere manier voor te stellen, door gebruik van bijvoorbeeld statistische redundantie. Lossless compressiecodecs kunnen niet dezelfde compressieratio’s bereiken als lossy (en visueel lossless) codecs maar ze resulteren wel in kleinere bestanden dan ongecomprimeerde video terwijl ze de volledige informatie behouden. In de rest van deze tekst zal de term lossless ook worden gebruikt om te verwijzen naar mathematische lossless compressie.

 

1.3 Compressieratio’s

De datacompressieratio is de verhouding tussen de grootte van het ongecomprimeerde bestand en de grootte van een gecomprimeerde versie ervan. Verschillende compressiealgoritmes en methodes resulteren in verschillende compressieratio’s. De onderstaande voorbeelden tonen dat de verschillen in de vereiste opslagcapaciteit wanneer lossy, lossless en oncomprimeerde videocodecs worden gebruikt:

  • ongecomprimeerd (bv. v210) 10-bit -> ongeveer 100GB per uur video;
  • lossless compressie (FFV1 en JPEG 2000) 10-bit -> ongeveer 45-50 GB per uur video;
  • lossy compressie:
    • MPEG 2 (50 Mbps) -> ongeveer 25 GB per uur video;
    • DV (DV25) -> ongeveer 12 GB per uur video;
    • MPEG 2 (DVD-kwaliteit) -> ongeveer 3,6 GB per uur video.

 

2. Een formaat kiezen voor langetermijnbewaring

 

2.1 Verschillen tussen omroepen en erfgoedarchieven

 

De omroep- en cultureel-erfgoedsector hebben vaak verschillende visies over hoe audiovisueel materiaal moet worden gepreserveerd. Alhoewel beiden bevoegd zijn om audiovisueel erfgoed te preserveren en toegankelijk te maken, hebben ze te maken met verschillende types en hoeveelheden audiovisueel materiaal. Dit leidt tot verschillende noden en ook verschillende visies op en benaderingen van wat preservering betekent en hoe het te doen. In de context van VIAA is het te digitaliseren materiaal afkomstig van een brede waaier van onderling verschillende instellingen, met ongeveer zeventig percent van de content afkomstig uit de omroepsector (publieke, commerciële en lokale omroepen) en de rest van onderling verschillende cultureel-erfgoedinstellingen (o.a. musea, culturele archieven en erfgoedbibliotheken).

Doordat ze grote hoeveelheden materiaal bezitten, wordt de keuze bij omroeparchieven van het bestandsformaat en codec vaak geleid door de snelheid, efficiëntie en de nood aan een formaat dat past in hun workflow en hun keten van technische tools. Hun use cases zijn helder gedefinieerd: namelijk het materiaal dat ze zelf in het verleden hebben geproduceerd, kunnen hergebruiken voor de eigen omroepactiviteiten of ze ter beschikking stellen van anderen. De boodschap die wordt overdragen door de content primeert hierbij typisch op de kwaliteit van het beeld. De cultureel-erfgoedorganisaties beschouwen zichzelf daarentegen eerder als bewaker dan als eigenaars van het audiovisueel erfgoed. In de meeste gevallen hebben ze het materiaal dat ze preserveren niet zelf geproduceerd, en dit geeft hen een verantwoordelijkheid tegenover de schenkers van het materiaal en de plicht om het te preserveren op de best mogelijke manier. Terwijl toegang eveneens een cruciaal aspect is voor erfgoedinstellingen, wordt hun benadering eerder geleid door conserveringsprincipes zoals authenticiteit, integriteit en duurzaamheid over lange termijn dan door efficiëntie op korte termijn.

In haar definitie van een museum stelt UNESCO: “Vandaag zijn het permanente instellingen zonder winstoogmerk, in dienst van de samenleving en haar ontwikkeling en open voor het publiek, die verwerven, conserveren, onderzoeken, communiceren en tentoonstellen met het oog op studie, vorming en genot, en materieel bewijs van mensen en hun omgeving. […] Het hoofddoel van een museum is het erfgoed als geheel veilig te stellen en te preserveren.” Wat hier wordt gezegd over museums geldt ook voor culturele archieven en erfgoedbibliotheken. Terwijl ook zij geïnteresseerd zijn in het efficiënt toegang bieden tot audiovisueel materiaal,  hebben ze in essentie een institutioneel mandaat om het te preserveren.

 

2.2 Criteria

De archiefgemeenschap heeft een geheel van principes gedefinieerd om de duurzaamheidsfactoren van bestandsformaten voor langetermijnarchivering te evalueren. Eén voorbeeld van deze evaluatietools is de lijst die door de Library of Congress werd gecreëerd voor haar eigen collectie.3 De criteria waarmee PACKED vzw rekening hield tijdens haar onderzoek in het kader van VIAA zijn grotendeels gebaseerd op deze lijst en anderen die bijvoorbeeld werden ontwikkeld door het InterPares 2 project4 van de National Archives5 uit Groot-Brittannië.

Ze omvatten:

  • kwaliteit: de kwaliteit van het bestand moet hoog genoeg zijn om het toekomstige gebruik te anticiperen en om het risico op kwaliteitsverlies doorheen de tijd te vermijden;
  • openheid: er mag geen beperking zijn op het gebruik en hergebruik van het bestand, zoals licenties die een bedreiging kunnen vormen voor de overname en ondersteuning van het formaat;
  • gebruik: het formaat moet wijdverspreid gebruikt worden door archieven of verschillende domeinen en voldoende ondersteund worden door bestaande tools;
  • transparantie: het bestandsformaat moet makkelijk te analyseren zijn;
  • duurzaamheid: het formaat mag niet te snel obsoleet worden of transcodering vereisen. Achterwaartse compatibiliteit moet verzekerd zijn voor de korte termijn;
  • functionaliteit: het formaat moet complexe objecten aankunnen;
  • bruikbaarheid: het formaat moet gemakkelijk, efficiënt en zonder (of met een beperkt) risico op fouten en bedreigingen voor de workflows gebruikt kunnen worden.

Alhoewel de criteria duidelijk zijn, bestaat er nog geen formaat dat alle opgesomde vereisten zoals openheid (belangrijk voor de cultureel-erfgoedsector) en efficiënte bruikbaarheid (belangrijk voor de omroepsector) combineert. Het resultaat hiervan is dat de keuze van het archiveringsformaat steeds een compromis is, waarbij verschillende types instellingen niet noodzakelijk dezelfde criteria prioriteren. In tegenstelling tot bij de digitalisering van audiomateriaal waar LPCM en Broadcast Wave (BWAV) wijdverspreid beschouwd worden als de de facto standaarden voor langetermijnbewaring, is er voor de digitalisering van videomateriaal nog geen consensus gevonden tussen archivarissen. Toch kan het digitaliseren van al het overblijvende analoge materiaal niet wachten tot het ideale formaat verschijnt; in onbruik geraakte videotapes en afspeelapparatuur verslechteren langzaam op de rekken. Verschillende archieven hebben reeds verschillende codecs, containers en specificaties gekozen voor hun bestandsgebaseerde moederkopieën voor preservering. Net als bij videotape voorheen, worden formaten, containers en codecs niet verondersteld eeuwig te blijven bestaan. De moederkopieën voor preservering zullen zeer waarschijnlijk ooit moeten worden gemigreerd naar een ander formaat. Vanuit het standpunt van cultureel erfgoed moet het mogelijk zijn om een bestand in de toekomst te migreren en te transcoderen zonder verlies van informatie en kwaliteit.

 

3. Risico’s bij lossy compressie

 

3.1 Lossy compressie bedreigt de kwaliteit van de content

Lossless compressie kan geen compressieratio’s bereiken die gelijk zijn aan die bij lossy compressie. Dit is de reden waarom lossy compressiecodecs zijn gekozen bij een aantal digitaliseringsprojecten waarbij de opslagkost een belangrijke bekommernis was. Terwijl lossy compressie resulteert in kleinere beeldbestanden, kan het informatieverlies echter ook resulteren in digitale artefacten, die vooral zichtbaar zijn bij hoge compressieratio’s en bij bepaalde types beelden. Technisch gesproken is een compressieartefact een bepaald type van datafout. Deze artefacten verschijnen omdat de hoeveelheid verwijderde data van het origineel te belangrijk was. Een compressiealgoritme zoals die gebruikt bij MPEG-formaten kan niet altijd het onderscheid maken tussen kleine variaties en storingen die zichtbaar zullen zijn voor het blote oog. Dit resulteert in visuele fouten zoals bijvoorbeeld vervaging, blokvorming, flikkering en kleurafwijking.6

 

3.2 Lossy compressie kan het toekomstig gebruik van de content bedreigen

Bovendien kan de afwezigheid van de verwijderde data een groot probleem vormen wanneer specifieke werkzaamheden als kleurcorrectie of beeldrestauratie moeten worden uitgevoerd. Zelfs als de visueel lossless compressiealgoritmes worden beschouwd als goed genoeg voor het gebruik vandaag (bv. televisie- en webuitzending), dan bestaat de kans dat ze onvoldoende informatie bewaren voor toekomstige toepassingen die we nog niet kunnen anticiperen. Sinds het mogelijk werd om bewegende beelden vast te leggen, zijn de standaarden en technologieën voor de weergave van die beelden blijven evolueren. Een beeld dat vandaag aanvaardbaar is gecomprimeerd, kan verschrikkelijk ogen op de toestellen en schermen van de eindgebruikers van morgen. Het kiezen van een lossy compressiecodec voor langetermijnbewaring is een risico omdat het een aanzienlijk verlaging van beeldkwaliteit creëert en een deel van het potentieel van het gedigitaliseerde materiaal vergooit.

 

3.3 Lossy compressie vergroot het generatieverlies

Generatieverlies verwijst naar het kwaliteitsverlies dat ontstaat tussen kopieën. Dit kan gebeuren wanneer een tape wordt gekopieerd naar een andere tape of wanneer een bestand wordt getranscodeerd naar een verschillend formaat. Tijdens de conversie van een analoog naar een digitaal formaat doet zich een vorm van onvermijdelijk verlies voor; zelfs bij een ongecomprimeerde digitalisering is het digitaal bestand geen exacte kopie van de originele analoge bron. Zelfs digitale tapeformaten zoals Digital Betacam – die oudere analoge formaten zoals Betacam SP als de standaard voor de langetermijnbewaring van video vervingen – maakten het technisch niet mogelijk om generatieverlies te vermijden tijdens de migratie van één tape naar een andere. Een goede praktijk in audiovisuele archieven is echter steeds geweest om het migreren van content naar een armer medium of formaat te vermijden, en op dat moment benaderde een kopie naar Digital Betacam het dichtst een kopie zonder informatieverlies. Vandaag kunnen lossless codecs het mogelijk maken om de volledige informatie te behouden terwijl een kleinere opslagcapaciteit is vereist dan bij ongecomprimeerde video. De verdiensten van de reeds gevestigde goede praktijk met tapeformaten moet behouden blijven bij de tapeloze archivering van video.

Van digitale formaten wordt, net als bij tapes, niet verwacht dat ze eeuwig zullen blijven bestaan. Digitale bestanden die vandaag worden gecreëerd zullen ook in onbruik raken en zullen op een gegeven moment in de toekomst moeten worden getranscodeerd naar een ander formaat. Verkiezen om erfgoedmateriaal te digitaliseren met lossy compresie betekent dat je beslist om een deel van de informatie van het origineel weg te gooien. Eens lossy compressie is uitgevoerd, is er geen omkeerbaarheid of terugkeer mogelijk omdat de verwijderde data voor altijd verloren is. Een lossless encodering zal daarentegen verzekeren dat de volledige informatie beschikbaar blijft voor de volgende migratie. Met lossy compressieformaten zal de beeldkwaliteit verminderen tijdens elke transcoderingsprocedure. Als er problemen opduiken in de toekomst, is de enige optie het opnieuw digitaliseren van de tapes.

 

3.4 Moeten verschillende tapeformaten op een verschillende manier worden gedigitaliseerd?

3.4.1 Kwaliteitseisen

Bij het kiezen van een digitaliseringsformaat voor video, is de vraag vaak of de kwaliteitseisen bij de digitalisering moeten verschillen afhankelijk van het originele bronmateriaal. Het kiezen van een gecomprimeerd formaat of een lagere bitdiepte om bepaalde formaten te digitaliseren wordt vaak overwogen vanwege de inherente lage kwaliteit van analoge formaten zoals VHS, VCR, 1/2" EIAJ of zelfs U-matic tapes in vergelijking met omroepstandaarden zoals Digital Betacam. Omdat deze analoge formaten een kleiner aantal beeldlijnen hebben, kan het logisch klinken om een lagere bitdiepte of chroma subsampling te gebruiken bij de digitalisering ervan. In de praktijk betekent dit dat de digitaliseringsinstellingen bijvoorbeeld een bitdiepte zijn van 8 bits in plaats van 10, en een 4:2:1 chroma subsampling in plaats van een 4:2:2.

Het proces van het vastleggen van de mate waarin de analoge variabelen worden gescheiden om hen om te zetten in digitale data wordt sampling genoemd. In het geval van beelden, bepaalt de pixelresolutie de oppervlakte-eenheid en de bitdiepte de luminantie-eenheid. Bij analoge video wordt het bereik tussen wit en zwart uitgedrukt in IRE, 7 en wordt het vastgelegd tussen 0 en 100 IRE voor PAL. Alle degelijk opgenomen video zal video levels bevatten tussen 0 en 100 IRE. Aan de ene kant van het gamma is het zwart en aan de andere kant wit. Hoe hoger de bitdiepte bij het digitaliseren van video, hoe beter de digitale sample een continue, egale overgang van zwart naar wit zal bereiken.8 Voor een maximaal behoud van de kwaliteit van de oorspronkelijke bron is een 10 bits digitale sample vereist. Dit geldt voor elk videotapeformaat, zelfs voor U-matic, Hi8 of VHS. Het behoud van de maximale hoeveelheid chrominantie- en luminantie-informatie van deze formaten kan zelfs belangrijker zijn voor deze formaten dan voor standaarden met een hoge kwaliteit, zoals Betacam SP of 2” Quad tapes. Hetzelfde geldt voor een analoge bron die reeds in slechte staat is; elk type van compressie zal enkel de reeds lage beeldkwaliteit verslechteren.

 

3.4.2 Behoud van de oorspronkelijke codecs

Het opslaan van gedigitaliseerd videomateriaal in één enkel formaat maakt het makkelijker om een bestandgebaseerd archief te beheren dan opslag in verschillende formaten. Bijvoorbeeld het toezicht houden op de mate waarin formaten in onbruik raken en het beheren van toekomstige transcoderingsprocedures is ingewikkelder wanneer verschillende formaten worden gebruikt. Voor sommige tapegebaseerde formaten zoals DV en HDCAM is echter het behoud van de originele encodering van het signaal mogelijk zonder verdere transcodering. Andere tapegebaseerde digitale formaten zoals Digital Betacam laten niet toe om de originele encodering9 te behouden en moeten gedigitaliseerd worden met dezelfde codec als analoge tapes.

 

4. Goede praktijken en beschikbare opties

 

4.1 Ongecomprimeerde videoformaten

4.1.2 Ongecomprimeerde MXF-bestanden

De BBC is het enige belangrijke omroeparchief waarvan geweten is dat het heeft gekozen voor ongecomprimeerde video voor haar digitale moederbestanden voor de preservering van een deel van haar collectie. Om hun materiaal dat wordt bewaard op fysieke dragers (vooral D3 en Digital Betacam tapes) te digitaliseren, gebruiken ze het Ingex Archive-systeem dat is ontwikkeld door hun eigen onderzoeks- en ontwikkelingsafdeling. Bestanden die door dit systeem worden geproduceerd bestaan uit een 8-bit ongecomprimeerde YUYV of 10-bit ongecomprimeerde v210 bit stream verpakt in een MXF-container.

 

4.1.3 Ongecomprimeerde AVI- en Quicktime-bestanden

Naast de  BBC, wordt ongecomprimeerde video bijna enkel gebruikt door eigenaars of beheerders van kleine of middelgrote collecties van waardevolle werken. Instellingen met mediakunstcollecties zoals bijvoorbeeld LIMA10 in Nederland of ZKM11 in Duitsland begonnen reeds jaren geleden hun werken op analoge videotape te digitaliseren met behulp van ongecomprimeerde video. Aja en Black Magic zijn de meest gebruikelijke hardwaremerken van videokaarten die gebruikt worden door deze instellingen om video te encoderen met behulp van de codec v210 in combinatie met een AVI- of Quicktime-container (MOV). Zij hebben gekozen voor deze combinatie omdat ze absoluut (lossy) compressie wilden vermijden, en dit voor hen op dat moment een goede en betaalbare keuze was. Zowel de container AVI en MOV als de codec v210 worden zeer goed ondersteund worden door de meerderheid van de huidige mediaspelers en montagesoftware (bv. Final Cut Pro). Alhoewel zowel AVI als MOV propriëtaire formaten zijn, zijn hun specificaties beschikbaar gesteld door de fabrikanten en zijn ze geïmplementeerd in een brede waaier van tools beschikbaar onder een open licentie (bv. FFmpeg).

 

4.2 Lossless videocodecs

Voor instellingen en archieven die zich de opslag van ongecomprimeerde video niet kunnen veroorloven, maar wel de maximale kwaliteit van de originele bron willen behouden, is lossless compressie de enige andere oplossing. Er zijn een aantal verschillende codecs die het mogelijk maken om video te encoderen met echte mathematische lossless compressie, bijvoorbeeld

  • Sheervideo;
  • Lagarith;
  • HuffYUV;
  • YULS;
  • JPEG2000;
  • FFV1.

Wanneer de propriëtaire codecs uit deze lijst worden verwijderd, blijven nog maar enkele codecs over.  Verscheidene van de overblijvende open source codecs bevinden zich nog steeds in een volledige of gedeeltelijke experimentele fase en hebben enkel zeer kleine gemeenschappen die hen onderhouden. Dit is natuurlijk een bedreiging voor hun langetermijnbeschikbarheid en de geringe ondersteuning met softwaretools maakt het ook moeilijk voor een niet-technicus of instellingen zonder interne ontwikkelaars om hen te gebruiken. Hierdoor blijven in principe slechts twee opties over voor erfgoedinstellingen die een lossless codec willen gebruiken: JPEG2000 en FFV1.

 

4.2.1 JPEG2000

JPEG2000 is een beeldcodec en een geheel van ISO/IEC-standaarden die werden ontwikkeld door de Joint Photographic Expert Group. JPEG2000 kan gebruikt worden om beelden te comprimeren op zowel een lossless als een lossy wijze, en wordt ook gebruikt om audiovisuele content te encoderen die het resultaat is van videodigitalisering of filmscanning.12 JPEG2000 encodeert videomateriaal beeld per beeld en gebruikt geen inter-frame coderingstechnieken.13 In zijn lossless modus, werd JPEG2000 gekozen door een aantal grote instellingen om hun audiovisueel materiaal te archiveren in combinatie met een MXF-container. Verschillende codecbibliotheken kunnen gebruikt worden om JPEG2000-bestanden te encoderen en decorderen. OpenJPG en Kakadu zijn twee voorbeelden van JPEG2000-implementaties die worden gebruikt bij open source en propriëtaire software. JPEG2000 ondersteunt verschillende resoluties, sample bitdieptes en chroma subsampling; in tegenstelling tot videocodecs als DV of FFV1, steunt JPEG2000 echter op zijn container (o.a. MXF, QuickTime and Motion JPEG 2000) om een deel van zijn technische metadata (bv. kleurruimte) te encoderen.

 

4.2.2 FFV1

'FF video codec 1', ook gekend als FFV1, is de meestbelovende videocodec voor langetermijnbewaring. Deze codec die enkel mathematisch lossless werkt, maakt deel uit van de Libavcodec-bibliotheek als onderdeel van het  FFmpeg-project.14 Versie ‘3’ van de codec werd ontwikkeld met inbreng van archivarissen opdat hij zou tegemoet komen aan specifieke vereisten van de erfgoedsector. Hij wordt op een succesvolle manier gebruikt voor langetermijnbewaring door een nog relatief kleine maar groeiende gemeenschap; enkele gekende gebruikers zijn de Oostenrijkse Mediatek,15 de City of Vancouver Archives16 en meer recent MUMOK (Wenen).17 FFV1 heeft een compressieratio die gelijkaardig is aan die van JPEG2000 en vermindert in vergelijking met ongecomprimeerde video de hoeveelheid vereiste opslagcapaciteit met bijna dertig percent. De Oostenrijkse Mediatek gebruikt de codec reeds drie jaar met succes en was in staat om hem te gebruiken met alle hedendaagse kleurruimten zoals YUV, YV12 en RGB, met inbegrip van verschillende subsampling (o.a. 4:4:4 en 4:2:2) met zowel PAL SD materiaal met 4:3 en 16:9 aspect ratio’s als HD materiaal in een resolutie van 1980 x 1080.

Archivematica18 en DVA-Profession19, open source tools die worden gebruikt door de hogervermelde archieven, ondersteunen beide deze codec. Terwijl het gebruik van FFV1 in archieven bescheiden blijft, beginnen fabrikanten als NOA Audio Solutions20 de codec op te nemen in hun producten. FFV1 wordt steeds meer als alternatief voor JPEG2000 voor mathematische lossless video-encodering bediscussieerd op forums (bv. AMIA) en in expertengroepen (bv. Presto4u), en voorgesteld in artikels (bv. AV Insider) en op conferenties (bv. IASA 2013). Verschillende mediakunstcollecties doen momenteel testen om te onderzoeken of FFV1 een goed alternatief kan bieden voor ongecomprimeerde videobestanden. Wanneer gebruikt in combinatie met de Matroska open source container, biedt hij het voordeel volledig open source bestanden te creëren. Als het gebruik van FFV1 meer verspreid raakt, kan het de voorkeurskeuze worden van veel instellingen die hun videomateriaal willen digitaliseren zonder informatieverlies.

 

4.3 Containers

4.3.1 AVI

AVI staat voor Audio Video Interleave. Het is een videocontainerformaat dat werd gelanceerd in november 1992 door Microsoft als onderdeel van haar 'Video for Windows' multimediaraamwerk. AVI is een eenvoudige container met een beperkt aantal eigenschappen. AVI biedt bijvoorbeeld geen gestandaardiseerde manier om de informatie met betrekking tot de aspect ratio van een video bit stream te encoderen. Dit betekent dat wanneer een bestand wordt afgespeeld in bijvoorbeeld VLC of Quicktime spelers, de juiste aspect ratio voor weergave niet automatisch wordt geselecteerd. AVI steunt op de codec om de aspect ratio voor weergave weer te geven. Sommige formaten zoals DV, FFV1 en MPEG2 kunnen dit, terwijl ongecomprimeerde video en enkele andere codecs dit niet kunnen. AVI wordt gebruikt door de Oostenrijkse Mediatek om de FFV1 video bit stream te verpakken en door verschillende mediakunstcollecties om ongecomprimeerde video op te slaan. Het is een propriëtair containerformaat maar, zoals reeds eerder gesteld, maakt Microsoft de documentatie vrij beschikbaar alhoewel de juridische situatie onduidelijk is.

 

4.3.2 Quicktime

Quicktime is een propriëtair multimedia containerformaat dat werd ontwikkeld door Apple Computer. Het formaat specifieert een containerbestand dat één of meerdere streams bevat; elk hiervan bevat een bepaald type data, bv. audio, video en tekst (zoals ondertitels). Quicktime-bestanden kunnen twee verschillende extensies hebben: .mov of .qt. Zoals AVI, is het Quicktimeformaat wel een propriëtaire container maar is de documentatie beschikbaar gemaakt door Apple Computer. Alhoewel het een propriëtair formaat is, wordt het wijdverspreid gebruikt en ondersteund door de grote meerderheid van tools op de markt. MOV wordt gebruikt door verschillende collecties om ongecomprimeerde video op te slaan of om toegang te bieden tot bestanden met lossy codecs zoals Apple Pro Res of H264.

 

4.3.3 MXF

MXF21 is een containerformaat dat wordt gebruikt om een aantal verschillende audio- en video bit streams, ondertitels en descriptieve metadata te verpakken. MXF is theoretisch een codec-agnostische container en hij kan, zoals eerder vermeld, gebruikt worden om video in verschillende encoderingen te verpakken, zoals bijvoorbeeld ongecomprimeerde video, MPEG-2 of JPEG2000 in lossy en lossless modus.22 De profielspecificaties voor gebruik met video zijn nog steeds zeer nauw verbonden met de hardware en de software die werd gebruikt voor de instroom en de creatie van de videobestanden. Tijdens de laatste jaren hebben archivarissen en digitaliseringslabo’s een aantal interoperabiliteitsproblemen gemeld van MXF/JPEG2000-bestanden die werden gecreëerd met verschillende encoders. Alhoewel het een SMPTE-standaard is, blijven videobestanden die MXF gebruiken afhankelijk van de fabrikant, en dit heeft geleid tot verschillende types MXF waardoor compatibiliteitsproblemen ontstonden tussen afspeelsoftware.

De grote flexibiliteit van MXF en het ontbreken van een standaardprofiel voor preservering zorgt ervoor dat het een container is die complex is in de omgang. Alhoewel het gebruik van MXF wijdverspreid is, sluit dit dus niet alle risico’s op operabiliteitsproblemen uit. Terwijl het technisch gezien een open standaard is, zijn een aantal aspecten van MXF enkel beschikbaar in documenten waarvoor een vergoeding dient te worden betaald. Dit is één factor waardoor MXF niet even wijdverspreid is in open source tools als AVI of MOV. De Advanced Media Workflow Association (AMWA)23 is een groep die die voornamelijk omroepen en producenten, maar ook grote Amerikaanse erfgoedinstellingen als Library of Congress en National Archives and Records Administration, samenbrengt om te werken aan een oplossing voor deze problemen door het specifiëren van een aantal MXF-profielen voor specifieke toepassingen. Het AS-07 profiel dat momenteel in ontwikkeling is, is er één van en is speciaal ontworpen om tegemoet te komen aan de vereisten van langetermijnbewaring. Naast een betere omgang met lossless JPEG2000, zou het AS-07 profiel ook in staat moeten zijn om onder andere zowel meerdere tijdscodes van verschillende bronnen24 als bijschriften en ondertitels te bevatten. Dit profiel is echter nog steeds work-in-progress, zonder een vast tijdskader voor de oplevering van de definitieve versie en de implementatie door fabrikanten.

 

4.3.4 Matroska

De Matroska Multimedia Container is een gratis open source formaat dat in één bestand een onbeperkt aantal video, audio, foto of ondertitel bit streams bevatten. Matroska is gelijkaardig aan andere containers maar zijn specificaties zijn volledig open en de implementaties ervan bestaan vooral uit open source software. Het is bedoeld als universeel formaat voor de bewaring van ieder type multimedia content zoals video. Op de Matroska-website staat vermeld dat de container “zo is ontworpen dat hij alle gekende compressieformaten voor audio en video kan ondersteunen. Om te verzekeren dat hij ook in staat zal zijn om toekomstige standaarden aan te kunnen is hij gebaseerd op een zeer flexibel onderliggend raamwerk dat EBML noemt en dat toelaat om meer functionaliteiten aan het containerformaat toe te voegen zonder de achterwaartse compatibiliteit met ouder software en bestanden te verbreken.”25 Matroska gebruikt de extensie .mkv en is bij het brede publiek gekend als container om content te verpakken die van dvd’s wordt gehaald met open source software zoals Handbrake.26 De City of Vancouver Archives gebruiken Matroska als  archiveringsformaat om FFV1 bit streams op te slaan met audio bit streams en metadata. Een gratis open source command line validatietool27 voor Matroska is beschikbaar en de container wordt ondersteund door de Archivematica open source tool die ook wordt gebruikt door de City of Vancouver Archives.

 

4.4 Evaluatie van codecs en containers

Containers (wrappers) + -
AVI
  • Eenvoudig
  • Wijdverspreid gebruikt
  • Wijdverspreid ondersteund
  • Propriëtair, maar goed ondersteund door open source en andere tools
  • Kan geen complexe objecten verpakken
Quicktime (MOV, .QT)
  • Wijdverspreid gebruikt
  • Wijdverspreid ondersteund
  • Kan complexe objecten verpakken
  • Propriëtair, maar goed ondersteund door open source en andere tools
MXF
  • Niet-propriëtaire SMTPE standaard
  • Kan complexe objecten verpakken
  • Wijdverspreid aangenomen door de audiovisuele gemeenschap (vooral ook door de omroepsector)
  • Interoperabiliteitsproblemen tussen fabrikanten
  • Mist een specifiek profiel voor preservering
  • Nog niet wijdverspreid ondersteund door software tools
Matroska
  • Open source
  • Kan complexe objecten verpakken
  • Niet wijdverspreid gebruikt door archieven, en niet gebruikt de omroepsector
  • Mist een specifiek profiel voor preservering
Codecs (codering) + -
V210
  • Geen kwaliteitsverlies (ongecomprimeerd)
  • Wijdverspreid ondersteund door software tools
  • Gebruikt door verscheidene archieven
  • Propriëtair, maar goed ondersteund door open source en andere tools
  • Resulteert in grote bestanden (Ongecomprimeerd)
JPEG2000
  • Niet-propriëtaire ISO-standaard
  • Resulteert in kleinere bestanden dan ongecomprimeerde video
  • Aangenomen door belangrijke audiovisuele archieven
  • Compressie zonder kwaliteitsverlies mogelijk28
  • Complex
  • Niet wijdverspreid ondersteund door montagesoftware
  • Niet ideaal voor YUV-materiaal
FFV1
  • Open source
  • Compressie zonder kwaliteitsverlies
  • Resulteert in kleinere bestanden dan ongecomprimeerde video
  • Enkel gebruikt door een klein aantal collecties
  • Niet populair in de omroepsector
D10 & AVC/H264
  • Resulteert in aanzienlijk kleinere bestanden dan lossless gecomprimeerde video
  • Wijdverspreid gebruikt door de omroepsector
  • Wijdverspreid ondersteund door toolketens
  • Compressie met kwaliteitsverlies
  • Niet wijdverspreid gebruikt door de erfgoedsector

 

5. Wat is het beste digitaal formaat voor de preservering van video?

 

Er bestaan - zoals vermeld in deze tekst - maar twee opties om te verzekeren dat de beste kwaliteit van de oorspronkelijke videobron wordt vastgelegd: het gebruik van een codec zonder compressie of het gebruik van een codec met lossless compressie. Ongecomprimeerde video vereist veel opslagcapaciteit en het vermogen om grote hoeveelheden data op een efficiënte manier te verwerken. De opslagcapaciteit die vereist is voor één ongecomprimeerde kopie, volstaat voor ongeveer anderhalf tot twee kopieën die lossless geëncodeerd zijn met FFV1 of JPEG2000. Alhoewel lossless compressie resulteert in kleinere bestanden, kan het toch meer verwerkingskracht vereisen vanwege de algoritmes die gebruikt worden bij lossless compressie. In een digitaliseringsproject worden de beschikbare financiële middelen en opslagcapaciteit vaak beschouwd als bepalend in het beslissingsproces. Gecomprimeerde formaten zoals MPEG-2/D10 of lossy JPEG2000 laten zelfs een nog grotere reductie van de opslagcapaciteit toe, maar betekenen ook een groot risico voor de (toekomstige) kwaliteit van het archiefmateriaal.

FFV1 is de enige ‘echte’ open source codec die kan worden gebruikt door een digitaal archief als VIAA, maar – zoals eerder vermeld – is FFV1 nog een zeer jonge codec die nog steeds bezig is om aanvaard te worden door de archiefgemeenschap en die nog steeds onbekend is bij een groot deel van die gemeenschap. Weinig archieven zijn erop gebrand om pioniers te zijn bij de keuze van een achiveringsformaat. Op het ogenblik dat de combinatie van FFV1 met Matroska meer wijdverspreid gebruikt zal worden en verder ondersteund zal worden door software tools en fabrikanten, kan het de beste optie worden voor een collectiebeherende instelling die zich niet kan of wil verlaten op specifieke propriëtaire hardware en software voor het gebruik van haar bestanden. Het geringe gebruik in vergelijking met JPEG2000 en MPEG-2/D10 maken het moeilijk om erfgoedinstellingen en omroeparchieven te overtuigen om deze combinatie te kiezen als hun formaat voor langetermijnbewaring.

VIAA zal alle betrokken instellingen transcoderingsdiensten bieden om afgeleide kopieën te creëren voor productie en toegang. Dit is een cruciaal gegeven voor kleinere instellingen die zichzelf niet de aankoop van de nodige software kunnen veroorloven om materiaal in MXF/JPEG2000 te monteren of te transcoderen.29 Het Institut National de l'Audiovisuel (INA), de Library of Congress, de Library and Archives of Canada, en de National Archives of Australia behoren tot de grootste audiovisuele archieven ter wereld die hun materiaal digitaliseren naar lossless JPEG2000 verpakt in MXF. Dit gebruik door grote instellingen vormt een gemeenschap die een hoeveelheid materiaal en middelen vertegenwoordigt die belangrijk genoeg is om te veronderstellen dat er in de toekomst altijd een oplossing zal zijn om haar archieven te migreren en toegankelijk te houden. Terwijl er nog steeds verschillen bestaan in de MXF-profielen die ze gebruiken, is het werk dat wordt verricht op het vlak van de ontwikkelingen van de AS-07 specificaties met het oog op de creatie van een gemeenschappelijk MXF-profiel voor audiovisuele archieven ook bemoedigend – gezien het aantal belangrijke instellingen en fabrikanten die erbij betrokken zijn. Dit profiel is sinds 200930 echter nog steeds work-in-progress , en er is nog steeds niet duidelijk wanneer het klaar zal zijn.

 

6. Financiële overwegingen

 

Om de infrastructuur voor digitale archivering degelijk voor te bereiden, moeten de kosten voor onder andere opslagbehoeften, transcoderingsapparatuur en netwerkvereisten worden berekend nog vooraleer het digitaliseringsproces is gestart. Ongecomprimeerde en lossless gecomprimeerde formaten resulteren in grotere bestanden dan lossy compressie en vereisen dus met opslag- en rekencapaciteit. De kosten zullen doorheen de jaren accumuleren, maar de verwachting is dat volgens de wet van Moore de opslag- en rekencapaciteit doorheen de jaren ook goedkoper zal worden. Voor een omvangrijk digitaliseringsproject zullen de kosten voor de opslag- en rekencapaciteit al dalen vooraleer de digitalisering is afgerond. Vanuit een archiverings- en conserveringsstandpunt mogen de opslagkosten niet het beslissende criterium zijn, en dus niet de bovenhand halen op kwaliteit en duurzaamheid. Er is een grote kans dat in de toekomst de bijkomende kosten voor de opslag van lossless gecomprimeerde bestanden een kleinere zorg zullen zijn dan de kwaliteit van de gedigitaliseerde content. Use cases die we ons vandaag zelfs niet voorstellen, kunnen videobestanden met een zeer hoge kwaliteit vereisen. Lossy compressie is een riskant pad dat kan leiden tot belangrijke kwaliteitsproblemen en de veiligste beslissing is om elke vorm van informatieverlies te vermijden. Als een digitalisering moet herdaan worden omdat de gekozen kwaliteitsstandaarden op een gegeven moment te laag blijken, zullen de kosten hiervoor veel aanzienlijker zijn dan de bijkomende investering die vandaag gedaan moet worden om lossless videobestanden op te slaan. Belangrijker nog is dat er een aanzienlijke kans is dat een nieuwe digitalisering niet meer mogelijk zal zijn vanwege de verdere verslechtering van de dragers, het in onbruik raken van de benodigde afspeelapparatuur en het gebrek aan bekwame operators.

 

Conclusie

 

De digitaliseringsprojecten van VIAA zijn een unieke gelegenheid voor erfgoedinstellingen in Vlaanderen om hun audiovisueel materiaal te digitaliseren dat zich nog steeds bevindt op dragers en formaten die in onbruik zijn geraakt. Deze obsolete moederbanden zouden maar één keer moeten worden gedigitaliseerd en dit moet dus gebeuren in de best mogelijke kwaliteit. Zoals eerder vermeld, zal het opnieuw digitaliseren van de tapes nog moeilijker en duurder worden, in een lagere kwaliteit resulteren en in sommige gevallen zelfs onmogelijk worden wanneer de vereiste afspeelapparatuur niet langer beschikbaar zal zijn en de verouderingseffecten van de tapes zullen verergeren. Alhoewel een ideaal bestandsformaat voor video dat alle criteria voor langetermijnbewaring combineert nog niet bestaat, doen verschillende initiatieven ons vermoeden dat een dergelijk formaat nabij is. De onzekerheid over hoe formaten wel of niet de toekomstige standaard zullen worden, maken het moeilijk om zich te binden aan één codec en één containerformaat. De digitalisering moet echter vandaag gebeuren en het is niet mogelijk te wachten op de komst van het perfecte formaat. De keuze van een codec en formaat moet dus een afweging zijn waarbij het behoud van de beste kwaliteit en de duurzaamheid op lange termijn worden verzekerd.

 

Met dank aan:

Sue Bigelow (City of Vancouver Archives), Carl Fleischhauer (Library of Congress), Hermann Lewetz (Austrian Mediathek) en Dave Rice (New York University Archive) voor het ter beschikking stellen van een deel van de informatie die is gebruikt in deze tekst. Verder ook dank aan Peter Bubestinger (Austrian Mediathek) voor zijn constructieve en technische feedback op deze tekst.

 

Referenties

 

Voetnoten:

 

 

logo vlaamse overheid