Verdwaald in de bibliotheek van Babel
Stelt u zich eens voor, een bibliotheek waar elk denkbaar boek binnen handbereik is. De biografieën van alle mensen die ooit geleefd hebben, of een antwoord op de vraag wat de oorsprong van het universum is; allemaal keurig gesorteerd en tot uw beschikking in eindeloze boekenkasten. Alle mogelijke informatie in boekvorm op één plek, dat zou wat zijn! In het digitale tijdperk doet Wikipedia natuurlijk een bewonderenswaardige poging om een online versie van deze bibliotheek te bouwen, maar een lemma voor elke wereldbewoner blijft voorlopig uit. De database van Facebook komt daar een stuk dichter bij in de buurt, maar die is gehuld in een wolk van commerciële belangen en privacykwesties, en is daarmee ver verwijderd van de neutraliteit die voor een bibliotheek vereist is. Onze fantasiebibliotheek bestaat dus nog niet, maar op het internet bevinden zich blauwdrukken te over. Een interessante vraag is niet zozeer of zoiets haalbaar is, maar of het meerwaarde heeft. Steeds vaker gaan namelijk geluiden op over de nadelen van zulke grote hoeveelheden informatie, dus heeft dat wel zin, zoveel kennis op één plaats?
In zijn verhaal De bibliotheek van Babel werkte de Argentijnse schrijver en bibliothecaris Jorge Luis Borges het idee voor de ‘ultieme’ bibliotheek al eens uit. Hij stelt zich een bijna onmetelijk groot gebouw voor, gevuld met alle mogelijke boeken van een specifiek formaat: 410 pagina’s per boek, 40 regels per pagina, en 80 tekens per regel. Dit zijn de enige voorwaarden waar een boek aan moet voldoen, de vulling is geheel willekeurig. De bibliotheek beschikt over elk mogelijk boek wat aan deze eisen voldoet; het aantal boeken in de bibliotheek is daardoor groot, maar niet oneindig. Vanzelfsprekend heeft geen enkele sterveling de hele bibliotheek ooit doorlopen, laat staan alle boeken doorgebladerd.
Dankzij de volledigheid van de bibliotheek moeten er een aantal opzienbarende exemplaren staan; denk bijvoorbeeld aan de Bijbel achterstevoren, of de Bijbel achterstevoren met een zetfout (elke mogelijke zetfout, welteverstaan). Natuurlijk staan er ook minder bijzondere exemplaren, ergens staat bijvoorbeeld een band met niets anders dan de letter ‘a.’ In de praktijk zijn dit soort ‘onzinboeken’ zelfs oververtegenwoordigd (een kleine rekensom leert bijvoorbeeld dat er voor elk normaal boek meer dan dertig miljoen kopieën met één misdruk in de schappen staan). In de praktijk zou deze bibliotheek van Babel dus nutteloos zijn, maar toch zijn we geneigd te denken dat alle mogelijke informatie (mits voldoend aan Borges’ formaat) er gehuisvest is. Dit is op zijn minst eigenaardig, en nodigt ons uit om eens kritisch te kijken naar wat informatie precies is.
Op dit moment bent u waarschijnlijk dicht in de buurt van de meest elementaire vorm van informatie: de bit, bouwsteen van digitaal geheugen. Het is de eenvoudigste manier om informatie op te slaan: 1 of 0, het equivalent van ja of nee. Door maar voldoende ingewikkelde schema’s te maken is het mogelijk om elke vorm van informatie naar deze “computertaal” te vertalen. Een gedachte-experiment met bits kan het vage concept van ‘informatie’ iets concreter maken: Stel ik ben een simpele computer, en ik kan ‘woorden’ van maximaal vijf tekens onthouden. Bijvoorbeeld: 00000 en 10110, allebei onderdeel van mijn vocabulaire. Welke bevat nu de meeste informatie? Op het eerste gezicht bevatten ze misschien evenveel informatie, ieder is namelijk een ‘woord’ bestaande uit vijf tekens die evenzogoed 1 of 0 kunnen zijn. Laat me de vraag nu anders formuleren: welk ‘woord’ kunt u zo makkelijk mogelijk onthouden? Dat is natuurlijk het eerste, u onthoudt namelijk “vijf keer een 0.” De tweede is een stuk moeilijker, in uw hoofd herhaalt u “10110” net zolang tot u het onthouden heeft. Wellicht maakt het ezelsbruggetje “twee keer een 10 met een 1 ertussen” het iets makkelijker, maar het is een schrale troost: het eerste ‘woord’ blijft veel makkelijker om te onthouden. De informatietheorie verklaart dit door te zeggen dat de informatiedichtheid van het tweede ‘woord’ veel hoger is. Ofwel: des te ingewikkelder het ezelsbruggetje, des te hoger de informatiedichtheid.
Dit principe van informatiedichtheid hangt samen met een grootheid die in de informatietheorie ook wel entropie genoemd wordt. Hoe onvoorspelbaarder de tekens zijn (of dat nou letters betreft in een woord, nucleotiden in een gen, of enen en nullen in een computer), des te groter de entropie, en des te meer informatie er opgeslagen ligt. Een lage informatieëntropie is eigenlijk een beetje alsof we Lingo spelen terwijl Lucille ons de helft van het woord ingefluisterd heeft. De kans dat we raden wat er op de lege plekken komt is namelijk veel groter dan dat het zonder Lucilles vrijgevigheid was geweest.
Hoe is het dan gesteld met de informatiedichtheid van Borges’ bibliotheek? Het vermoeden dat de informatie die er opgeslagen lag van weinig praktisch nut zou zijn wordt bevestigd door het verhaal van Borges zelf. Hij geeft ons immers alle informatie die we nodig hebben om een exacte replica van zijn bibliotheek te bouwen. Als we aan de onderneming zouden beginnen zouden we al snel op praktische bezwaren stuiten, maar dankzij het verhaal van Borges weten we precies welke boeken er in de schappen zouden moeten staan. Het verhaal zelf reduceert de monumentale hoeveelheid boeken dus tot enkele pagina’s, die bovendien gevuld zijn met irrelevante details over de bibliothecarissen die er rondlopen. In een erg goede benadering is de informatiedichtheid van de bibliotheek van Babel (totale informatie gedeeld door de omvang nodig voor omschrijving) dus nul.
Dit biedt een interessant perspectief voor de grote stromen data die door ons moderne (internet)landschap stromen. Twitter, bijvoorbeeld, heeft—net als de bibliotheek van Babel—een strak format: 140 tekens per bericht. In het archief staan inmiddels meer dan driehonderd miljard tweets (dat is een drie met elf nullen), en elke seconde komen daar duizenden bij. De vraag is hoeveel toegevoegde (informatie)waarde elk nieuw bericht heeft; naarmate het archief groeit, wordt de kans dat een nieuwe tweet op een oude lijkt steeds groter. Zodra een nieuw bericht beter te beschrijven is in termen van het archief, bevat deze minder informatie. In termen van informatietheorie zouden we ook wel kunnen zeggen dat de entropie van nieuwe tweets afneemt.
In iets mindere mate geldt dit voor het nieuws; zonder extra duiding lijkt elk nieuwsbericht steeds iets meer op alle berichten die ervoor kwamen. Natuurlijk wordt elk nieuwswaardig verhaal gekarakteriseerd door een grote set parameters die nooit eerder in die desbetreffende combinatie voorgekomen is, maar deze nuance gaat verloren door een bericht droog te koken tot alleen nog de essentie over is. Er is dus een grote behoefte aan iets waar ze in Babel al in zijn voorzien: ‘zuiveraars,’ specialisten die de weg misschien niet weten in de gehele bibliotheek, maar die toch pogen het kaf van het koren scheiden door de betekenisvolle informatie uit de grote stroom data te vissen en de rest weg te gooien.