Elk jaar komt een heel diverse groep mensen – journalisten, hackers, docenten, onderzoekers, studenten, activisten – samen op de Data Harvest Conferentie, een meerdaagse conferentie over onderzoeks- en datajournalistiek. Om elkaar te ontmoeten, te luisteren naar de verhalen achter de schermen van de jongste internationale onderzoeksprojecten, van gedachten te wisselen over thema's als online privacy, om mensen wegwijs te maken in tools om online samen te werken en nog veel meer. De conferentie wordt georganiseerd door journalismfund.eu, gaat door in Mechelen en duurt nog tot zondag.
Omdat we met Vredesactie op zoek zijn naar een model om ons onderzoekswerk te verbreden – in de multidimensionale zin van het woord – komen we hier een weekend lang bijleren en inspiratie opdoen. En omdat het hier super boeiend is, ga ik hier dagboeksgewijs berichten over een paar lezingen / sprekers / workshops. Het is al laat, dus vergeef me als het wazig word.
Zodus, internationale conferentie over data-journalistiek. Er komt een waaier aan thema's en tools aan bod. Het grote onderzoeksproject dat een paar keer terugkomt, is natuurlijk de Panama Papers van ICIJ. Het project is indrukwekkend omwille van de schaal: 2,6 terabyte gegevens werd doorwrocht. Dat is ruim 2000 keer de hoeveelheid info die Wikileaks in 2010 vrijgaf. Meer dan 300 journalisten in meer dan 70 landen gingen ermee aan de slag en zochten uit wie welke structuren opzette om grote vermogens uit het zicht van de fiscus te houden. Om met zo'n grote groep te kunnen werken op zoveel data zette ICIJ een sociaal netwerk op. In die beschermde virtuele omgeving, achter een muur van paswoorden en encryptie, konden journalisten op die manier de data doorzoeken en conclusies met elkaar delen. Er staat al veel info online over het onderzoek achter de Panama Papers, deze webinar vond ik de moeite.
New York Times
Later in de voormiddag hoorde ik Rob Gebeloff van de New York Times vertellen over zijn carrière als data-journalist. Ik ben met nog maar sinds kort bewust van het desoriënterende effect van een grote hoeveelheid data. Toch klonken zoveel zaken me bekend in de oren. Zo werkte Gebeloff aan een onderzoek over het oppompen van schaliegas in de VS. Schaliegas was lange tijd het nieuwe zwarte goud. De vers ondekte bron van lokale olie deed de olieprijs dalen, het maakte de VS wat onafhankelijker van de olie uit het Midden-Oosten en zorgde voor werkgelegenheid en nieuwe welvaart. Schaliegas was een succesverhaal. Intussen is het groot deel van de mensen wel op de hoogte van de desastreuze effecten van schaliegas op mens en milieu. Maar blijkbaar was het destijds niet evident om zo'n verhalen te brengen. Gebeloff werkte mee aan een onderzoek dat uiteindelijk een gedetailleerde databank opstelde van alle olielekken bij het oppompen van schaliegas. Een hele onderneming, want geen enkele federale instantie verzamelde informatie over die lekken op structurele basis. De enige beschikbare gegevens zaten verspreid bij verschillende lokale instanties, soms in pdf documenten, vaak op papier. Alle puzzelstukken werden samengebracht in een databank die regelmatig werd geactualiseerd en die online te raadplegen was, zodat mensen op het terrein onmiddellijk toegang hadden tot de meest recente gegevens. De impact was indrukwekkend. Door de informatie samen te brengen werd het niet alleen duidelijk dat lokale lekken regelmatig voorkomen, maar ook dat het geproduceerd volume daalde ten opzichte van het volume dat weglekte tijdens het oppompen.
Gebeloff stootte onderweg op een vaak voorkomend probleem, een dat we Vredesactie laatst ook tegenkwamen: onhandelbare data. Bijvoorbeeld informatie op papier en pdf: prima als het gaat over drie pagina's, hopeloos als het gaat over honderden pdf's met cijfers en tabellen. De Vlaamse overheid publiceert regelmatig welke wapenexportvergunningen ze toekent. Daar staat in over welk type materiaal het gaat, en soms ook wat de eindbestemming is. Je zou kunnen zeggen dat we daarmee geluk hebben: veel landen publiceren die informatie niet, of je moet er een paar jaar op wachten. In elk geval moet ik niet uitleggen dat al die cijfers die veel waard zijn als ze opgesloten zitten in pdf's. Gebeloff van de New York Times gebruikte een pdf lezer (“Monarch”) die de cijfers uit de documenten haalde en opnieuw organiseerde in hanteerbare tabellen.
Structured Query Language – SQL
Het leuke aan DataHarvest is dat er niet enkel lezingen gegeven worden. Er zijn rondetafel gesprekken, workshops, documentaires,... Hoe interessant ook, ik krijg een fluittoon in mijn hoofd als ik te lang moet zitten en luisteren. Dus ik heb deze namiddag een workshop SQL gevolgd. SQL is een “databank-taal”. Dat gaat zo: soms is excel te beperkt om veel data in op te slaan. Dan maak je een databank, waar je meer data in kwijt kan, eventueel gespreid over verschillende tabellen, waar je dan specifieke data weer kan uithalen. Om de data er weer uit te halen gebruik je SQL. Ik ben een totale dummie als het code betreft, en ik snap het nog niet helemaal, maar de emanciperende vaststelling van vandaag is dat het veel minder hocus pocus is dan het lijkt. Een doorwinterde datajournaliste gidste ons door een dataset over dammen in de VS. Ik weet nu hoe ik uit de massa gegevens de dammen kan halen die langer dan vijf jaar niet meer gecontroleerd werden (op problemen met de infrastructuur), in een dichtbevolkt gebied liggen, en hoeveel dammen er zo zijn per County. Wordt vervolgd, morgen linken we verschillende tabellen aan elkaar.
Financieren Europese belastingbetalers een Servische gevangenis?
Misschien. Deze namiddag stelden verschillende groepjes voor wat ze gisteren hebben gedaan, tijdens de hack-day die vooraf ging aan de conferentie. Ik hoorde dat de Hack-day traditioneel georganiseerd werd naar aanleiding van de publicatie van de data over Europese landbouwsubsidies. Van alle potten geld die de EU heeft staan is die voor de landbouwsubsidies een van de grootste. Veel van dat geld komt niet bij kleinschalige, familiale landbouwbedrijven terecht, maar bij grote verwerkende bedrijven (bijvoorbeeld bij de Tiense suiker). Daarom trekken de subsidies de aandacht van veel onderzoekers en werd het een traditie om elk jaar, wanneer de nieuwe gegevens gepubliceerd worden te bekijken waar het geld terecht komt. Intussen worden er tijdens de hack day veel meer datasets bekeken, zoals de fondsen van het “Western Balkans Investment Framework”. Dat is een fonds dat projecten in de Balkan steunt en financiert, met het oog op de toetreding van de Balkan landen tot de EU. Op de website zie je een overzicht van de projecten die steun kregen, welk bedrag ze kregen en wanneer. De hackers zochten en vonden die data in een bruikbaar formaat. De volgende stap is dan kijken of de data een verhaal vertelt: waar gaat dat geld naartoe, hoeveel, waarom? De moeite om uit te zoeken voor het project met code PRJ-SRB-SOC-003: “Modernization of Judiciary Facilities” in Servie. Andere datasets die bekeken werden zijn die van de Europese openbare aanbestedingen, de Europese investeringsbank en de fondsen voor het Europese nabuurschapsbeleid.
Vredesactie zkt onderzoeker
Als je tot deze laatste alinea hebt gelezen, is de kans groot dat je ook interesse hebt in ons onderzoeksproject. Op 14 juni organiseren we onze derde data-expeditie, een dag lang samen puzzelen met allerlei gegevens. Tijdens deze editie gaan we op zoek naar de favoriete export-bestemming van drie Vlaamse wapenbedrijven.
Meedoen? Vragen? Laat het ons weten op datalabo@vredesactie.be
Meer info? Op de hoogte blijven? Kijk op www.data-labo.be of op www.facebook.com/datalabo