PDF's vertalen voor dummies



Het komt heel vaak voor: klanten die PDF-bestanden met tekst willen laten vertalen. De naam doet vermoeden dat PDF-bestanden allemaal hetzelfde soort bestanden zijn, maar dat is zeker niet het geval. Er bestaat ook geen software waarvan het PDF-bestand het eigen bestandsformaat is, de bestanden worden altijd vanuit een andere bron gegenereerd.


Twee typen PDF-bestand

Belangrijk om te beseffen is dat een PDF-bestand ofwel softwarematig vanuit een ander bestandsformaat wordt gemaakt of hardwarematig via een apparaat. Dat apparaat is dan doorgaans een scanner, soms een camera. Met het oog op vertalen is er een belangrijk onderscheid tussen twee typen PDF-bestand. Deze twee verschillende typen PDF-bestand lichten we hieronder toe en ook de impact ervan op de wijze waarop de PDF kan worden vertaald.

Type 1 - Het PDF-bestand is gemaakt vanuit een computerbestand met bewerkbare tekst.

Type 2 - Het PDF-bestand is niet gemaakt vanuit een bestand met bewerkbare tekst.

In dit geval zijn er twee mogelijkheden:

  • De PDF is gemaakt vanuit een afbeeldingbestand (bijv. JPG, PNG, AI, etc.) dat tekst bevat. De tekst in dat bestand is niet direct bewerkbaar met een tekstverwerkingsprogramma.

  • De PDF is gemaakt doordat een fysiek document is vastgelegd met een apparaat (scanner of camera). De tekst is dan meestal niet direct bewerkbaar. Bij dit proces wordt de tekst opgeslagen als een afbeelding en is het PDF-bestand technisch in feite hetzelfde als het type onder 2.a, dus een grafisch softwarebestand.


Waarom is dit onderscheid zo belangrijk? PDF-bestanden van type 1 zijn gemaakt vanuit bewerkbare bestanden. In veel gevallen is het bronbestand waarvan het PDF-bestand is gemaakt nog voor handen. Dat oorspronkelijke bronbestand heeft altijd de voorkeur boven de PDF. Dat bronbestand kan namelijk snel en efficiënt worden vertaald en het vertaalde bestand krijgt exact dezelfde opmaak als het bronbestand.


Als het oorspronkelijke bestand niet voor handen is of alleen in een bestandsformaat dat niet met standaardvertaalsoftware kan worden verwerkt, moet de bewerkbare tekst eerst uit het PDF-bestand worden gehaald. Soms is dit rechtstreeks in een vertaaltool mogelijk, wat het voordeel heeft dat overlap binnen het document of tussen verschillende documenten kan worden hergebruikt. Nadeel van deze methode in vergelijking met gebruik van het oorspronkelijke bronbestand is dat de opmaak meestal niet meer hetzelfde is als in het bronbestand.


Opmaakproblemen in rechtstreeks vertaalde PDF-bestanden Wanneer het bronbestand wel direct in de vertaaltool kan worden vertaald, kan dit nogal eens voor opmaakproblemen in de vertaling zorgen. De tekst loopt vaak uit en past dan niet meer in de beschikbare ruimte, zeker als er bijvoorbeeld tabellen in het document staan.

In dat geval is het efficiënter om de tekst uit de PDF-bestanden te extraheren en pas dan in de vertaaltool te vertalen. De opmaak van het bronbestand gaat dan weliswaar verloren, maar vaak is het namaken van de opmaak in bijv. Word een stuk eenvoudiger dan het weer netjes maken van een PDF-bestand dat rechtsreeks in de vertaaltool is vertaald.


OCR-software voor omzetten van gescande tekst

Voor het vertalen van PDF-bestanden van type 2 moet een zogenaamd OCR-programma worden ingezet. De niet-bewerkbare tekstelementen uit de afbeeldingbestanden worden daarbij door slimme software omgezet naar bewerkbare tekst.

Hoe beter en duidelijker de kwaliteit van het bronbestand, hoe beter het OCR-resultaat. Als het bronbestand donker is, met slecht leesbare tekst, is het resultaat van de OCR soms onbruikbaar en moet de vertaler de doeltekst helemaal opnieuw invoeren vanaf het scherm of een print van het PDF-bestand. Steeds meer vertaaltools hebben overigens ingebouwde OCR-functionaliteit, wat tijd en moeite kan besparen.


Wat moet je doen als je een PDF-bestand wilt laten vertalen?

  1. Wanneer je een PDF-bestand wilt laten vertalen, ga dan eerst na of er mogelijk een Word-, Excel-, Powerpoint-, InDesign-bestand enz. bestaat waarmee het PDF-bestand is gemaakt. Deze optie heeft in alle opzichten de voorkeur, zeker van je vertaalbureau.

  2. Heeft u het bronbestand niet, bedenk dan dat het vertaalbureau in veel gevallen de opmaak van het bronbestand niet 100% kan namaken in de vertaling. Als het bronbestand tekst bevat die niet bewerkbaar is (bijv. omdat deze ingescand is), heeft dat mogelijke nadelige gevolgen voor de doorlooptijd en prijs van de vertaling. Ook wordt de opmaak vrijwel nooit helemaal hetzelfde als die van het brondocument.

  3. Houd rekening met de variatie in PDF-bestanden en ga er niet vanuit dat ze allemaal hetzelfde zijn en eenvoudig kunnen worden vertaald.

Wil je meer weten over het vertalen van PDF-bestanden of een offerte voor de vertaling van een PDF-bestand? Neem contact met ons op via info@interlingo.nl of bel 040-21.22.321.

25 keer bekeken