Digitalisering med scanning og OCR

Når trykte bøger omdannes til digitale e-bøger, skal de både scannes og gennemgå en såkaldt OCR-proces. Det er især OCR-processen, der bestemmer, hvilken kvalitet bogen ender med at få, men for at opnå en høj OCR-kvalitet spiller kvaliteten af scanningen også ind.

OCR

OCR er en forkortelse af Optical Character Recognition, eller på dansk: optisk tegngenkendelse. Det beskriver en teknisk konvertering af billeder med tekst til redigerbar tekst. Altså processen, hvor et billede af en bogside fortolkes sådan, at teksten på siden bliver rediger- og søgbar. Og man kan arbejde videre med den.

Det er helt afgørende for den oplevede læsekvalitet af en e-bog, at der ikke optræder fejl i denne OCR-konvertering. Derfor er den store udfordring, hvordan man opnår et fejlfrit resultat, uden omkostningerne løber løbsk.

Det starter med scanningen

Bøger er forskellige. De kan være trykt på forskelligt papir og med forskellige skrifttyper. Kontrasterne mellem tekst og baggrund kan variere, og papirets farve er ikke det samme hver gang. Alt det betyder, at man i scanningen skal tage højde for, hvordan man opnår det bedste OCR-resultat ved netop den bog. Dette kan også inkludere efterbearbejdning af de scannede images.

Men lige så vigtigt er det, hvordan man efterfølgende tilrettelægger OCR-processerne og den nødvendige korrekturlæsning. Alt sammen for at eliminere de fejl, der uundgåeligt opstår i de automatiserende OCR-processer.

Workflow

Vi har gennem årene udviklet et workflow omkring alle disse processer, der ud fra vores erfaring giver det bedste slutresultat til den laveste omkostning.

Vores workflow er som følge:

  1. Optimering af scanningerne og efterbearbejdning af billedfilerne, så OCR-kvaliteten som udgangspunkt bliver så høj som muligt.
  2. Herefter gennemføres en maskinel OCR-læsning med manuel korrektur bygget ind i processen. Dette gennemføres af vores indiske samarbejdspartner.
  3. Så skifter bogen hænder. En anden medarbejder gennemfører en ‘linje for linje’ sammenligning af den afbillede bogside med OCR-teksten. Ligeledes af vores indiske samarbejdspartner.
  4. Herefter formateres OCR-teksten til EPUB og indlæses i vores EPUB editor, hvor vi til sidst gennemfører en struktureret kontrol af de mest typiske OCR-fejl. Det sker på vores danske kontor.
  5. Endelig har vi let og ukompliceret adgang til at rette eventuelle fejl via vores editor. Eller vores partnere har selv adgang, hvis de ønsker det.

Vores ambition er, at OCR-teksten skal være fejlfri og 100% korrekt. Og opdager vi fejl, skal de let og gnidningsfrit kunne rettes.

Samlet set føler vi os overbeviste om, at vi har fundet den model, der giver det bedste resultat til den billigste pris. Og som sætter dig som redaktør i stand til at sikre kvaliteten inden udgivelse.