Semi-automatic Segmentation & Alignment of Handwritten


Teknisk-naturvetenskapliga fakulteten Uppsala universitet, Utgivningsort Uppsala/Visby



Yüklə 11,83 Mb.
səhifə2/23
tarix07.09.2023
ölçüsü11,83 Mb.
#141855
1   2   3   4   5   6   7   8   9   ...   23

Teknisk-naturvetenskapliga fakulteten Uppsala universitet, Utgivningsort Uppsala/Visby


Handledare: Anders Hast Ämnesgranskare: Ingela Nyström Examinator: Siv Andersson

Semi-automatisk digitalisering av historiska textdokument




Populärvetenskaplig sammanfattning Philip MacCormack
Vikten i att enkelt kunna få tillgång till information och digitala versioner av skrifter och dokument blir större och större desto mer vi djupgräver i vårt förflutna. Detta har medfört att ett projekt vars mål är att försöka digitalisera historiska dokument från Sverige över perioden 1870-1950 har startats, vilket det här projektet är del av.

Att digitalisera en bild kan ha flera betydelser. I detta sammanhang så är det att kunna få ut så mycket information som möjligt ur dokumentbilden. Däribland, en digital ver- sion av texten, i vilken ordning alla textrader och ord kommer, men även deras exakta koordinater i bilden. Denna typen av information kallas för metadata och ger grunden för vad som kallas för att ge bilder annoteringar. Annoterad data har ett flertal använd- ingsområden, men främst i vad som kallas neurala nätverk där man behöver information om bilder för att kunna träna en AI modell. Dessa tränade modeller kan tränas till att ex- empelvis känna igen text på en bild, eller tränas som språkmodeller som kan ge faktiska svar på frågor.


I detta projektet så har en metod för att extrahera information ur åldrade dokument- bilder från data samlingen Labour’s Memory utvecklats och utvärderats. Resultatet från uvärderingen påvisar att det är väldigt utmanande att extrahera informationen om doku- mentet innehåller för mycket brus från degenereringen. En till utmaning som bemöttes var att datan i Labour’s Memory som användes som jämförelse inte var exakt nog för att kunna dra några absoluta slutsatser för metodens prestanda. Detta är något som bör vidareutforskas för en mer rättfärdig bedömning. Metoden utvärderades även på data samlingen IAM som påvisade ett mer lovande resultat.
De framtagna metoderna kan ses som en grund till utvecklingen av ett användbart verk- tyg för extrahering av information ur dokumentbilder.

Yüklə 11,83 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   23




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©www.azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin