...
...

Aktuality » Zpravodaj » Projekt Orbis Pictus

Projekt Orbis Pictus

Projekt Orbis Pictus –⁠ oživení knihy pro kulturní a kreativní odvětví byl podpořen Ministerstvem kultury ČR v rámci programu NAKI III (ID DH23P03OVV033) a probíhá v letech 2023–2027. Na jeho řešení spolupracují Knihovna AV ČR, v. v. i., Moravská zemská knihovna v Brně, Národní knihovna České republiky a Vysoké učení technické v Brně.
 
Cílem projektu je zpřístupnit netextový obsah v českých digitálních knihovnách. Ty již dnes zpřístupňují velké množství informací, ovšem převážně v textové podobě. Významnou součást kulturního dědictví přitom tvoří také netextové prvky – například fotografie, kresby, schémata, mapy a mnoho dalších. Tyto prvky však zatím nelze v digitálních knihovnách snadno vyhledávat ani systematicky procházet.
 
Projekt Orbis Pictus proto využívá metody strojového učení, aby tyto objekty v digitalizovaných dokumentech automaticky identifikoval, roztřídil podle typu a doplnil o popisné informace. Díky tomu bude možné netextové prvky nejen efektivně vyhledávat, ale také je dále využívat – například ve výzkumu a zejména v kulturním a kreativním průmyslu, kde mohou sloužit jako inspirace pro marketing, vzdělávání, gamifikaci nebo při trénování umělé inteligence.
Celý proces zpřístupnění netextových objektů lze zjednodušeně rozdělit do tří kroků: detekce, popis a vyhledání.
 
Detekce a kategorizace netextových objektů
Detekci a základní popis netextových objektů zajišťuje vyvíjený nástroj AnnoPage, který bude dokončen v letošním roce. Tento nástroj pomocí metod strojového učení automaticky identifikuje a kategorizuje netextové prvky na stránkách digitalizovaných dokumentů.
 
V rámci projektu bylo pro netextové prvky definováno 25 kategorií, které jsou podrobně popsány v certifikované metodice vydané v roce 2024. Pro úspěšnou detekci těchto kategorií je nutné, aby byly modely strojového učení trénovány na vhodné a dostatečně rozsáhlé datové sadě. V rámci projektu byla proto vytvořena vlastní ručně anotovaná datová sada, která obsahuje celkem 7 550 stran (z toho 5 690 pochází z českých digitálních knihoven) a 27 904 anotací netextových objektů.

Popis a standardizace netextových objektů
Identifikace objektů je pouze prvním krokem. Aby bylo možné s nimi dále pracovat, je potřeba je popsat a uložit tento metadatový popis ve standardizované podobě.

V projektu Orbis Pictus objekty popisujeme dvěma způsoby: pomocí vektorových reprezentací a textových popisů. Vektorové reprezentace umožňují vyhledávání podle podobnosti mezi objekty a pro jejich tvorbu testujeme existující modely, jako jsou CLIP a ALIGN. Textové popisy, které doplňují vektory, jsou jednak generovány přímo pomocí neuronových sítí podobných velkým jazykovým modelům, ale také je pro ně využívána extrakce informací z okolního textu.

Metadata a popisy jsou ukládány ve formátu ALTO, který umožňuje přesné zachycení struktury stránek včetně netextových prvků. Práce s tímto formátem je součástí zmíněné certifikované metodiky.

AnnoPage: nástroj pro detekci a popis netextových objektů
AnnoPage: nástroj pro detekci a popis netextových objektů

Vyhledávání

Strukturovaný a interoperabilní zápis metadat netextových objektů je zásadní pro možnost efektivní indexace a využití v digitálních knihovnách. Identifikované objekty bude díky tomu možné vyhledávat textovým dotazem i obrázkem.

Při textovém vyhledávání se bude využívat plný text vygenerovaných popisů objektů. Většinu kategorií netextových prvků bude ale možné vyhledávat také pomocí vektorového vyhledávání. Uživatel bude mít možnost zadat dotaz buď jako text, nebo nahráním vlastního obrázku. Na základě uživatelského dotazu bude vytvořena vektorová reprezentace, která se porovná s uloženými objekty, a vyhledají se ty s nejvyšší mírou podobnosti.

Možnosti vyhledávání netextových objektů
Možnosti vyhledávání netextových objektů

Další rozvoj projektu Orbis Pictus

Na nástroj AnnoPage, který zajistí detekci a základní popis netextových objektů, naváže v příštím roce nástroj PeopleGator. Ten umožní identifikovat osoby zobrazené v netextových objektech a propojit dokumenty, ve kterých se tyto osoby vyskytují. Vyhledávat bude možné jak pomocí obrazového dotazu, tak podle jména osoby. Součástí projektu bude také vytvoření databáze identifikovaných osob, která propojí vyobrazení nalezená v digitálních knihovnách s externími zdroji jako Wikimedia Commons nebo Obalkyknih.cz.

V roce 2026 bude dokončeno i nové softwarové řešení Kramerius Orbis Pictus, které umožní pokročilou práci s netextovým obsahem digitálních knihoven, například vyhledávání v kategoriích, práci s výřezy dokumentů a sdílení obsahu. Všechny vyvinuté nástroje a funkce budou následně integrovány do České digitální knihovny a zpřístupněny všem zapojeným knihovnám prostřednictvím rozhraní Česká digitální knihovna – Orbis Pictus.

Shopping Basket