Projekt Smart digilinka probíhá od roku 2023 a končí v roce 2027. Jeho cílem je vytvoření nástrojů pro automatizovanou tvorbu metadat digitalizovaných dokumentů – zejména knih a periodik. Dále usnadňuje digitalizaci rozměrných předloh, což mohou být například různé mapy a plány. Hlavními výsledky projektu jsou tři nástroje a dvě metodiky, které je možné rozdělit na dvě části – automatická extrakce metadat z digitalizovaných dokumentů a digitalizace rozměrných předloh.
Automatická extrakce metadat
Největším přínosem je bezesporu možnost automaticky vytvářet metadata, jejichž ruční výroba je v současné době příliš časově náročná, tedy metadata pro články v případě periodik a kapitoly u monografií. Články jsou popisovány pouze u born digital dokumentů, ale ne u těch skenovaných. Jistě by bylo zajímavé mít možnost doplnit již digitalizované dokumenty o tato chybějící metadata.
Metakat
Tento nástroj umožňuje automatické detekování a extrakci popisných a strukturálních metadat z digitalizovaných dokumentů. V případě monografií jde o metadata pro strany (číslo a typ strany), kapitoly (název, číslo, případná další označení, autor, rozsah stran), jednotlivé svazky vícedílných monografií (název, autor, další označení dílu, apod.). Pro periodika bude možné automaticky vytvořit metadata stran (číslo a typ strany), článků (název, další označení, autor, typ, rozsah stran), čísel (číslo, datum vydání, případně zvláštní název, apod.) a ročníků (označení ročníku, datum vydání).
Metacheck
Nástroj Metacheck umožní běžným uživatelům prohlížet a upravovat metadata, která byla automaticky detekována Metakatem. Výsledek bude předán zpět a bude použit jako zpětná vazba k dalšímu trénování nástroje Metakat.

Oba nástroje pro automatické vytváření metadat Metakat a Metacheck budou částečně implementovány do systému ProArc. Přímo z ProArcu bude možné předat skeny a ALTO nástroji Metakat, který je analyzuje a vytvoří k nim metadata, která budou zpřístupněna uživateli prostřednictvím nástroje Metacheck. Metakat po vytvoření metadat pošle do ProArcu informaci, že je proces dokončen a metadata jsou připravena k úpravám v nástroji Metacheck.
Uživatelské rozhraní Metacheck bude vypadat téměř stejně jako ProArc, pro uživatele (zpracovatele metadat) tak bude snazší se v něm orientovat a nebude ztrácet čas při zkoumání pro něj nového prostředí. Uživatel bude mít k dispozici metadata, která byla automaticky detekována z obrazových souborů spojených s OCR, a také míru jistoty ke každému údaji. Tato pravděpodobnost, s jakou se podařilo správně vyčíst metadata, bude pro uživatele znázorněna prostřednictvím barev. Pokud například bude číslo strany nečitelné, Metakat v podstatě odhadne, o jaké jde číslo, a tomuto údaji přidělí číselnou hodnotu, kterou Metacheck znázorní pro uživatele například červeným rámováním té konkrétní strany. Uživatel tak na první pohled uvidí, že je s touto stranou nějaký problém, a údaje zkontroluje. Dále uživatel udělá přímo v nástroji Metacheck všechny úpravy, které potřebuje, a potvrzením se vrátí do systému ProArc, kde probíhá další zpracování (import do systému Kramerius, vytvoření archivačního balíčku atd.). Výměna informací mezi všemi nástroji bude probíhat ve formátu JSON.
Pro uživatele vznikne Metodika kontroly kvality v digitalizační lince, která představí postupy, jak správně vyhodnocovat případné chyby digitalizační linky a jak poskytovat zpětnou vazbu tak, aby se mohl zlepšovat proces strojového učení.
Digitalizace rozměrných dokumentů
Knihovny mají ve svých fondech řadu dokumentů, jejichž rozměry neumožňují digitalizaci do jednoho souboru. Jde například o rozměrné mapy nebo grafické materiály, plány apod. Protože nejde o většinovou součást fondů, knihovny kvůli nim nenakupují dostatečně velká skenovací zařízení. V takových případech je možné dokument naskenovat na více částí. Problém pak nastává s tím, jak těchto několik skenů spojit do jednoho souboru, aby mohl být dokument prezentován formou, která bude co nejbližší předloze. To často není možné zejména z důvodu neznalosti vhodných nástrojů. V projektu Smart digilinka vznikne Metodika scelování po částech skenovaných předloh, která poskytne knihovnám a jiným paměťovým institucím doporučení, jak digitalizovat a následně sloučit fyzicky rozměrné dokumenty.
Dále vznikne nástroj Exposea, který bude kombinací již existujících nástrojů a bude sloužit pro automatické vyrovnání předloh. Systém je zamýšlen pro snímání velmi poškozených předloh (například velkoformátové mapy ve špatném fyzickém stavu) bez nutnosti jejich fyzického narovnání, čímž by mohlo dojít k jejich dalšímu poškození. Vznik tohoto nástroje je plánován na rok 2025.