Scriptura Europae: Автоматизирана транскрипция и анализ на старопечатни издания

Преглед на проекта

Ръководител

Доц. д-р Мария Барамова

Организация

Софийски университет „Св. Климент Охридски“

Период

16.12.2025 - 12.12.2027

Бюджет

25 053.30 EUR (49 000 BGN)

Описание на проекта

Проектът е насочен към разработка на нови методи в обработката на данни от старопечатни издания и ръкописи.

Методология и технически подход

Проектът има за цел систематично изследване и ранномодерни гръкоезични и немскоезични печатни издания от XVIII в., свързани с териториите на Югоизточна Европа и особено застъпени в Света гора. Чрез комбиниране на богатите топоси от вестници, издавани на немски и гръцки език, във Виена, и колекцията от гръкоезични книги от XVI–XVIII в., проектът проследява прехода от поливариантната средновековна ръкописна традиция към унифицирания печатен стандарт – процес довел до революция в производството и потреблението на текстове, довело до повишена достъпност до информация, стандартизация на езиците и текстовете.

За автоматизирана обработка на текстовете ще се използват комбинация от Transkribus за разпознаване на ръкописен текст (HTR) и Kraken за изграждане на персонализирани OCR-модели, адаптирани към специфични шрифтове и исторически езици. След експорт на транскрипциите, специално разработен NLP-алгоритъм ще осигурява търсенето по лема с възможност за извличане на всички флективни форми на лемата, поддържайки контекстно ориентирано търсене.

За историческата форма на гръцкия, на която са написани текстове, ще бъдат използвани модели от CLTK, а за немски – нормализатор, токенизатор и лематизатор, създадени с spaCy, пригодени за особеностите на XVIII в. Модулът, отговарящ за геокодирането, ще бъде допълнен с интеграция с отворени големи езикови модели (LLaMa, Mistral или Gemini) за извличане на геопространствена информация за обекти от GeoNames, OpenStreetMap и Pleiades, което ще позволи пространствен анализ и визуализация на историческите данни.

Всички транскрипции на текстовете, метаданните за вестниците и книгите (каталожни номера, изображения, авторски права и др.) ще се съхраняват в нерелационна база данни - MongoDB, осигуряваща мащабируемост и лесно публикуване. Проектът предвижда активна комуникация със заинтересованите страни чрез обучения по HTR, семинари и международни конференции, за да се улесни достъпът на широката научна общност до новооткритите ресурси и методи.

Очаквани резултати

  • Разработка на иновативни методи за обработка на старопечатни издания
  • Създаване на дигитална база данни
  • Публикуване на научни статии в международни списания
  • Изготвяне на документация на резултатите

Етапи на проекта

1

Дейност Работен пакет I: Систематизиране на старопечатни колекции

0-24 месеца
В ход

Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов, ас. Александър Жабов

Дейности:

  • 1.1. Идентификация и подбор на гръцко- и немскоезични ресурси – венециански гръцки книги, в. „Ефимерис" (Виена, XVIII в.) и „Wienerisches Diarium" (нем., XVIII в.)
  • 1.2. Описание на типографски вариации, ортографски особености и библиографски данни, критични за HTR-разпознаване
  • 1.3. Интеграция на сканираните обекти и всички съпътстващи метаданни в MongoDB; подготовка на данните за последващи публикации и анализ
  • 1.4. Документиране и популяризация – параметри за QA, методически статии, обучителни семинари по HTR и палеография

Очаквани резултати:

  • 1. Дигитална инвентаризация на изходните материали с базови метаданни.
  • 2. Разширен набор от метаданни, съвместим със стандартите на дигиталната хуманитаристика.
  • 3. MongoDB база данни с документация, потребителски и ръководства и протоколи за бъдещо разширяване.
2

Дейност Работен пакет II: Разработване и внедряване на автоматизирани технологии за транскрипция

9-16 месеца
В ход

Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов

Дейности:

  • 2.1. Изграждане на инфраструктура за обучение – сървър, абонаменти и workflows в Transkribus и Kraken.
  • 2.2. Обучение, настройка и итеративно оптимизиране на HTR-модели за двете писмени системи

Очаквани резултати:

  • 1. Готова HTR среда за обучение и тестване.
  • 2. Валидирани модели: ≥ 90 % точност за немски източници; ≥ 85 % за гръцки печат
3

Дейност Работен пакет III: Създаване на интегрирана изследователска платформа

12-24 месеца
Предстои

Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов, ас. Александър Жабов

Дейности:

  • 3.1. Изработване на NLP алгоритъм – търсене по леми, морфологичен и контекстуален анализ (spaCy & CLTK модели)
  • 3.2. ГИС модул – автоматично извличане на топоними с LLM, обвързване с GeoNames/OSM/Pleiades и GIS визуализация
  • 3.3. Публикуване и надграждане – готови за споделяне набори данни, потребителски ръководства, участия в DH-форуми (DH26, DARIAH-EU и др.)

Очаквани резултати:

  • 1. Пълнофункционален NLP модул за историческите варианти на езиците – немски и гръцки.
  • 2. База данни с верифицирани исторически локации и карта с координатно рефериране.
  • 3. Достъпна платформа с документация, протоколи за бъдещо разширяване и международна видимост
4

Дейност Работен пакет IV: Популяризация на резултатите

5-24 месеца
Предстои

Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов, ас. Александър Жабов

Дейности:

  • Участие в обучителни семинари и научни конференции
  • Подготвка и предване на публикации в списания, индексирани в световни бази данни

Очаквани резултати:

  • 1. Изготвяне и подаване за печат (или отпечатване) на две научни публикации в реферирани и индексирани в световни бази данни национални и/или международни издания.

Научни публикации

Публикации в резултат на изпълнението на проекта

Публикациите са достъпни както в списанията, така и в публичния достъп чрез Портала за отворена наука

Научни данни

Публично достъпни научни данни

Дигитални снимки на древни ръкописи

Събиране и обработка на изображения от архивни колекции

Достъп до данни

Метаданни на ръкописи

Структурирани данни за каталогизиране и анализ

Достъп до данни

Интелектуална собственост

Заявки за патенти и други форми на защита

Интелектуална собственост

Авторски права върху софтуерни инструменти за обработка на текстове

Всички дейности са извършени от научна организация и всички приходи от IP ще бъдат реинвестирани в основните дейности на организацията, в съответствие с Рамката за държавни помощи.

Приложения на резултатите

Предложения за индустриални и други полезни за обществото приложения

Приложение в образованието

Разработените методи могат да бъдат интегрирани в университетски програми по история, археология и дигитална хуманитаристика.

Приложение в културата

Софтуерните инструменти могат да бъдат използвани от музеи и архиви за дигитализация и анализ на исторически колекции.

Приложение в индустрията

Лицензиране на технологии към издателства и дигитални платформи за исторически съдържание.

Финансиращи организации и партньори

National Science Fund ФНИ
Sofia University
PCPS CE
Partner Organization