Преглед на проекта
Ръководител
Доц. д-р Мария Барамова
Организация
Софийски университет „Св. Климент Охридски“
Период
16.12.2025 - 12.12.2027
Бюджет
25 053.30 EUR (49 000 BGN)
Описание на проекта
Проектът е насочен към разработка на нови методи в обработката на данни от старопечатни издания и ръкописи.
Методология и технически подход
Проектът има за цел систематично изследване и ранномодерни гръкоезични и немскоезични печатни издания от XVIII в., свързани с териториите на Югоизточна Европа и особено застъпени в Света гора. Чрез комбиниране на богатите топоси от вестници, издавани на немски и гръцки език, във Виена, и колекцията от гръкоезични книги от XVI–XVIII в., проектът проследява прехода от поливариантната средновековна ръкописна традиция към унифицирания печатен стандарт – процес довел до революция в производството и потреблението на текстове, довело до повишена достъпност до информация, стандартизация на езиците и текстовете.
За автоматизирана обработка на текстовете ще се използват комбинация от Transkribus за разпознаване на ръкописен текст (HTR) и Kraken за изграждане на персонализирани OCR-модели, адаптирани към специфични шрифтове и исторически езици. След експорт на транскрипциите, специално разработен NLP-алгоритъм ще осигурява търсенето по лема с възможност за извличане на всички флективни форми на лемата, поддържайки контекстно ориентирано търсене.
За историческата форма на гръцкия, на която са написани текстове, ще бъдат използвани модели от CLTK, а за немски – нормализатор, токенизатор и лематизатор, създадени с spaCy, пригодени за особеностите на XVIII в. Модулът, отговарящ за геокодирането, ще бъде допълнен с интеграция с отворени големи езикови модели (LLaMa, Mistral или Gemini) за извличане на геопространствена информация за обекти от GeoNames, OpenStreetMap и Pleiades, което ще позволи пространствен анализ и визуализация на историческите данни.
Всички транскрипции на текстовете, метаданните за вестниците и книгите (каталожни номера, изображения, авторски права и др.) ще се съхраняват в нерелационна база данни - MongoDB, осигуряваща мащабируемост и лесно публикуване. Проектът предвижда активна комуникация със заинтересованите страни чрез обучения по HTR, семинари и международни конференции, за да се улесни достъпът на широката научна общност до новооткритите ресурси и методи.
Очаквани резултати
- ✓ Разработка на иновативни методи за обработка на старопечатни издания
- ✓ Създаване на дигитална база данни
- ✓ Публикуване на научни статии в международни списания
- ✓ Изготвяне на документация на резултатите
Етапи на проекта
Дейност Работен пакет I: Систематизиране на старопечатни колекции
Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов, ас. Александър Жабов
Дейности:
- → 1.1. Идентификация и подбор на гръцко- и немскоезични ресурси – венециански гръцки книги, в. „Ефимерис" (Виена, XVIII в.) и „Wienerisches Diarium" (нем., XVIII в.)
- → 1.2. Описание на типографски вариации, ортографски особености и библиографски данни, критични за HTR-разпознаване
- → 1.3. Интеграция на сканираните обекти и всички съпътстващи метаданни в MongoDB; подготовка на данните за последващи публикации и анализ
- → 1.4. Документиране и популяризация – параметри за QA, методически статии, обучителни семинари по HTR и палеография
Очаквани резултати:
- ✓ 1. Дигитална инвентаризация на изходните материали с базови метаданни.
- ✓ 2. Разширен набор от метаданни, съвместим със стандартите на дигиталната хуманитаристика.
- ✓ 3. MongoDB база данни с документация, потребителски и ръководства и протоколи за бъдещо разширяване.
Дейност Работен пакет II: Разработване и внедряване на автоматизирани технологии за транскрипция
Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов
Дейности:
- → 2.1. Изграждане на инфраструктура за обучение – сървър, абонаменти и workflows в Transkribus и Kraken.
- → 2.2. Обучение, настройка и итеративно оптимизиране на HTR-модели за двете писмени системи
Очаквани резултати:
- ✓ 1. Готова HTR среда за обучение и тестване.
- ✓ 2. Валидирани модели: ≥ 90 % точност за немски източници; ≥ 85 % за гръцки печат
Дейност Работен пакет III: Създаване на интегрирана изследователска платформа
Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов, ас. Александър Жабов
Дейности:
- → 3.1. Изработване на NLP алгоритъм – търсене по леми, морфологичен и контекстуален анализ (spaCy & CLTK модели)
- → 3.2. ГИС модул – автоматично извличане на топоними с LLM, обвързване с GeoNames/OSM/Pleiades и GIS визуализация
- → 3.3. Публикуване и надграждане – готови за споделяне набори данни, потребителски ръководства, участия в DH-форуми (DH26, DARIAH-EU и др.)
Очаквани резултати:
- ✓ 1. Пълнофункционален NLP модул за историческите варианти на езиците – немски и гръцки.
- ✓ 2. База данни с верифицирани исторически локации и карта с координатно рефериране.
- ✓ 3. Достъпна платформа с документация, протоколи за бъдещо разширяване и международна видимост
Дейност Работен пакет IV: Популяризация на резултатите
Изпълнители: Изпълнители: Доц. д-р Мария Барамова, изсл. Кристиян Симеонов, ас. Александър Жабов
Дейности:
- → Участие в обучителни семинари и научни конференции
- → Подготвка и предване на публикации в списания, индексирани в световни бази данни
Очаквани резултати:
- ✓ 1. Изготвяне и подаване за печат (или отпечатване) на две научни публикации в реферирани и индексирани в световни бази данни национални и/или международни издания.
Научни публикации
Публикации в резултат на изпълнението на проекта
Публикациите са достъпни както в списанията, така и в публичния достъп чрез Портала за отворена наука
Научни данни
Публично достъпни научни данни
Дигитални снимки на древни ръкописи
Събиране и обработка на изображения от архивни колекции
Достъп до данниИнтелектуална собственост
Заявки за патенти и други форми на защита
Интелектуална собственост
Авторски права върху софтуерни инструменти за обработка на текстове
Всички дейности са извършени от научна организация и всички приходи от IP ще бъдат реинвестирани в основните дейности на организацията, в съответствие с Рамката за държавни помощи.
Приложения на резултатите
Предложения за индустриални и други полезни за обществото приложения
Приложение в образованието
Разработените методи могат да бъдат интегрирани в университетски програми по история, археология и дигитална хуманитаристика.
Приложение в културата
Софтуерните инструменти могат да бъдат използвани от музеи и архиви за дигитализация и анализ на исторически колекции.
Приложение в индустрията
Лицензиране на технологии към издателства и дигитални платформи за исторически съдържание.
Финансиращи организации и партньори