Корпуса христианского урмийского и туройо

На настоящем ресурсе доступны два корпуса современных новоарамейских языков — христианского урмийского (~ 600 тыс. словоформ) и туройо (~ 600 тыс. словоформ). Доля разобранных словоформ для каждого корпуса составляет примерно 75%.

Финансирование

Создание корпусов финансировалось из гранта РФФИ 17-04-00472-ОГН (2017-2019 гг., руководитель — А.К.Лявданский).

Разметка и поиск

Разметка для обоих корпусов была создана при помощи морфологического анализатора UniParser Т. Архангельского. Система разметки включает в себя лемматизацию и морфологический анализ словоформ. В обоих корпусах для каждой словоформы указывается ее лемма, а также перевод (для урмийского — на русский, для туройо — на английский и немецкий). В корпусе туройо для имен существительных, прилагательных, наречий и частиц были переведены на английский немецкие леммы из манускрипта глагольного словаря Х. Риттера (1979). Глагольные леммы были переведены с немецкого из черновика грамматики туройо Х. Риттера (1990) с незначительными исправлениями. Переводы для лексем, отсутствующих в обоих источниках, были получены элицитацией или при помощи перевода шведских глосс из лексикона Ж. Бет-Савойе (2012). Для корпуса христианского урмийского леммы были переведены с использованием словаря, подготовленного Е. Гавриловой и А. Лявданским, а также глоссариев в публикациях Дж. Кхана (2016), Й. Фридриха (1960) и Х. Полоцкого (1967).

Поиск в корпусе возможен по лемме, словоформе, переводу леммы, а также по грамматическим признакам (см. ниже для каждого корпуса в отдельности). Предусмотрены также возможность комбинации параметров поиска и более сложные поисковые запросы с указанием расстояния между словоформами и заданием подкорпуса.

Доступ к целым текстам не предоставляется. Пользователи могут просмотреть только контекст из максимум 7 предложений.


Корпус христианского урмийского

Состав корпуса

Корпус урмийского христианского арамейского языка был создан на основе 46 печатных изданий текстов латинизированным письмом (т.н. “новый ассирийский алфавит”), вышедших в 1930-е годы в СССР. Об истории проекта “нового ассирийского алфавита” и об особенностях разработанной для него орфографии см. статью А. Лявданского “Neo-Aramaic Texts in the New Alphabet Published in the Soviet Union 1929-1938” (готовится к печати). Предпочтение было отдано литературным текстам, напечатанным согласно правилам стабилизированной орфографии, принятым в 1933 г. Большую часть набранных текстов составляют переводы русских и зарубежных литературных и научно-популярных текстов, а также оригинальные сочинения на христианском урмийском языке.

Для урмийского корпуса были набраны также некоторые полевые и газетные тексты, но они пока не включены в пакет текстов с морфологической разметкой, поскольку в них используются другие системы орфографии.

Полный список текстов в корпусе доступен во вкладке Select subcorpus. Работа над метаданными для корпуса еще не закончена. С библиографией изданий на “новом ассирийском алфавите” можно ознакомиться здесь.

Ввод специальных символов

При включённом «обычном» способе ввода символов (включён по умолчанию) можно пользоваться следующими комбинациями для ввода символов, отсутствующих в английской раскладке:

Создатели корпуса

Набором текстов занимались выпускники РГГУ Е. Гаврилова, Ю. Зарезаева, К. Беньяминова и А. Лявданский (ИКВИА НИУ ВШЭ). Корректура текстов в соответствии с нормами, принятыми комитетом Нового алфавита в 1933 г. осуществлялась А. Лявданским. Различную техническую и консультативную помощь оказывал Е. Барский; в подготовке текстов для анализатора принимали участие Ю. Киприянович и М. Калинин.

Система морфологического анализа и вебсайт были разработаны Т. Архангельским. Словарь для морфологического анализатора был подготовлен А. Лявданским, Е. Гавриловой и Т. Архангельским. Разработка парадигм и модели морфологии для анализатора была выполнена Т. Архангельским и А. Лявданским.

Благодарности

Создатели корпуса выражают благодарность:

Контакты

Технической поддержкой и пополнением корпуса занимаются А. Лявданский и Е. Гаврилова. Замечания и ошибки можно присылать по адресу alyavdansky@hse.ru.

Перспективы развития корпуса

В ближайшее время планируется довести долю разбираемого материала до 85-90 %. Будет продолжаться работа по правке текстов, улучшению качества разметки. Помимо русских переводов лемм будут добавлены их английские эквиваленты, а также метаданные для всех текстов. В дальнейшем корпус будет пополняться и диверсифицироваться. Планируется добавить новые тексты разных жанров и выделить их в жанровые подкорпуса: поэтический, газетный, публицистический, научно-популярный, метаязыковой (тексты грамматик и учебников ассирийского языка). Будет развиваться и полевая составляющая корпуса, для которой планируется принять особый вариант орфографии.


Корпус туройо

Состав корпуса

Корпус туройо преимущественно состоит из устных текстов, записанных исследователями (О. Прим, А. Социн, Х. Риттер, О. Ястров, Ш. Талай) и энтузиастами языка (Ж. Бет-Савойе) начиная с конца XIX в. и заканчивая началом XXI в. В корпусе представлены следующие жанры: фольклор, изустная история, публицистика. В качестве дополнительного параметра стоит отметить природу текстов: большинство текстов Ж. Бет-Савойе в нашем корпусе представляют собой диалоги между двумя людьми. Остальные тексты содержат монолог (рассказ) одного человека.

Полный список текстов в корпусе доступен во вкладке Select subcorpus. В настоящее время продолжается работа над метаданными для текстов.

В корпусе туройо содержатся тексты с большой вариативностью в орфографии ввиду того, что представлены разные диалекты, эпохи и системы транскрипции. При составлении корпуса тексты были приведены к усредненной и упрощенной орфографии, однако работа над этим аспектом далека от завершения. В качестве компромиссного решения большинство вариантов транскрипции одной и той же леммы учтены в корпусе без изменений. При поиске по одному из вариантов леммы (или словоформы) пользователи получат и все остальные варианты, учтенные в словаре.

Ввод специальных символов

При включённом «обычном» способе ввода символов (включён по умолчанию) можно пользоваться следующими комбинациями для ввода символов, отсутствующих в английской раскладке:

Создатели корпуса

Корпус создан в результате совместной работы российских специалистов. Набором и нормализацией текстов, а также разработкой стандартной орфографии в разные периоды занимались сотрудники ИКВИА НИУ ВШЭ Ю. Фурман и С. Лёзов, аспирант Свободного Университета Берлина Н. Кузин, сотрудник ОЦАД М. Калинин, студент ИВКА РГГУ С. Коваль, независимые исследователи Е. Барский и Ю. Киприянович.

Система морфологического анализа и вебсайт были разработаны Т. Архангельским. Именной и глагольный словарь туройо был обработан и исправлен Н. Кузиным и С. Ковалем. Разработка парадигм и модели морфологии для анализатора была выполнена Ю. Фурман, Н. Кузиным и Т. Архангельским.

Благодарности

Создатели корпуса выражают благодарность Ж. Бет-Савойе, предоставившему сканы и текстовые файлы большинства своих публикаций. Корпус не мог бы появиться без постоянной поддержки и помощи Т. Архангельского, консультировавшего участников по принципам работы парсера.

Контакты

Технической поддержкой и пополнением корпуса занимаются Н. Кузин и Ю. Фурман. Замечания и ошибки можно присылать по адресу yfurman at hse dot ru

Перспективы развития корпуса

На ближайшее будущее запланированы следующие этапы развития корпуса: