На программе «фундаментальная и компьютерная лингвистика» учат строить мир будущего
Содержание:
Языки России
Описание проекта
В России говорят не только на русском языке, но и на менее распространённом татарском, и на совсем нераспространенном нанайском, и еще на множестве других языков. Эти языки принадлежат к разным языковым семьям, имеют разное число носителей и в большинстве своем мало похожи друг на друга. Но в одном они сходны: для всех этих языков практически не существует компьютерно-лингвистических инструментов, так необходимых лингвистам-исследователям. Мы решили попробовать изменить такой порядок вещей и сделать первый шаг в сторону создания таких инструментов – собрать коллекции текстов на малых языках России. Это и является целью нашего проекта. К сожалению, далеко не все языки России можно встретить в интернете: некоторые из них находятся на грани исчезновения, другие – вытесняются русским.
Ира Крылова
Люда Зайдельман
Ваня Попов
Катя Степанова
Цикл общих дисциплин направления
Формальные модели в лингвистике
Цель курса – ознакомить студентов с методологией и теоретической базой лингвистических направлений, основывающихся на формальном анализе языковых структур. Как правило, такие теории весьма слабо освещаются в соответствующих вузовских программах. В то же время они играют весьма значительную роль в современном пространстве теоретической, прикладной и компьютерной лингвистики. При моделировании естественно-языковых процессов формальные теории опираются каждая на свой набор исходных допущений о природе естественного языка и используют формальные языки, ограниченные рядом параметров и правил, предсказывающих допустимые и недопустимые языковые структуры. В курсе предлагается обзор основных теорий, связанных с разными уровнями языка: фонетикой, морфологией, синтаксисом и семантикой:
- Теория оптимальности (А. Принс, П. Маккарти и др.)
- Генеративная грамматика (Н. Хомский и его последователи)
- Грамматика вершинно-управляемых групповых структур (Head Driven Phrase Structure Grammar: К. Поллард и И. Саг)
- Грамматика лексических функций (Lexical functional grammar: Дж. Бреснан и Р. Каплан)
- Формальная семантика (Р. Монтегю, Б.Парти и др.)
- Генеративный лексикон (Дж. Пустейовски).
Особое внимание уделяется критическому осмыслению результатов, полученных при исследовании русского материала на базе каждой из теорий.
Функциональные и когнитивные модели в лингвистике
Цель данного курса – познакомить студента с методологическим аппаратом и базовыми теоретическими положениями современных направлений функциональной и когнитивной лингвистики. Функциональные направления в лингвистике объединяет подход к языку как к инструменту, предназначенного для выполнения некоторых функций, прежде всего коммуникативной и когнитивной. Свою задачу эти направления видят в том, чтобы связать основные свойства языковых структур с их функциями.
Когнитивные модели в лингвистике исходят из того, что язык является лишь одной из многих базовых когнитивных способностей человека и имеет много общего с другими когнитивными способностями. В языковой структуре когнитивисты видят отображение общих процессов, характерных для познания и мышления человека.
В курсе дается обзор следующих теорий:
- Теория языковых универсалий (Дж. Гринберг, У. Крофт)
- Грамматическая типология и функциональные теории грамматики (Э. Даль, Б. Комри, С. Дик, Р. Диксон, А. Айхенвальд, А. В. Бондарко, А.Е. Кибрик, В.А. Плунгян)
- Ролевые и референциальные грамматики (Ч. Филлмор, Р. Ван Валин)
- Теория грамматикализации (К. Лемман, Б. Хайне, Дж. Байби, М. Хаспельмат, П. Хоппер, Э. Траугот)
- Московская семантическая школа (Ю.Д. Апресян, И.А. Мельчук, А.Д. Шмелев)
- Логический анализ языка (Н.Д. Арутюнова, Е.В. Падучева, А. Богуславский)
- Грамматика конструкций (Ч. Филлмор, А. Голдберг, Л. Микаэлис и др.)
- Биолингвистика (Т. Гивон)
- Когнитивная лингвистика (Р. Лангакер, Дж. Лакофф, Л. Талми, Л. Янда и др.)
- Естественный семантический метаязык (А. Вежбицка, К. Годдард)
- Лексическая типология (С. Левинсон, М. Бауэрман, Дж. Ньюман, Е.В. Рахилина, М. Копчевская-Тамм)
- Теория дискурса (У. Лабов, Х. Вайнрих, М. Хэллидэй, С. Флейшман, П. Хопер).
Адаптационные курсы
Компьютерная лингвистика
Адаптационный курс по компьютерной лингвистике состоит из четырех блоков, которые выбираются студентом, исходя из имеющихся у него компетенций. Курс включает в себя следующие тематические блоки, являющиеся, по сути, вводными мини-курсами: лингвистика, математика, компьютерная лингвистика, программирование.
Тематический блок по лингвистике
- Общая теория языка: основания классификаций языков, уровневые модели языка.
- Фонетика: артикуляционная и акустическая классификация, основы фонологии.Морфология: морфонология, теория частей речи, словоизменительные и словообразовательные категории.
- Синтаксис: структура словосочетания, структура предложения, формальные представления синтаксиса, анафора, коммуникативное членение предложения.
- Семантика: лексические классы, семантические категории, семантические отношения, референция, основы прагматики, коммуникативные цели.
Тематический блок по математике
Цель тематического блока по математике – дать студентам развернутое представление об основных разделах математики, необходимых для успешного изучения курса «Математические основания компьютерной лингвистики». Предполагается, что данные курсы помогут сгладить разницу в уровне математической подготовки магистрантов. На этих же курсах студенты приобретают первичные навыки автоматической обработки текстов.
Среди рассматриваемых тем:
- комбинаторика,
- основы математической логики,
- основы теории множеств,
- дискретная теория вероятностей,основы линейной алгебры,
- графики функций.
Тематический блок по компьютерной лингвистике
Цель тематического блока по компьютерной лингвистике – дать базовые представления об алгоритмах первичных процессов автоматической обработки текста: токенизации, сплиттингу, морфологическому анализу, а также обзор основных областей современной отрасли компьютерной лингвистики. Блок предназначен для тех студентов, которые не слушали ранее курса по компьютерной лингвистике.
Тематический блок по программированию
Тематический блок по программированию предназначен для слушателей, не имеющих достаточного опыта изучения информатики и программировании. Курс знакомит студентов с основными характеристиками алгоритмов, типами данных, форматами и кодировками текстов, особенностями операционных систем, командами UNIX, регулярными выражениями, основами веб-дизайна. Предлагается экспресс-курс по языку Python.
Лингвист или инженер?
Современная компьютерная лингвистика — это фактически инженерная область, которая решает практические прикладные задачи, делая жизнь человека лучше и удобнее. Можно сказать проще: если вы видели фантастические фильмы с огромными небоскрёбами, летающими автомобилями, умными разговаривающими роботами и задумывались о том, кто же все эти прекрасные люди, которые построят для нас дивный мир будущего, то среди прочих в этом будет немалый вклад и компьютерных лингвистов.
Вот у вас есть много-много текстов: записи в твиттере количеством сотни тысяч штук, отзывы о товарах и фирмах на интернет-форумах. Прочесть это всё глазами невозможно
А лингвист может обучить машину правильно читать эти тексты, видеть в них наиболее важное, систематизировать и выдавать конечному пользователю сжатый понятный результат. Или — что ближе к картинам из мира будущего — именно лингвист будет учить умных роботов разговаривать с человеком, понимать речь на разных языках, слышать интонацию, отличать иронию от прямого высказывания
Есть и какая-то очень небольшая часть компьютерной лингвистики, которая пытается, используя мощь компьютера, ответить на чисто академические вопросы о том, как устроен язык, и мы пытаемся говорить об этом на нашем направлении тоже. Потому что стремление к получению и накоплению нового знания — одно из важных свойств человека как вида вообще.
Особенностью компьютерных лингвистов, разумеется, является способность заглядывать в две разные области: в программирование и в лингвистику. Специалист, подкованный и в этом, и в том может более адекватно оценить тайминг программистской задачи, а главное — способен объяснить программисту, что именно нужно сделать, на его, программиста, языке. Это нетривиальная задача и часто именно на её решение уходит достаточно много проектного времени. Компьютерный лингвист может быть своего рода переводчиком, владеющим разными языками, но не языками в традиционном смысле этого слова —в данном случае я имею в виду знания и навыки узких специальностей.
Taskee
Описание проекта
Языковой тренажер для людей, по каким-либо причинам не владеющих русским языком в достаточной степени. Тренажер представляет собой набор упражнений, предусматривающих операции с единицами языка и формирующие навыки.
Тренажер содержит задания для развития семантических и грамматических навыков.
Все задания имеют один вид и строятся по следующему алгоритму:
субъект — предикат — предлог — характеристика объекта — объект
Код проекта
Оля Дрозд
Влад Тушканов
Альберт Давоян
Игорь Самойленко
Чтобы связаться с нами, просто напишите нам письмо: ask.taskee@gmail.com
Кураторы:
Бонч-Осмоловская Анастасия Александровна
Школа лингвистики: Доцент
Акинина Юлия Сергеевна
Научно-учебная лаборатория нейролингвистики: Младший научный сотрудник
Худякова Мария Викторовна
Научно-учебная лаборатория нейролингвистики: Младший научный сотрудник
Особенности программы
- практикумы, проекты и экспедиции (мы считаем, что самая эффективная учеба — это командная работа над практическими задачами; примеры курсовых проектов можно посмотреть здесь);
- участие в сборе данных для психолингвистических экспериментов, корпусов и словарей;
- сочетание обязательных курсов с большим количеством выборных (в 17 лет никто не может быть вполне уверенным в том, что он правильно определил свою будущую специальность, нужно пробовать разное);
- учебные курсы на английском языке (будьте готовы к тому, что вам придется слушать англоязычные учебные курсы и читать научные работы не только по-русски, но и по-английски: современная профессиональная деятельность требует свободного владения английским).
Вышка.Словари
Описание проекта
Вышка.Словари — это ресурс, на котором можно искать информацию об интересующем слове сразу по нескольким словарям. В данный момент базу данных ресурса составляют толковые словари. Со временем планируется добавление различных переводных словарей.
Информация об словах появляется в форме карточек. Сейчас на сайте доступны следующие «карточки»:
- толкование
- примеры употребления
- грамматическая информация
- ударение
- антонимы
- синонимы
- эпитеты
- этимология
- пометы
На сайте также есть расширенный поиск, который позволяет найти все слова по заданным характеристикам (например, все заимствования из французского).
Научно-исследовательский блок
Концепция научно-исследовательского семинара
В рамках научно-исследовательского семинара магистры знакомятся с практикой научного исследования, разработки лингвистического ресурса или программного продукта и получают возможность не только освоить те или иные теоретические подходы и парадигмы, но, в идеале, добиться собственного значимого научного или практического результата.
НИС призван сформировать у слушателей:
— опыт постановки и решения научно-исследовательской или практической задачи, индивидуально и в коллективе;
— способность освоить конкретный теоретический аппарат и инстументарий и применить его к решению той или иной конкретной исследовательской или практической задачи;
— навыки академического письма, презентации и опыт разных форм представления для научных и практических проектов, навыки подготовки научных докладов;
— навыки академического общения на английском языке, самостоятельной работы с научной литературой на разных языках.
НИС проводится в формах проектных мастерских, приглашенных лекций и мастер-классов, миникурсов по теориям, моделям и конкретным языкам, полевой работы с малыми языками (в форме интервью с носителями или лингвистических экспедиций) и полевых социолингвистических исследований, работы с корпусами русского и иных языков.
В рамках НИСа группы магистров профиля «Теория языка» выполнят коллективные исследования по одному из базовых направлений магистратуры – русистики, типологии или социолингвистики, группы магистров профиля «Компьютерная лингвистика» выполняют проекты, направленные на создание готовых продуктов, связанных с автоматической обработкой естественного языка или же электронным представлением и обработкой гуманитарного наследия.
Мастер-класс
Мастер-класс является обязательным практическим курсом с приглашенными лекторами из самых разных областей, связанных с теорией языка, полевой лингвистикой, преподаванием иностранных языков и русского как иностранного, лингвистическими технологиями в научно-исследовательских сферах и коммерческих приложения. Курс крайне важен для выбора магистрантами будущей профессиональной специализации. Ожидается, что содержание курса будет непосредственно влиять на выбор проектов в научно-исследовательском семинаре. Принципиально, что приглашенные лекторы являются одновременно потенциальными работодателями магистрантов. Содержание курса варьируется в зависимости от состава внешних участников. Литература к занятию предлагается приглашенным лектором.
Чему и как учат
Интерес нашей программы именно в том, что мы умеем дать нашим студентам представление о разных областях: познакомить их и с лингвистическими материями, и с программированием. Программирование у нас обязательный предмет с первого курса. Чем бы в дальнейшем ни собирался заниматься человек, он обязательно научится писать хотя бы самые простые программы. А если захочет, то и большие и сложные — тоже. Это помогает и самому справляться с жизненными вызовами (нужно срочно сделать большую рутинную работу, которую удобно было бы переложить на компьютер), и разговаривать с профессиональными программистами на их языке. И то и другое — крайне полезные умения.
Одновременно с этим наши студенты постигают и премудрости лексической семантики, грамматической типологии, имеют твёрдые знания о фонетике и синтаксисе. Наконец, в их программе есть и собственно компьютерная лингвистика — предметы, которые помогают обе составляющие — компьютерную и лингвистическую — соединить в один предмет с его целями, задачами и методами. Как извлечь из текста имена собственные? Как определить эмоциональную окраску текста? Как определить, какие слова в большом массиве текстов похожи одно на другое? Это всё необходимые кирпичики того самого прекрасного будущего, без которых не обойтись и которые постигают наши студенты.
И в итоге каждый студент находит что-то своё: кто-то погружается в программирование, и с ним связывает своё будущее, кто-то сосредотачивается на тайнах языка и попытках их разгадать.
Кроме традиционных форм учёбы (лекции, семинары, курсовые работы) у нас очень развита проектная работа. Студенты разбиваются на группы, и учась друг у друга и у курирующего их преподавателя, решают какие-нибудь жизненные задачи. Например, год назад мы занимались сбором большой коллекции записей в блогах, ценного источника знаний о современном русском языке. Одновременно с этим мы делаем много справочных ресурсов, баз данных (например, по лексике древнерусского языка, по формам древнегреческого стиха), которые доступны в Интернете не только нам, но и всем интересующимся, так что для учащихся это не просто работа «за оценку», но и возможность сразу сделать что-то открытое всему миру, public good.
NER
Описание проекта
Задачей исследовательской группы является создание системы извлечения именованных сущностей из русскоязычных текстов. Предполагается извлекать три класса сущностей: персоны, организации и локации.
Описание итогового продукта
В конечном итоге система будет будет представлена в двух форматах:
- в виде отдельного программного модуля, написанного на языке Python, позволяющего извлекать из русскоязычных текстов объекты трёх категорий: персоны, организации и локации (топонимы).
- в виде Web-сервиса (находится в финальной стадии разработки), позволяющего работать с системой online и не требующего специальных знаний
Михаил Нефёдов
Ульяна Сенцова
Михаил Попов
MyStem+
Описание проекта
Для большинства задач компьютерной лингвистики требуются большие корпуса текстов с морфологической разметкой. Такая разметка обычно осуществляется с помощью морфологических анализаторов (теггеров), таких как Mystem, Pymorphy и др. Однако большинство теггеров плохо справляются со сложными случаями омонимии, такими как омонимия форм внутри парадигмы и омонимия лемм внутри одной части речи. Мы сравнили различные теггеры с точки зрения общего качества разметки и разрешения омонимии, а также протестировали несколько собственных подходов к автоматическому морфологическому анализу.
В блоге можно почитать о наших радостях, горестях, страданиях и открытиях.
Neologismus
Описание проекта
Новые слова появляются в языке постоянно — некоторые из них приживаются и остаются употребительными, а другие исчезают. Современные словари не успевают за изменениями в языке — требуется время, чтобы неологизм был добавлен в словарь. По этой причине большое количество новых слов — довольно быстро исчезнувших, но какое-то время бывших употребительными — остается незадокументированным. К сожалению, до сих пор не существовало ресурса в открытом доступе, который бы в онлайн-режиме собирал новые слова, появляющиеся в русском языке. Цель данного проекта — создание системы для автоматизации поиска новых слов на популярных интернет-ресурсах, а также словаря найденных новых слов.
Что я буду изучать?
- Введение в лингвистику
- Теория языка
- Современный русский язык
- Языковое разнообразие
- Социолингвистика
- Дискретная математика
- Линейная алгебра и математический анализ
- Теория вероятности и математическая статистика
- Программирование
- Компьютерные инструменты лингвистического исследования
- Теоретическая лингвистика и русистика (формальные теории современной лингвистики, лингвистическая экспертиза, славистика)
- Компьютерная лингвистика (автоматическая обработка речи, статистические методы в лингвистике, современные технологии анализа текстов)
Большое внимание уделяется языковой подготовке – в рамках программы студенты изучают три иностранных языка:
- английский язык – профессионально;
- один из основных европейских или восточных языков (с нуля) – на коммуникативном уровне;
- дополнительно восточный или славянский язык (с нуля).
В рамках практической деятельности студенты принимают участие в научно-практических конференциях, экспедициях по изучению диалектов и малых языков России, работе нейролингвистической лаборатории и Центра преподавания русского языка как иностранного, программах академического обмена с европейскими университетами-партнерами.
Помимо профильных дисциплин студенты изучают предметы других образовательных программ (например, экономику, менеджмент, психологию, социологию, медиакоммуникации и многие другие), что расширяет перспективы профессионального роста и дает возможность получения альтернативной профессии.