Вообще, лингвистические корпусы - это наборы текстов разного содержания и стиля, они используются в лингвистике для изучения различных значений слов, примеров употребления в разных контекстах, для создания базы, на которой тестируются различные автоматизированные системы обработки текстов.
Примерами известных лингвистических корпусов являются Национальный корпус русского языка или Британский национальный корпус.
Создание корпусов - это серьёзная, долгая и кропотливая работа, обычно она занимает годы. Нужно не только подобрать тексты, но и разметить их особым образом, например, указать морфологические характеристики КАЖДОГО слова.
Однако есть проект создания "Открытого корпуса" русских текстов, в котором может поучаствовать любой пользователь!
На сайте OpenCorpora.org приветствуется помощь волонтёров. Можно предложить свои тексты или принять участие в морфологической разметке корпуса. Это нетрудно и даже интересно!
На сайте после регистрации вам будут предложены задания
Во-первых, просто интересно поучаствовать и почувствовать, что делаешь общее дело.
Во-вторых, студентам филологических специальностей это было бы очень полезно - выполнение заданий на разметку под руководством преподавателя русского языка.
Своих студентов-филологов я привлекла прямо на занятии, им, кстати, понравилось.
В-третьих, это как раз тот случай, когда информационные технологии помогают лингвистике: совместим несовместимое!
Примите участие в разработке Открытого корпуса, почувствуйте себя лингвистом!
Обращение создателей Открытого корпуса к пользователям ЖЖ
Комментариев нет:
Отправить комментарий