понедельник, 21 января 2013 г.

Open Corpora - Открытый корпус русского языка

OpenCorpora.org - сайт проекта "Открытый корпус".
Вообще,  лингвистические корпусы - это наборы текстов разного содержания и стиля, они используются в лингвистике для изучения различных значений слов, примеров употребления в разных контекстах, для создания базы, на которой тестируются различные автоматизированные системы обработки текстов.
Примерами известных лингвистических корпусов являются Национальный корпус русского языка или Британский национальный корпус.
Создание корпусов - это серьёзная, долгая и кропотливая работа, обычно она занимает годы. Нужно не только подобрать тексты, но и разметить их особым образом, например, указать морфологические характеристики КАЖДОГО слова.
Однако есть проект создания "Открытого корпуса" русских текстов, в котором может поучаствовать любой пользователь!
На сайте OpenCorpora.org приветствуется помощь волонтёров. Можно предложить свои тексты или принять участие в морфологической разметке корпуса. Это нетрудно и даже интересно!
На сайте после регистрации вам будут предложены задания на знание русского языка на снятие морфологичской неопределённости. Это значит, что нужно для предложенных вам слов указать падеж или часть речи или иную характеристику простым нажатием кнопки. Задания сопровождаются инструкциями, так что разобраться нетрудно.
Во-первых, просто интересно поучаствовать и почувствовать, что делаешь общее дело.
Во-вторых, студентам филологических специальностей это было бы очень полезно - выполнение заданий на разметку под руководством преподавателя русского языка.
Своих студентов-филологов я привлекла прямо на занятии, им, кстати, понравилось.
В-третьих, это как раз тот случай, когда информационные технологии помогают лингвистике: совместим несовместимое!
Примите участие в разработке Открытого корпуса, почувствуйте себя лингвистом!
Обращение создателей Открытого корпуса к пользователям ЖЖ
Related Posts Plugin for WordPress, Blogger...