Компьютерная лингвистика

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

Реклама

Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

К компетенции компьютерной лингвистики относится и автоматический перевод.

В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

Компьютерная  лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

А. Н. Баранов.