Проект Исида-Т

Цель проекта — создать технологию глубокого семантического анализа и структурирования текстовой информации.

Ключевая особенность технологии — обширное использование знаний о предметной области на всех этапах анализа текста. Узкая специализация и «тонкая» настройка программной системы на предметную область позволяет добиться высокой точности и полноты анализа.

Зачем нужны анализ и структурирование текстовой информации?

В своей работе многие компании и организации сталкиваются с огромным количеством текстовых документов. Заключенная в них полезная информация не структурирована, а значит, ее невозможно обработать классическими вычислительными методами, например, построить на основании этой информации диаграмму или схему. Все эти тексты понятны человеку, но недоступны машине.

Структурировать текстовую информацию — значит выявить в документах представляющие интерес факты и преобразовать их в данные (классифицировать, привести к табличному виду и т.п.). Когда информация структурирована, ее можно обработать при помощи компьютера, и в частности, осуществлять статистический анализ, представлять в виде таблиц и диаграмм, использовать методы поиска закономерностей в данных. Структурирование делает возможным также интеллектуальный поиск в документах, то есть поиск объектов и фактов по их атрибутам или отношениям с другими объектами.

Почему для семантического анализа необходима опора на предметные знания?

Не вся информация, которую человек получает из прочтенного фрагмента текста, содержится там в явном виде. Автор текста рассчитывает на способность читателя «реконструировать» неявную, подразумеваемую часть смысла. Расчет этот строится на том, что в голове читателя содержится некоторая сумма знаний самого разного свойства: об общем устройстве мира, о современной ситуации, о ранее происходивших событиях, о дате и месте публикации текста; наконец, о том, что говорилось ранее в самом тексте. Все эти фоновые знания человек задействует при восприятии текста.

Разумеется, когда мы говорим об использовании знаний в процессе анализа текстов, речь не идет о том, чтобы снабдить компьютерную систему моделью фоновых знаний, сравнимой с человеческой. Однако наделить программу «интеллектом», достаточным для решения узкоспециализированной аналитической задачи, вполне возможно.

Анализ текста средствами компьютерной лингвистики часто приводит к неоднозначным результатам. Так например, в тексте «руководителя Администрации Президента Российской Федерации Сергея Нарышкина» невозможно установить, кем является Сергей Нарышкин (руководителем администрации или президентом), если мы не располагаем знаниями о текущем положении дел.

Использование знаний о предметной области помогает корректно разрешать многие виды неоднозначностей, значительно повышая качество анализа. Также предметные знания играют ключевую роль при отождествлении нескольких упоминаний об одном и том же объекте и при выводе дополнительных неявных фактов.

Наша принципиальная позиция — точный и глубокий анализ текстовой информации требует использования знаний о предметной области.