Печать

Чем извлечение информации отличается от поиска по ключевым словам?

Поисковые потребности можно условно разделить на два вида.

В одном случае мы ищем конкретные объекты, которые четко ассоциируются с отдельными словами или словосочетаниями. Таким поиском мы пользуемся, когда хотим получить ответы на вопросы, подобные следующим:

  • «как устроен двигатель автомобилей Toyota…»,
  • «что же это за телефон такой… VX-15F…»,
  • «так, а что они пишут о Евросоюзе…»,
  • «где-то тут уже писали про Ломоносова…».

Такая степень конкретики позволяет нам более-менее успешно использовать поиск по ключевым словам. Мы ищем слова «устройство двигателя Toyota» в системе интернет-поиска (yandex, google) или слово «Евросоюз» в открытом нами документе и получаем указание на фрагменты текста, где данные слова встречаются (в том числе и это предложение). После чего мы должны будем прочитать текст рядом с ключевыми словами, чтобы понять, нашли ли мы то, что искали. Возможно, придется просмотреть массу результатов или даже переформулировать поисковый запрос, прежде чем мы найдем действительно нужную нам информацию.

Однако если мы хотим искать не один конкретный объект (процесс, факт), а все объекты в рамках какой-то сферы интересов, то необходим совершенно иной подход к поиску. Например, как нам при помощи традиционного поиска найти:

  • «какую новую продукцию выпустили производители коммуникационного оборудования»,
  • «какие назначения произошли в администрации президента»,
  • «какие адреса упоминаются в документах»?

Решать эту проблему при помощи поиска по ключевым словам невозможно, так как существует огромное количество способов выражения представляющих интерес фактов в текстовой форме. Термины, в которых мы выразили наши поисковые потребности, слишком общи. Тем не менее, получить желаемый результат можно, если разработать специализированную программную систему, которая будет осуществлять поиск в соответствии с заданной сферой интересов. При этом целевые факты могут быть не только найдены, но также извлечены из текста и классифицированы. В результате такого поиска мы получаем не только указание на фрагмент текста (где упоминается интересующий нас объект или факт), но также структурные формы представления, например, таблицы или диаграммы с извлеченной информацией.

Итого…

Поиск по ключевым словам служит для обнаружения упоминаний в тексте либо конкретных слов, либо конкретных объектов. В результате поиска мы получаем указания на фрагменты текста.

Извлечение информации предполагает поиск всех фактов в рамках какой-то сферы интересов. Выявленные объекты и факты, представляются в структурированном виде (таблицы, диаграммы) и могут использоваться для дальнейшего анализа не только человеком, но и машиной.

Что такое семантический анализ текста?

В упрощенной формулировке, семантический анализ — это выявление смысла текста и его более мелких фрагментов; соотнесение отдельных слов (или групп слов) с объектами и явлениями реального мира или общими понятиями.

 

© 2009 Исследовательский центр искусственного интеллекта ИПС РАН.
Все права защищены.