Информационно-поисковые сис­темы

ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ (ИПС) по химии, автоматизированные поисковые системы, реализованные на средствах электронной вычислительной техники и предназначенные для сбора, поиска, обработки, хранения и выдачи пользователям химической информации по заданным критериям. Многообразие объектов химии и сложность её языка привели к выделению ИПС по химии в самостоятельный класс информационных систем. ИПС представляет собой совокупность информационно-поискового языка (языков), программных средств и правил перевода текстов на этот язык (индексирования), обеспечения поиска и критериев соответствия. Материализованное представление об ИПС включает в себя информационные массивы, их носители (магнитные, оптические и т. п.), программные и технические средства. Основными информационными массивами ИПС являются базы данных (БД) и банки данных (БнД), а также информационные массивы специализированных интернет-систем. В зависимости от характера информации, включаемой в БД, различают документографические, или документальные, ИПС (ДИПС; содержат библиографические описания, ключевые слова, рефераты статей из журналов и сборников, монографий, патентов, стандартов, отчётов о научно-исследовательской работе и т.д.); фактографические ИПС (ФИПС; содержат унифицированные фактографические данные об объектах предметной области, свойствах материалов и веществ, структурные формулы соединений, уравнения химических реакций, данные физико-химических исследований, сведения об областях применения, стоимости и др.); документально-фактографические (интегрированные) ИПС. Большинство ИПС по химии представлены в Интернете или распространяются на твёрдых магнитных носителях (CD-ROM, DVD и др.).

Реклама

Ключевой информационной составляющей в ИПС по химии является объект - химическое вещество. Информация о химических веществах может быть представлена в виде простых текстовых характеристик (название, синонимы, молекулярная формула и др.), числовых значений конкретных свойств, рефератов и полнотекстовых статей, графических и/или табличных, оптических, УФ-, ИК-, ЭПР-, ЯМР- и других спектров или зависимостей, плоских и трёхмерных изображений и т.д. Главной и специфической является информация о структуре молекул химических соединений. Основным способом представления структуры молекулы химического соединения является структурная формула. Структурная формула - главный источник информации о структуре молекулы конкретного химического соединения и его однозначный идентификатор. Способом представления химической информации в памяти ЭВМ и вне её служат форматы данных. Наиболее крупными разработчиками форматов данных в химии считаются следующие зарубежные информационные центры: Chemical Abstracts Service (CAS), Molecular Design Limited (MDL), Daylight, TRIPOS. Основными форматами данных являются линейные коды (SLN/SMILES, SYBYL, Висвессера и др.), текстовые файлы ASCII (MOL, SDF, RDF и др.), файлы форматов XML (CML).

Поиск (идентификация) химических веществ в ИПС может производиться на основе сравнения различных характеристик и свойств: регистрационных кодов, названий и синонимов, молекулярных данных (масса, формула, структура), библиографических данных и др. Ключевой является задача поиска химических веществ по структурной формуле. Для реализации поиска структурной химической информации применяются специально разработанные информационно-поисковые языки (классификаторы, справочники, словари, тезаурусы, рубрикаторы и т. п.) и алгоритмы обработки, решаемые как стандартными средствами систем управления БД, так и специализированными программными приложениями. В общем случае алгоритмы обработки структурной химической информации основаны на обработке молекулярных графов. Разработка первых алгоритмов, решающих проблему изоморфизма графа, относится к 1950-60-м годам. Эти алгоритмы были основаны на применении поатомного сопоставления молекулярных графов химических веществ (алгоритмы Рэя и Кирча, Ульмана). Алгоритм Ульмана основан на использовании рекурсивного алгоритма, методики глубокого просмотра и булевских матриц, хранящих состояние сопоставления графов; алгоритм Ульмана адаптирован для поиска по формулам Маркуша. Для увеличения производительности (скорости) поиска в больших ИПС используется метод предварительной фильтрации на основе различных дескрипторов молекулярной структуры (топологические индексы, физико-химические дескрипторы, структурные дескрипторы), преобразования структуры в редуцированный граф посредством замещения определённых больших структур специальными метками. На завершающем этапе допускается применение алгоритмов поатомного сопоставления.

Структурная информация в современных ИПС (БД) может быть представлена как в виде обычных химических структур для индивидуальных соединений, так и в виде формул Маркуша для обобщённых структур (характеризуются переменными молекулярными заместителями-радикалами, переменными местами замещения и количеством групп замещений, общими и частными названиями заместителей). Преимущественное распространение формулы Маркуша получили в патентной области, где их использование позволяет существенно расширить и защитить права авторов новых химических соединений. Формулы Маркуша могут применяться как гибкие классификаторы химических веществ. Существуют три крупные общедоступные (коммерческие) ИПС для поиска Маркуш-структур: Derwent World Patents Index (WPI), CAS MARPAT, INPI Merged Markush Service (MMS) в сотрудничестве с Derwent Information Ltd. (Markush DARC).

ИПС различаются охватом (числом) обрабатываемых источников (наполнением), структурой данных, функциональными и поисковыми возможностями. Наиболее крупные ДИПС по химии: в России - БД Химия ВИНИТИ РАН (Всероссийский институт научной и технической информации РАН; пополнение - 120 тысяч документов/год); за рубежом - БД Chemical Abstracts (Chemical Abstracts Service, США; пополнение - 1 миллионов документов/год, относится к политематической БД), БД Index Chemicus (Thomson Scientific, США; включает около 2,5 миллионов химических структур, опубликованных в литературе с 1993). Существенная часть химической информации включена в политематической БД - Science Citation Index (SCI, Thomson Scientific, США), SCOPUS (Elsevier, Нидерланды), отчётов о НИОКР и диссертаций (Всероссийский научно-технический информационный центр, Россия), патентные БД (Федеральный институт промышленной собственности, Derwent, Europatent). Основным фактографическим ресурсом для сопровождения химико-синтетических исследований является ИПС CrossFire Beilstein, в области металлоорганической и неорганической химии - CrossFire Gmelin (включает литературу начиная с 1772). Значительная часть зарубежных БД по химии представлена в Интернете в онлайновых системах-агрегаторах электронных информационных ресурсов: STN International, DIALOG и др., а также на платформах издательств (MDL, Elsevier, CAS и др.).

Наиболее крупные и специализированные полнотекстовые ИПС - коллекции по химии, наукам о материалах и другим смежным областям на интернет-платформах Elsevier (ScienceDirect), Wiley (полнотекстовые и фактографические ИПС: е-EROS - Encyclopedia of Reagents for Organic Synthesis, е-Proxemis - Organic Reactions, Organic Syntheses, Organic-Chemical Drugs и др.). Значительно число проблемно ориентированных и узкотематических химических ИПС.

В Интернете ДИПС получают новое развитие, выходят за рамки БД и преобразуются в информационные системы с расширенным спектром функциональных возможностей и услуг. Примеры новых типов ИПС - SciFinder, ChemNet и др. Большие возможности поиска БД и химической информации в целом предоставляют поисковые интернет-системы Scirus, Google, MSN и др., для Рунета - Yandex, Rambler, Google.ru. Большое количество химической информации находится в Интернете в открытом доступе.

Значительная часть ИПС имеет печатные аналоги в виде реферативных журналов и индексов: реферативный журнал «Химия» ВИНИТИ РАН, Chemical Abstracts, Chemlnform (Wiley), Chemistry Citation Index (Thomson) и др.

Лит.: Влэдуц Г. Э., Гейвандов Э. А. Автоматизированные информационные системы для химии. М., 1974; Гордон А., Форд Р. Спутник химика. Физико-химические свойства, методики, библиография. М., 1976.

О. В. Кириллова.