База данных

БАЗА ДАННЫХ, объективная форма представления и организации совокупности данных (статей и др.), систематизированных таким образом, чтобы эти данные могли быть найдены и обработаны ЭВМ. Центральным понятием теории базы данных является модель данных (МД), под которой понимается совокупность правил структурирования данных в базе данных, допустимых операций над ними и ограничений целостности, которым они должны удовлетворять. Целостность базы данных - свойство базы данных, означающее, что она содержит полную и непротиворечивую информацию, необходимую для корректного функционирования приложений.

Различают основные типы МД: иерархические, сетевые, реляционные, объектные.

Иерархическая МД представляет собой древовидный граф (смотри Графов теория), вершины которого состоят из записей определённых типов и связей между ними, причём один тип записи определяется как корневой, а остальные связаны с ним или друг с другом отношением «один-ко-многим». Иерархические базы данных - совокупность таких древовидных графов. Сетевая МД представляет собой граф общего вида, вершинами которого являются данные разных типов, простые (атомарные) или составные записи, а дугами - связи между этими данными. Записи - участники связей - соединяются в список, который называется набором. Наиболее известная версия - МД CODASYL (Conference on Data System Languages - Конференция по языкам систем обработки данных). Сетевая база данных состоит из набора записей и набора связей между этими записями. Реляционная МД представляет собой набор таблиц, называемых отношениями. Так как в реляционной МД можно организовать очень большое число связей, значительная часть которых избыточна, то такая МД устанавливает четыре формы (варианта) нормализации отношений. Отношения включают атрибуты и кортежи, составляющие соответственно столбцы и строки таблицы. Множество значений атрибутов называется доменом. Реляционная МД послужила основой стандарта языка реляционной базы данных SQL (Structured Query Language - Язык структурированных запросов). Объектная МД основана на понятии объекта, то есть сущности, обладающей состоянием и поведением. Состояние объекта определяется совокупностью его атрибутов, а поведение - совокупностью операций, допустимых для объекта. Между объектами устанавливаются связи. Объекты типизируются, причём обычно предусматривается возможность связи между типами объектов. Объектная МД представлена в стандарте ODMG (Object Database Management Group - Группа управления объектно-ориентированными базами данных).

Реклама

По применяемой МД различают базы данных: иерархические, сетевые, реляционные, объектные, а также смешанные (объектно-реляционные и т.п.). В конце 1990-х годов появился новый вид базы данных, предназначенный для хранения и обработки XML- документов (XML-документ представляет собой обычный текстовый файл, в котором при помощи специальных маркеров создаются элементы данных, последовательность и вложенность которых определяют структуру документа и его содержание). По принципу организации в телекоммуникационной среде различают базы данных локальные, с сетевым доступом, распределённые, фрагментированные, централизованные, тиражированные и мобильные; по способу отображения предметной области выделяют базы данных предметные, интегрированные, концептуальные, внешние и внутренние; по характеру использования - встроенные (служебные) и общедоступные, предназначенные для внешнего использования; по режиму доступа - открытые и конфиденциальные. Базы данных используются в рамках банков данных.

Для создания и использования базы данных важное значение имеет понятие «метаданные». Это сведения о данных, хранящихся в базе, описывающие их структуру, состав, формат представления, методы доступа, полномочия пользователя или администратора и др. Метаданные подразделяют на системные и пользовательские. Первые предназначены для поддержки системных функций, среди них основную роль играют схемы базы данных Вторые описывают свойства данных, представляющие интерес для конечных пользователей, прежде всего для поиска в базе данных. В состав метаданных входят информационно-поисковые языки, определяющие возможности и качество поиска в базе данных.

Основными параметрами базы данных принято считать её физические или логические объёмы. Физический объём базы данных выражается в байтах и производных величинах (килобайтах, мегабайтах и др.), логический объём определяется числом записей (объектов, документов), представленных в базе данных. Однако оба параметра являются нестрогими, поэтому сравнивать по объёму можно только базы данных с одинаковой структурой. Средний объём общедоступных баз данных составляет около 1 миллиона записей, объём одной записи для текстовой базы данных варьируется в пределах 200-2000 слов. Объёмы крупнейших баз данных составляют десятки терабайт, или десятки миллиард записей. Важный показатель качества базы данных и эффективности вложенных в них средств - число пользователей или запросов к базе данных, однако этот показатель применим только к общедоступным базам данных.

Термин «базы данных» введён в 1963 году на первом симпозиуме, посвящённом проблеме организации данных, состоявшемся в г. Санта-Моника (Калифорния, США). Значительное влияние на развитие технологий базы данных оказали достижения в смежных областях - операционных системах, языках и технологиях программирования. Фундаментальными разработками первого периода стали сетевая МД Комитета CODASYL (фактически первый стандарт в области базы данных), иерархическая МД с языком DL-1 (Data Language 1), разработанная компанией IBM, и реляционная МД Э. Кодда (он же ввёл само понятие «модель данных»). В этот же период появились первые коммерческие системы управления базами данных (СУБД). В 1970-х годах сформировалась наука о базе данных, была разработана технология базы данных, началось индустриальное производство СУБД. Создана теория реляционных баз данных и основанные на ней технологии реляционных СУБД, которые с 1980-х годов доминируют на мировом рынке. Коммерческие СУБД этого класса разработаны для всех аппаратных средств вычислительной техники, включая персональные компьютеры. Пик разработок языков программирования баз данных пришёлся на конец 1980-х годов, среди которых наибольшее распространение получил объектный язык С++. С середины 1990-х годов активизировалось развитие стандартов и технологий объектных баз данных, это связано в том числе с появлением языков программирования Java и UML (Unified Modeling Language - Унифицированный язык моделирования). В 1999 году принят Стандарт SQL. В конце 1990-х годов появились базовые технологии управления данными для систем поддержки принятия решений: интерактивная аналитическая обработка данных (OLAP - Online Analytical Processing), технологии хранилищ данных (Data Warehousing), технологии глубинного анализа данных (Data Mining). Созданы специальные технологии для очень больших баз данных, ориентированных на терабайты и даже петабайты информации. В 1990-е годы в связи с созданием открытой распределённой неоднородной гипермедийной ннформационной системы World Wide Web (Всемирная паутина, или WWW, W3, Web), использующей коммуникационную среду Интернет, происходит активное взаимодействие технологий баз данных и технологий WWW, среди которых наибольшее значение для баз данных имеет расширенный язык разметки XML (Extensible Markup Language - Расширяемый язык разметки). С конца 1990-х годов на базе технологий WWW ведутся многочисленные исследования, связанные с интеграцией информационных ресурсов, в том числе неоднородных.

База данных - информационный продукт, который можно приобрести либо непосредственно на различных носителях (чаще всего на оптических дисках типа CD-ROM), либо через Интернет или по другим протоколам, оплатив услуги по доступу к базам данных. По содержанию выделяют базы данных библиографические, реферативные, новостные, правовые, словарные, биографические, адресно-справочные, базы данных о промышленной продукции, химических соединениях и минералах, динамические ряды статистических и демографических данных и др. До середины 1980-х годов доминировали базы данных научно-технической информации, затем резко возросло значение баз данных коммерческой и деловой информации, в том числе биржевой и финансовой.

Базы данных - важнейший вид информационных ресурсов, количество, качество и характер использования которых во многом определяют уровень развития страны как информационного общества. Поэтому создание и использование баз данных в развитых странах, включая Россию, является объектом правового регулирования (смотри Информационное право).

Лит.: Directory of online databases. Detroit; L., 1979-1992. [Vol. 1-13]; Gale directory of databases. Detroit; L., 1993-2004- . [Vol. 1-12-]; Когаловский М. Р. Энциклопедия технологий баз данных. М., 2002; Родионов И. И. и др. Рынок информационных услуг и продуктов. М., 2002.

А. Б. Антопольский.

Связанные статьи