Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Информация, данные, знания ?




УПРАВЛЕНИЕ ДАННЫМИ

Учебно-методическое пособие

 

 

Красноярск

СФУ

 

УДК 004.65

У

 

Составитель О.А. Попова

Управление данными: учебно-методическое пособие [Текст] / сост. О.А.Попова. – Красноярск: Сиб. федер. ун-т, 2012. – 107 с.

В учебном пособии изложены основные разделы теории управления данными и ее приложения к информационным системам. Пособие написано в соответствии с требованиями государственных стандартов, предъявляемых к дисциплине «Управление данными». Предназначено для студентов и магистров, обучающихся по специальностям: 230201.65 Информационные системы и технологии, по направлениям 230200.62 «Информационные системы» 230100.68 «Информатика и вычислительная техника», 230400.62 «Информационные системы и технологии», 230400.68 «Информационные системы и технологии» всех форм обучения.

 

УДК 004.65

Сибирский

федеральный

университет, 2012

 

ОГЛАВЛЕНИЕ

Введение 3

Базы и банки данных 6

1.1. Информация, данные, знания 6

1.2. Базы данных 8 1.3. Банки данных 9

Преимущества Банка данных 12

Языковые средства Банка данных 13

Классификация языковых средств 14

Технические средства банка данных 20

Пользователи банков данных 21

Администраторы банка данных 22

2. Модели и структуры баз данных 29

2.1.Инфологическая модель29

2.2. Понятие модели данных 32

2.3. Иерархическая структура и модель данных 33

2.4. Сетевая структура БД 34

2.5. Реляционные базы данных 35

2.6. Диаграмма «сущность-связь» Чена 38

2.7. Объектно-ориентированные базы даны 38

2.8. Нормализация БД 39

2.9 Об эволюции и многообразии моделей данных 42 3. Технология «хранилище данных» 47

3.1. Концепция хранилища данных 47

3.2. Витрины данных 48

3.3. Категории данных в хранилище данных 55

3.4. Метаданные 57

3.5. Потоки данных 58

3.6. ETL – процесс 59

3.7. Преобразование данных 60

3.8. Загрузка и очистка данных 61

3.9. Выявление проблем в данных 62

4. Технологии управления данными 69

4.1. OLTP – системы 70

4.2. Многомерные модели данных 74

4.3. OLAP – системы 78

5. Технологии интеллектуального анализа данных 87

5.1. Методология анализа данных 87

5.2. Технология Data Mining 94

5.3. Технология KDD 101

6. Лабораторные работы. рекомендации к выполнению 105

Литература 106

 

Введение

Повсеместное использование компьютеров привело к пониманию важности задач, связанных с управлении ем данными. Управление данными ( data management) — процесс, связанный с накоплением, организацией, запоминанием, обновлением, хранением данных и поиском информации. Анализ данных, моделирование данных,управление базами данных, работа с хранилищами данных, извлечение, преобразование и загрузка данных, добыча данных, обеспечение качества данных, защита данных, управление метаданными (репозиториями данных), архитектура данных вот тот далеко неполный перечень основных вопросов, который лежит в сфере интересов управления данными.

Теперь компьютеры могут хранить все формы информации: записи, документы, изображения, аудио- и видеозаписи, научные данные и много новых форматов данных. Общество добилось больших успехов в получении, хранении, управлении, анализе и визуализации данных. Обобщенно эти задачи называются управлением данными. Системы управления данными обычно хранят громадные объемы данных, представляющих исторические записи организации. Размеры этих баз данных бурно растут. Важно то, что старые данные и приложения продолжают работать при добавлении новых данных и приложений. Системы постоянно изменяются. Действительно, большая часть крупных систем баз данных была разработана несколько десятков лет тому назад и развивалась вместе с развитием технологии. Взгляд в историю помогает понять текущие системы. В управлении данными имелось шесть разных фаз. Вначале данные обрабатывались вручную. На следующем шаге использовались оборудование с перфокартами и электромеханические машины для сортировки и табулирования миллионов записей. На третьей фазе данные хранились на магнитных лентах, и сохраняемые программы выполняли пакетную обработку последовательных файлов. На четвертой фазе было введено понятия схемы базы данных и оперативного навигационного доступа к данным, созданы первые реляционные базы данных и архитектура клиент-сервер (1980-1995). На пятой фазе был разработан и применен автоматический доступ к реляционным базам данным и была внедрена распределенная и клиент-серверная обработка, началось использование мультимедийных баз данных» (1995). Теперь мы находимся в начале шестого поколения систем, которые хранят разнообразные типы данных, в особенности, документы, изображения, аудио- и видеоданные. Эти системы шестого поколения представляют собой базовые средства хранения для появляющихся приложений Internet и intranet.

Пособие, в первую очередь, предназначена для бакалавров и магистров, обучающихся по направлению "Информационные системы". Книга будет полезна специалистам, занимающимся обработкой, анализом экспериментальных данных, а также проблемой извлечения знаний из баз больших объемов. В основу книги легли материалы, применяемые автором при преподавании таких дисциплин как «Обработка экспериментальных данных», «Компьютерные системы поддержки принятия решений», «Надежность информационных систем» для студентов и аспирантов компьютерных и инженерных специальностей. Поэтому пособие может быть использовано как для самостоятельного изучения предмета. Для этого в нем имеются вопросы для самопроверки, домашние задания, содержание лабораторных работ, вопросы к экзамену.

Базы и банки данных

Информация, данные, знания?

Понятия "информация", «данные», «знания» достаточно широко используются в обычной жизни современного человека, поэтому каждый имеет интуитивное представление, что это такое. Но когда наука начинает применять общеизвестные понятия, она уточняет их, приспосабливая к своим целям, ограничивает использование термина строгими рамками его применения в конкретной научной области.

Существует множество подходов к определению понятия "информация"1. Так, например, наиболее общее определениезвучит следующим образом: "Информация есть отражение реального мира. Информация - отраженное разнообразие, то есть нарушение однообразия. Информация является одним из основных универсальных свойств материи." [Информатика. Энциклопедический словарь для начинающих. Под ред. Д.А.Поспелова - Москва.: Педагогика-Пресс, 1994]. Данное определение дается с позиции философского подхода к понятия информация. Другое определение отражает практический аспект в определении понятия "информация" и формулируется так: "Информация есть все сведения, являющееся объектом хранения, передачи и преобразования" [Я.Л.Шрайберг, М.В.Гончаров - Справочное руководство по основам информатики и вычислительной техники -Москва: Финансы и статистика, 1995].

Все разнообразие взглядов на информацию более или менее четко укладывается в две ведущие модели, одна из которых трактует информацию как неотъемлемое свойство материи, ее атрибут ("атрибутивная концепция"), а другая - как неотъемлемый элемент самоуправляемых (технических, биологических, социальных) систем, как функцию этих систем ("функционально-кибернетическая концепция").

Рассмотрим некоторые из основных существующих точек зрения на понятие "информация". Так, согласно определениям, приведенным в толковых словарях, термин "информация" означает следующее:

Информация (Information)- содержание сообщения или сигнала; сведения, рассматриваемые в процессе их передачи или восприятия, позволяющие расширить знания об интересующем объекте [Терминологический словарь по основам информатики и вычислительной техники. Под ред. А.П.Ершова, Н.М.Шанского.­Москва.: Просвещение, 1991.-159 с.].

Базы данных

Для решения задач управления данными необходимо накопление и хранение и преобразование достаточно больших объемов данных. Этим целям служат базы данных (БД), банки данных и базы знаний. Ниже дадим наиболее популярные и используемые определения этих понятий.

База данных — организованная в соответствии с определёнными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей.

База данных — совокупность данных, хранимых в соответствии со схемой данных, манипулирование которыми выполняют в соответствии с правилами средств моделирования данных.

База данных — некоторый набор перманентных (постоянно хранимых) данных, используемых прикладными программными системами какого-либо предприятия.

База данных— совместно используемый набор логически связанных данных (и описание этих данных), предназначенный для удовлетворения информационных потребностей организации.

Наиболее общим на наш взгляд определением является определение, приведенное в Гражданском кодексе РФ, ст. 1260:

«Ба́за да́нных — представленная в объективной форме совокупность самостоятельных материалов (статей, расчётов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ)».

Под базой данных (БД) обычно понимается именованная совокупность данных, отображающая состояние объектов и их отношений в рассматриваемой предметной области. Характерной чертой баз данных является постоянство: данные постоянно накапливаются и используются; состав и структура данных, необходимых для решения тех или иных прикладных задач, обычно постоянны и стабильны во времени; отдельные или даже все элементы данных могут меняться – но это и есть проявление постоянства – постоянная актуальность.
базы данных (БД) создаются обычно для многоцелевого использования. БД отражают определенную часть реального мира. Эта информация должна по возможности фиксироваться в базе данных однократно, и все пользователи, которым эта информация нужна, должны иметь возможность работать с ней.

База данных — централизованное хранилище в ЭВМ определенным образом организованной информации

Банки данных

В «Общеотраслевых руководящих материалах по созданию банков данных» (М.: ГКНТ, 1982) дано следующее определение: «Банк данных — это система специальным образом организованных данных (баз данных), программных, технических, языковых, организационно - методических средств, предназначенных для обеспечения централизованного накопления и коллектив Анализ подходов к определению понятия БнД показал, что термин «банк данных» не является общепризнанным. В некоторой англоязычной литературе в последнее время используется термин «система баз данных» (database system), который по своему содержанию близок введенному понятию банка данных (система баз данных включает базу данных, систему управления базами данных, соответствующее оборудование и персонал. Слово «банк» является в этом смысле лучше, так как «банк» привычно обозначает не только то, что хранится в нем, но и всю инфраструктуру, Однако очевидно, что нельзя отождествлять понятия «база данных» и «банк данных». Банк данных является сложной системой, включающей в себя все обеспечивающие подсистемы, необходимые для функционирования любой системы автоматизированной обработки данных.

БнД - может рассматриваться в узком и широком смысле этого понятия.

В узком БнД=БД + СУБД. В широком БнД =АС (автоматизированная система). БнД в узком смысле включает в состав две основные компоненты: БД и СУБД, которая используется для реализации централизованного управления данными, хранимыми в базе, доступа к ним, поддержание их в состоянии, соответствующем состоянию ПО. В широком смысле БнД - это АС.

Рис. 1. Общая структура БнД

Важной особенностью БнД является наличие специальных языковых и программных средств, облегчающих для пользователей выполнение всех операций, связанных с организацией хранения данных, их корректировки и доступа к ним. Такая совокупность языковых и программных средств называется системой управления базой данных (СУБД).

Таким образом, БнД - совокупность базы данных с соответствующей системой управления базами данных (СУБД).

СУБД специальный комплекс программ, осуществляющий функции создания базы данных, поддержание ее в рабочем состоянии, выдача из нее информации, необходимой для обрабатывающих программ и т.д.

Одним из важных понятий БнД является словарь данных (СД), который представляет собой специальную систему в составе БнД, предназначенную для хранения единообразной информации обо всех ресурсах данных конкретного банка. В словаре содержатся сведения об объектах, их свойствах и отношениях для данной ПО, сведения о данных, хранимых в базе (наименования данных, их структуре, связи с другими данными), об их возможных значениях и форматах представления, об источниках их возникновения, о кодах защиты, разграничениях доступа к данным со стороны пользователей.

Информационная база БнД – это данные, отражающие состояние определенной предметной области и используемые информационной системой. Состоит из двух компонент: коллекции записей собственно данных и описания этих данных – метаданных. Данные могут использоваться (т. е. представляться) по-разному. С одной стороны, разные прикладные задачи требуют разных наборов данных, в совокупности обеспечивающих функциональную полноту информации, а с другой – они должны быть различны для различных категорий субъектов (разработчиков или пользователей). Назначение – представление данных на трех уровнях. В литературе по БД упоминается три уровня представления данных: концептуальный (пользователь, разработчик ИС), внешний или логический (прикладной программист), внутренний или физический (СУБД). Лингвистические средства обеспечивают интерфейс пользователей разных категорий с банком данных и базируются на языковых средствах СУБД. Включают в себя ЯОД, описание, модель данных и их отношения и ЯМД – средства запросов к БД и поддержания БД. Программные средства осуществляют обработку данных и управление этой обработкой в вычислительной среде, а также взаимодействие с операционной системой и прикладными программами. Основные компоненты: ядро (обеспечивает управление данными во внешней и оперативной памяти, а также протоколирование изменений), процессор языка баз данных (обработка – трансляция или компиляция – и оптимизация запросов на выборку и изменение данных), подсистема (библиотека) поддержки программных вызовов (обслуживает прикладные программы управления данными, взаимодействующие с СУБД через средства пользовательского интерфейса), сервисные программы (системные и внешние утилиты) (обеспечивают настройку СУБД, восстановление после сбоев и ряд дополнительных возможностей обслуживания). Технические средства служат для обеспечения эффективной и бесперебойной работы баз данных. Должны быть отказоустойчивыми, иметь надежные устройства ввода-вывода и объемные быстродействующие накопители. Организационно-административные подсистемы и нормативно-методическое обеспечение – не являются технической компонентой системы, однако трудно рассчитывать на устойчивое и долговременное функционирование банка данных, если будут отсутствовать необходимые методические и инструктивные материалы, регламентирующие работу пользователей, различных по своему статусу и уровню полноценности.

Преимущества Банка данных

Наличие целостного единого отображения определенной части реального мира позволяет обеспечить непротиворечивость и целостность информации, возможность обращаться к ней. Интегрированное хранение сокращает избыточность хранимых данных, что приводит к сокращению затрат не только на создание и хранение данных, но и на поддержание их в актуальном состоянии. Использование банка данных при правильной его организации должно существенно изменить деятельность организации, где он внедряется, привести к сокращению документооборота, форм документов, перераспределению функций между сотрудниками.

Централизованное управление данными также дает целый ряд преимуществ. Освобождение от этих функции всех пользователей, кроме администраторов БнД, не только приводит к сокращению трудоемкости создания системы и снижению требований к остальным участникам функционирования БнД, но и повышает качество разработок, так как вопросами организации данных занимается небольшое число профессионалов в этой области.

Преимуществом банков данных является также то, что они обеспечивают возможность более полной реализации принципа независимости прикладных программ от данных, чем это возможно при организации локальных файлов.

Наличие в составе СУБД средств, ориентированных на разные категории пользователей, делает возможной работу с базой данных не только профессионалов в области обработки данных, но и практически любого, причем это использование может быть как для их профессиональных целей, так и для удовлетворения потребности в информации в быту и т. п.

Очевидные преимущества БнД и объективные предпосылки их создания привели к широкому их использованию.

Языковые средства БнД

Языковые средства СУБД являются важнейшей компонентой банков данных, так как, в конечном счете они обеспечивают интерфейс пользователей разных категорий с банком данных. Языковые средства большинства СУБД относятся к языкам четвертого поколения (к первому поколению языков относят машинные языки, ко второму — символические языки ассемблера, к третьему — алгоритмические языки типа PL, COBOL и t.j п., которые в 60-е годы назывались языками высокого уровня, но уровень которых гораздо ниже, чем у языков четвертого поколения.

Языки четвертого поколения создавались по принципу «люди стоят дороже, чем машины». При их проектировании используются следующие принципы.

1. Принцип минимума работы: язык должен обеспечить минимум усилий, чтобы «заставить» машину работать.

2. Принцип минимума мастерства: работа должна быть так проста, как только это возможно; она не должна быть уделом избранных и быть понятной лишь посвященным.

3. Принцип естественности языка, упразднения «инородного» синтаксиса и мнемоники. Язык не должен требовать от пользователей значительных усилий в изучении синтаксиса или содержать много мнемонических или иных обозначений, которые быстро забываются. Принцип минимума времени. Язык должен позволять без существенной задержки реализовывать возникающие потребности в доступе к информации и ее обработке.

4. Принцип минимума ошибок. Технология должна быть спроектирована таким образом, чтобы минимизировать ошибки человека, а уж если они возникли, то по возможности «выловить» их автоматически.

5. Принцип минимума поддержки. Механизм языков четвертого поколения должен позволить легко вносить изменения в имеющиеся приложения.

6. Принцип максимума результата. Языки четвертого поколения предоставляют пользователям мощный инструмент для решения разнообразных задач.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...