Технологии распределенной обработки данных.
Одной из важнейших сетевых технологий в экономических информационных системах является распределенная обработка данных. То, что персональные компьютеры стоят на рабочих местах, то есть на местах возникновения и использования информации, дало возможность распределить их ресурсы по отдельным функциональным сферам деятельности и изменить технологию обработки данных в направлении децентрализации. Распределенная обработка данных позволяет повысить эффективность удовлетворения изменяющейся информационной потребности информационного работника и, тем самым, обеспечить гибкость принимаемых им решений. Преимущества распределенной обработки данных выражаются в:
• увеличении числа удаленных взаимодействующих пользователей, выполняющих функции сбора, обработки, хранения, передачи информации;
• снятии пиковых нагрузок с централизованной базы путем распределения обработки и хранения локальных баз данных на разных ЭВМ;.
• обеспечении доступа информационному работнику к вычислительным ресурсам сети ЭВМ;
• обеспечении обмена данными между удаленными пользователями.
Формализация концептуальной схемы данных повлекла за собой возможность классификации моделей представления данных на иерархические, сетевые и реляционные. Это отразилось в понятии архитектуры систем управления базами данных (СУБД) и технологии обработки. Для обработки данных, размещенных на удаленных компьютерах, разработаны сетевые СУБД, а сама база данных называется распределенной.
Распределенная обработка и распределенная база денных не являются синонимами. Если при распределенной обработке производится работа с базой, то подразумевается, что представление данных, содержательная обработка данных базы выполняются на компьютере клиента, а поддержание базы в актуальном состоянии – на файл-сервере. Распределенная база данных может размещаться на нескольких серверах и для доступа к уда- ленным данным надо использовать сетевую СУБД? Если сетевая СУБД не используется, то реализуется распределенная обработка данных.
При распределенной обработке клиент может послать запрос к собственной локальной базе или удаленной. Удаленный запрос – это единичный запрос к одному серверу. Несколько удаленных запросов к одному серверу объединяются в удаленную транзакцию. Если отдельные запросы транзакции обрабатываются различными серверами, то транзакция называется распределенной. При этом запрос транзакции обрабатывается одним сервером. Если запрос транзакции обрабатывается несколькими серверами, он называется распределенным.
Только обработка распределенного запроса поддерживает концепцию распределенной базы данных.
Существуют разные технологии распределенной обработки данных.
Одной из первых технологий распределенной обработки данных была технология файл-сервер. По запросу клиента файл-сервер пересылает запрошенный файл. Целостность и безопасность данных не обеспечивается в должной степени. Файл-сервер содержит базу данных и файловую систему для обеспечения многопользовательских запросов.
Сетевые СУБД, основанные на технологии файл-сервер, также не обеспечивают безопасность и целостность данных. При увеличении числа запросов падает производительность системы, так как файл-серверы реализуют принцип «все или ничего». Полные копии файлов базы перемещаются по сети, увеличивается трафик сети, что может привести к увеличению времени ожидания клиентов. Трафик сети – это поток сообщений в сети.
На смену была разработана технология клиент-сервер. Технология клиент-сервер является более мощной, так как позволила совместить достоинства однопользовательских систем (высокий уровень диалоговой поддержки, дружественный интерфейс, низкая цена) с достоинствами более крупных компьютерных систем (поддержка целостности, защита данных, многозадачность).
Файл-сервер заменен сервером баз данных, который содержит базу данных, сетевую операционную систему, сетевую СУБД. Сервер баз данных обрабатывает запросы клиентов, выбирает необходимые данные из базы, посылает их клиентам по сети, производит обновление информации, обеспечивает целостность и безопасность данных.
Технология клиент-сервер позволяет независимо наращивать мощности сервера баз данных, увеличивая число поддерживаемых им услуг, и клиента, использующего новые приложения.
Для доступа к серверу баз данных и манипулирования данными применяется язык запросов SQL. По запросу клиента отправляется не полная копия файла, а логически не обходимая порция данных. Тем самым уменьшается трафик сети, что позволяет увеличить число обслуживаемых пользователей.
К недостаткам технологии клиент-сервер можно отнести то, что при отсутствии сетевой СУБД трудно организовать распределенную обработку.
Платформу сервера баз данных определяют операционная система компьютера клиента и сетевая операционная система. Под платформой понимают тип процессора, операционной системы, добавочного оборудования и поддерживающих его программных средств, на которых можно установить новое приложение. Сетевые операционные системы серверов баз данных – Unix, Windows NT, Linux и др. В настоящее время наиболее популярными серверами баз данных являются Microsoft SQL-server, SQLbase-server, Oracle-server и др.
Совмещение гипертекстовой технологии с технологией баз данных позволило создать распределенные гипертекстовые базы данных. Разрабатываются гипертекстовые модели внутренней структуры базы данных и размещения баз данных на серверах. Гипертекстовые базы данных содержат гипертекстовые документы и обеспечивают самый быстрый доступ к удаленным данным. Гипертекстовые документы могут быть текстовыми, цифровыми, графическими, аудио и видео файлами. Тем самым создаются распределенные мультимедийные базы.
Гипертекстовые базы данных созданы по многим предметным областям. Практически ко всем обеспечивается доступ через интернет. Примерами гипертекстовых баз данных являются правовые системы: Гарант, Юсис, Консультант + и др.
Рост объемов распределенных баз данных выявил следующие проблемы их использования:
• управление распределенными системами очень сложное;
• создание новых приложений, обеспечивающих распределенную обработку, обходится дороже, чем планировалось;
• производительность многих приложений в распределенных системах недостаточна;
• усложнилось решение проблем безопасности данных.
Решением этих проблем становится использование больших ЭВМ, называемых мэйнфреймами. Новое семейство мэйнфреймов IBM S/390 имеет оперативную память от 512 мегабайт до 8 гигабайт. Внутреннее дисковое устройство может иметь суммарную емкость до 288 гигабайт. Посредством web-сервера можно подключаться к сети интернет и вести коммерческую деятельность. 24. Технологии информационных хранилищ. Использование баз данных не дает желаемого результата автоматизации деятельности предприятия. Причина проста: реализованные функции хранения, обработки данных по запросу значительно отличаются от функций ведения бизнеса, так как данные, собранные в базах, не адекватны информации, которая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ (складов данных).
Технологии информационного хранилища обеспечивают сбор данных из существующих внутренних баз предприятия и внешних источников, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений. К внутренним базам данных предприятия относятся локальные базы подсистем ЭИС (бухгалтерский учет, финансовый анализ, кадры, расчеты с поставщиками и покупателями и т.д.). К внешним базам - любые данные, доступные по интернету и размещенные на web cepвеpax предприятий-конкурентов, правительственных и законодательных органов, других учреждений.
Отличие реляционных баз данных, используемых в ЭИС, от информационного хранилища заключается в следующем:
Реляционные базы данных содержат только оперативные данные организации. Информационное хранилище обеспечивает доступ как к внутренним данным организации, так и к внешним источникам данных, доступным по интернету.
База данных ориентирована на одну модель данных функциональной подсистемы ЭИС. Базы обеспечивают запросы оперативных данных организации. Информационные хранилища поддерживают большое число моделей данных, включая многомерные, что обеспечивает ретроспективные запросы (запросы за прошлые годы и десятилетия), запросы как к оперативным данным организации, так и к данным внешних источников.
Данные информационных хранилищ могут размещаться не только на сервере, но и на вторичных устройствах хранения.
Технология информационных хранилищ стала возможной после появления мейнфреймов и вторичных устройств - оптических устройств хранения данных с высокой емкостью. Среди них можно выделить CD-ROM (оптические диски только для чтения), WORM (диски с однократной записью), МО (магнитооптические диски, стираемые и перезаписываемые), оптические библиотеки со сменой дисков вручную, библиотеки-автоматы с автоматической сменой дисков (так называемая технология Jukebox).
Для размещения и доступа к данным на таких устройствах разработан ряд файловых систем. Наиболее используемые технологии реализуют системы HSM (Hierarchical Storage Management) и DM (Data Migration). HSM реализует технологии иерархического хранилища, Data Migration - миграции данных. HSM - система создает как бы «продолжение» дискового пространства файлового сервера на вторичных устройствах (библиотеках-автоматах), доступного приложениям
При конфигурации HSM указывается размер пространства на сервере, отводимого под буфер для обмена с оптическими библиотеками. Как только это пространство становится занятым, и требуются данные из оптической библиотеки-автомата, реализуется алгоритм миграции данных: наименее используемые файлы с сервера переносятся в библиотеку-автомат, освободившееся пространство передается буферу. Из библиотеки в буфер перекачиваются требуемые файлы. Если приложение обратится к файлу, перенесенному в библиотеку - автомат, HSM повторяет алгоритм миграции.
Все перемещения выполняются автоматически и приложения «не подозревают» о наличии вторичных устройств хранения. Смена оптических дисков в библиотеках-автоматах позволяет неограниченно увеличивать базу данных.
Для хранения данных в информационных хранилищах обычно используются выделенные серверы, кластеры серверов (группа накопителей, видеоустройств е общим контроллером), мейнфреймы.
Для доступа к информационным хранилищам требуются технологии, удовлетворяющие следующим условиям:
малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, второй - ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных - существенна;
высокая пропускная способность. Так как данные для ответа могут находиться в разных базах на значительных расстояниях друг от друга, требуется время на формирование ответа. Поэтому для обеспечения сбалансированной нагрузки требуется скорость передачи не менее 100 Мега бит/сек;
надежность. При работе с кластерами серверов интенсивный обмен данными требует, чтобы вероятность потери пакета была очень мала;
возможность работы на больших расстояниях, так как серверы кластера могут быть удалены друг от друга.
Всем этим требованиям.удовлетворяет АТМ-технология, технологии Fast Ethernet, Fibre Channel и др.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|