Главная страница  |  Описание сайта  |  Контакты
Патент на изобретение №2469388

(19)

RU

(11)

2469388

(13)

C1

(51) МПК G06F17/30 (2006.01)

(12) ОПИСАНИЕ ИЗОБРЕТЕНИЯ К ПАТЕНТУ Статус: по данным на 07.12.2012 - нет данных Пошлина:

(21), (22) Заявка: 2011138392/08, 19.09.2011

(24) Дата начала отсчета срока действия патента:

19.09.2011

Приоритет(ы):

(22) Дата подачи заявки: 19.09.2011

(45) Опубликовано: 10.12.2012

(56) Список документов, цитированных в отчете о

поиске: EA 13001 B1, 26.02.2010. EP 892347 B1, 05.09.2007. RU 2391697 C2, 10.06.2010. RU 2398275 C2, 27.08.2010. US 7870355 B2, 11.01.2011. US 2007/0179995 A1, 02.08.2007.

Адрес для переписки:

607188, Нижегородская обл., г. Саров, пр. Мира, 37, ФГУП "РФЯЦ-ВНИИЭФ", начальнику ОПИНТИ

(72) Автор(ы):

Аверьянов Олег Игоревич (RU),

Бармин Александр Михайлович (RU),

Варгин Анатолий Михайлович (RU),

Горьков Игорь Васильевич (RU),

Ермошкин Андрей Иванович (RU),

Косарев Сергей Николаевич (RU),

Кошелев Вадим Вячеславович (RU),

Кульнев Дмитрий Вадимович (RU),

Муравьева Марина Вениаминовна (RU),

Семенов Георгий Петрович (RU),

Холостов Алексей Александрович (RU),

Чайка Андрей Иванович (RU),

Симонов Александр Геннадиевич (RU)

(73) Патентообладатель(и):

Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" - Госкорпорация "Росатом" (RU),

Федеральное государственное унитарное предприятие "Российский Федеральный ядерный центр - Всероссийский научно-исследовательский институт экспериментальной физики" - ФГУП "РФЯЦ-ВНИИЭФ" (RU)

(54) СПОСОБ ОБРАЩЕНИЯ К ДАННЫМ, ХРАНИМЫМ В ПАРАЛЛЕЛЬНОЙ ФАЙЛОВОЙ СИСТЕМЕ, С ИЕРАРХИЧЕСКОЙ ОРГАНИЗАЦИЕЙ ПАМЯТИ

(57) Реферат:

Изобретение относится к организации иерархической памяти компьютерных файлов данных. Техническим результатом является повышение производительности передачи данных, масштабируемость и обеспечение гибких механизмов управления потоками данных и политиками хранения, балансировки нагрузки. Способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти заключается в том, что формируют базу данных на серверах метаданных путем сканирования файлов, к которым должно осуществляться обращение, периодически просматривают метаданные с помощью программного обеспечения, в случае достижения заданного уровня заполненности и для освобождения пространства в параллельной файловой системе производят одновременно перемещение файлов на серверы миграции и занесение метаданных о перемещенных файлах в базу данных, при необходимости осуществляют возврат перемещенных файлов с помощью метаданных, в качестве программного обеспечения используют распределенную систему, серверы миграции и серверы метаданных объединяют между собой с помощью коммуникационной среды. 1 ил.

Изобретение относится к организации иерархической памяти компьютерных файлов данных и может применяться для построения систем хранения высокопроизводительных вычислительных систем.

Объем данных, хранимых на жестких дисках компьютеров, работающих в качестве устройств массовой памяти, быстро увеличивается в течение последнего десятилетия. Это особенно верно для данных, хранимых на сетевых файл-серверах, где в настоящее время обычными являются подсистемы на жестких дисках емкостью несколько Пб (петабайт) или выше, содержащие многие миллионы файлов.

В типовом случае ко многим из файлов на сетевых файл-серверах не будет обращения в течение некоторого времени. Это может объясняться разными причинами: файл может быть старой версией, резервной копией или может храниться до тех пор, пока однажды не потребуется. Файл может быть фактически вообще избыточным, однако только хозяин файла может идентифицировать его таковым, и в результате - файл хранится по причинам резервирования или надежности. В соответствии с общепринятой компьютерной практикой считается, что в случае сомнения файлы должны храниться неограниченно долго. Естественным следствием этого является то, что жесткие диски заполняются старыми файлами. Это случается в каждой компьютерной системе от самой маленькой до самой большой.

Организация иерархической памяти (HSM) является известным способом решения этой проблемы. Большинство современных операционных систем поддерживают информацию о последних дате и времени обновления файла. Многие также поддерживают информацию о последних дате и времени обращения к файлу. Система HSM периодически просматривает список файлов на жестких дисках, проверяя последние дату/время для каждого. Если к файлу не было обращений в течение заранее определенного промежутка времени, то файл переносится на вторичное устройство памяти, например магнитную ленту, и удаляется с жесткого диска.

Дальнейшее усовершенствование систем HSM, известное как деперемещение (демиграция, обратное перемещение), вынуждает HSM-систему автоматически восстанавливать перемещенный файл на исходный диск в случае, когда пользователь или прикладная задача пытаются обратиться к нему. Когда перемещенные данные хранятся на устройстве, работающем в режиме «почти on-line», например на ленточной библиотеке с автоматической сменой лент, запрос на обращение к файлу может быть даже временно приостановлен до тех пор, пока файл не будет восстановлен, после чего продолжается работа, как если бы файл никогда не был перемещен.

Известен «Способ обращения к данным, хранимым в компьютерной системе, с иерархической организацией памяти» (см. патент РФ 2182360 от 01.12.1995, опубликован 10.05.2002 г.), который включает этапы подачи команд, хранимых в оперативной памяти, в центральный процессор для обеспечения им поиска данных обращения, хранимых в оперативной памяти, путем генерирования, по меньшей мере, запроса на считывание, идентификации файла, к которому требуется обращение, причем файл состоит из частей файла, идентификации частей файла в файле, к которым необходимо обращения, обращения к частям файла, причем этап обращения включает проверку таблицы распределения файлов, которая определяет местоположение частей файла в средстве массовой памяти, для определения того, находятся ли части файла в средствах массовой памяти, и если это так, то определение местоположений таких частей файла, и формирования базы данных, которая идентифицирует местоположение частей файла, к которым должно осуществляться обращение.

В вышеуказанном патенте поддерживается вспомогательная база данных, указывающая, к каким блокам данных было обращение и в какие даты. Блоки, к которым не было обращения, могут быть затем заархивированы и удалены из файла на диске для освобождения памяти.

Если осуществляется запрос на считывание для части файла, которая заархивирована или перемещена, то система перемещает обратно требуемую часть файла перед тем, как запрос на считывание удовлетворяется.

Однако записи, обращение к которым имело место недавно, уже должны быть на жестком диске и доступ к ним может быть обеспечен немедленно в последующее время. Таким образом, доступ к часто требуемым записям будет обеспечен с высоким быстродействием без необходимости сохранения всего файла на жестком диске.

Способ может быть расширен, в сущности, с помощью увеличения порога пассивности для срока службы вспомогательной базы данных. Если из большого файла базы данных только к малому количеству записей было обращение, то все записи, к которым было обращение, могут быть сохранены на жестком диске, независимо от даты последнего обращения. Записи, к которым не было обращения, могут быть, однако, удалены для освобождения дискового пространства. В этом случае не требуется, чтобы вспомогательная база данных хранила дату или дату/время последнего обращения. Через продолжительные промежутки времени все области, к которым было обращение, могут быть перемещены, а вспомогательная база данных очищена.

Вышеуказанный способ является наиболее близким к заявляемому способу по технической сущности и поэтому выбран в качестве прототипа.

Недостатками данного способа являются:

- недостаточное быстродействие системы из-за единственности центрального процессора;

- миграция частей файла, т.к. происходит изменение целых файлов;

- невозможность применения данного способа для параллельной файловой системы.

Решаемой задачей является создание способа с организацией иерархического хранения данных для параллельной файловой системы.

Достигаемым техническим результатом является реализация производительности передачи данных, сравнимой со скоростью работы параллельной файловой системы, масштабируемость и обеспечение гибких механизмов управления потоками данных и политиками хранения, балансировки нагрузки.

Для достижения технического результата в способе обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти, который заключается в том, что формируют базу данных на серверах метаданных путем сканирования файлов, к которым должно осуществляться обращение, периодически просматривают метаданные с помощью программного обеспечения, в случае достижения заданного уровня заполненности и для освобождения пространства в параллельной файловой системе производят одновременно перемещение файлов на серверы миграции и занесение метаданных о перемещенных файлах в базу данных, при необходимости осуществляют возврат перемещенных файлов с помощью метаданных; новым является то, что в качестве программного обеспечения используют распределенную систему, серверы миграции и серверы метаданных объединяют между собой с помощью коммуникационной среды.

Применение в качестве программного обеспечения распределенной системы, серверов миграции с дисковыми массивами и серверов метаданных и объединение их между собой коммуникационной средой позволяет организовать иерархическую среду хранения данных для параллельной файловой системы.

На чертеже представлена функциональная схема, реализующая способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти.

Устройство, реализующее заявляемый способ, содержит высокопроизводительный вычислительный комплекс 1, включающий в себя параллельную файловую систему 2, серверы метаданных 3 3m, на которых организованы сканеры параллельной файловой системы, базы данных миграционного уровня системы хранения и клиенты параллельной файловой системы 4 4m, серверы миграции 5 5n, на которых находятся локальные дисковые массивы и клиенты параллельной файловой системы 6 6n, 7 - коммуникационная среда, организованная с помощью коммуникационной фабрики 8, объединяющая параллельную файловую систему 2, серверы метаданных 3 3m и серверы миграции 5 5n.

Реализованное программное обеспечение представляет собой распределенную систему, которая выполняет основные функции:

- осуществляет перемещение файлов в параллельном режиме;

- выделяет в монопольном или разделяемом режиме ресурсы (серверы миграции 5 5n, устройства хранения и т.д.) на время выполнения какой-либо операции с данными;

- предоставляет инструменты для запуска, исполнения и мониторинга заданий на выполнение какой-либо операции с данными;

- управляет очередью заданий, выполняет старт заданий и разрешение конфликтов при запросе ресурсов.

Основными компонентами реализованной системы являются:

- ядро системы;

- подсистема анализа загрузки параллельной файловой системы;

- транспортная подсистема;

- база данных;

- графический интерфейс;

- подсистемы зеркалирования или резервного копирования.

Программное обеспечение позволяет управлять серверами метаданных 3 3m, на которых осуществляется сканирование параллельной файловой системы 2, серверами миграции 5 5n, на которых осуществляется выполнение различных операций с данными (перенос данных из одного хранилища в другое, удаление данных и т.д) и заданиями, представляющими собой совокупность выделенных ресурсов, связанных с пользователем на определенное время.

Способ реализуется следующим образом.

В процессе функционирования путем периодического сканирования файлов в параллельной файловой системе 2, к которым должно осуществляться обращение, формируется база данных на серверах метаданных 3 3m.

Реализованное программное обеспечение на серверах метаданных 3 3m осуществляет отслеживание достижения заданного уровня заполненности параллельной файловой системы 2. При наступлении этого события для освобождения пространства происходит перемещение файлов на серверы миграции 5 5n по заранее заданным критериям и одновременное занесение метаданных в базу данных, находящуюся на серверах метаданных 3 3m.

При необходимости с помощью метаданных осуществляется возврат перемещенных файлов в параллельную файловую систему 2.

Заявляемый способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти высокопроизводительного вычислительного комплекса позволяет:

- отслеживать уровень заполнения параллельной файловой системы 2 высокопроизводительного вычислительного комплекса 1;

- осуществлять миграцию редко используемых данных с параллельной файловой системы 2 на дисковые массивы;

- восстанавливать мигрировавшие данные по запросу пользователей или в автоматическом режиме.

Был изготовлен опытный образец, испытания которого подтвердили его работоспособность и достижение заявленного технического результата.

Формула изобретения

Способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти, заключающийся в том, что формируют базу данных на серверах метаданных путем сканирования файлов, к которым должно осуществляться обращение, периодически просматривают метаданные с помощью программного обеспечения, в случае достижения заданного уровня заполненности и для освобождения пространства в параллельной файловой системе производят одновременно перемещение файлов на серверы миграции и занесение метаданных о перемещенных файлах в базу данных, при необходимости осуществляют возврат перемещенных файлов с помощью метаданных, отличающийся тем, что в качестве программного обеспечения используют распределенную систему, серверы миграции и сервера метаданных объединяют между собой с помощью коммуникационной среды.

РИСУНКИ