Параллельная декомпозиция реляционных операций на основе распределенных колоночных индексов

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Информатика, вычислительная техника и управление УДК 004. 657 DOI: 10. 14 529/cmse150405
ПАРАЛЛЕЛЬНАЯ ДЕКОМПОЗИЦИЯ РЕЛЯЦИОННЫХ ОПЕРАЦИЙ НА ОСНОВЕ РАСПРЕДЕЛЕННЫХ КОЛОНОЧНЫХ ИНДЕКСОВ
Е. В. Иванова, Л.Б. Соколинский
Данная статья является продолжением и развитием более ранней работы авторов, в которой была рассмотрена декомпозиция операций пересечения и соединения колоночных индексов на основе доменно-интервальной фрагментации. Такая декомпозиция позволяет организовать параллельное выполнение реляционных операций над распределенными колоночными индексами без массовых обменов данными между процессорными узлами. В настоящей статье рассматривается декомпозиция операций проекции, выбора, удаления дубликатов и объединения. Кроме этого, вводится новый вид колоночных индексов, названных колоночными хеш-индексами. Колоночный хеш-индекс способен индексировать сразу несколько атрибутов отношения. Для распределенных колоночных хеш-индексов рассматривается декомпозиция операций пересечения, объединения и естественного соединения.
Ключевые слова: распределенные колоночные индексы, доменно-интервальная фрагментация, колоночные хеш-индексы, декомпозиция реляционных операций.
Введение
В последнее время большой интерес у исследователей вызывают системы баз данных с хранением баз данных по столбцам. Такое представление данных называется колоночным [1, 2]. Колоночное представление в отличие от традиционного строкового представления оказывается намного более эффективным при выполнении запросов класса OLAP [3]. Это объясняется тем, что при выполнении запросов колоночная СУБД считывает с диска только те атрибуты, которые необходимы для выполнения запроса, что сокращает объем операций ввода-вывода и, как следствие, уменьшает время выполнения запроса. Недостатком колоночного представления является низкая эффективность при выполнении строково-ориентированных операций, таких, например, как добавление или удаление кортежей. Вследствие этого колоночные СУБД могут проигрывать по производительности строковым при выполнении запросов класса OLTP. Одним из главных преимуществ строчных хранилищ является наличие в строковых СУБД мощных процедур оптимизации запросов, разработанных на базе реляционной модели. Строковые СУБД также имеют большое преимущество в скорости обработки запросов класса OLTP. В соответствии с этим в исследовательском сообществе баз данных были предприняты интенсивные усилия по интеграции преимуществ столбцовой модели хранения данных в строковые СУБД. Анализ рассмотренных решений показывает [3], что нельзя получить выгоду от хранения данных по столбцам, воспользовавшись системой баз данных со строковым хранением с вертикально разделенной схемой, либо проиндексировав все столбцы, чтобы обеспечить к ним независимый доступ.
Авторами в работах [4−10] был предложен новый подход к интеграции преимуществ строчных и колоночных хранилищ, суть которого заключается во введении распреде-
ленных колоночных индексов, хранимых в оперативной памяти кластерной вычислительной системы. Эти колоночные индексы обрабатываются с помощью программной системы, получившей название «колоночный сопроцессор КСОП». Назначение КСОП — вычислять таблицы предварительных вычислений для ресурсоемких реляционных операций по запросу СУБД. Общая схема взаимодействия СУБД и КСОП изображена на рис. 1.
Рис. 1. Взаимодействие SQL-сервера с колоночным сопроцессором КСОП
КСОП включает в себя программу «Координатор», запускаемую на узле вычислительного кластера с номером 0, и программу «Исполнитель», запускаемую на всех остальных узлах, выделенных для работы КСОП. На SQL-сервере устанавливается специальная программа «Драйвер КСОП», обеспечивающая взаимодействие с координатором КСОП по протоколу TCP/IP.
Теоретические основы колоночного сопроцессора были изложены авторами в работе [4], где были описаны колоночные индексы и доменно-интервальная фрагментация. Суть математической модели заключается в следующем. Пусть задано отношение R (A, B,…), T® = n. Атрибут, А в отношении R играет роль суррогатного ключа. Пусть на множестве DB, являющемся доменом атрибута B, задано отношение линейного порядка. Колоночным индексом IRB атрибута B отношения R будем называть упорядоченное отношение IRB (A, B), удовлетворяющее следующим свойствам:
т (Irb) = n и я a (Ir b) = *a ® — (1)
Vxl, x2 e IRB (x & lt- x2 ^ xl. B & lt- x2. B) — (2)
Vr e R (Vx e IR. B (r.A = x. A ^ r. B = x. B)). (3)
С содержательной точки зрения колоночный индекс IRB представляет собой таблицу из двух колонок с именами A и B. Количество строк в колоночном индексе совпадает с количеством строк в индексируемой таблице. Колонка B индекса IRB включает в себя все значения колонки B таблицы R, отсортированных в порядке возрастания. Каждая строка x индекса IR B содержит в колонке A суррогатный ключ (адрес) строки r в таблице R, имеющей такое же значение в колонке B, что и строка x. На рис. 2 представлены примеры двух различных колоночных индексов для одного и того же отношения.
Колоночный индекс 1КВ
ОтношениеR
Колоночный индекс /й
А В, А В С, А с
3 110 0 136 17 ------ 1 10
1 114 1 1 1 114 10 3 10
5 127 2 136 25 ¦¦-х-- 4 15
0 136 1 / 3 110 10×0 17
2 136 — 4 174 15 2 25
7 158 V 5 127 99 8 55
4 174 ж — К'-& quot-* 6 174 97 7 63
6 174 7 158 63 6 97
8 187 --------------& gt- 8 187 55 / ч 5 99
Рис. 2. Колоночные индексы
Для фрагментации колоночных индексов по узлам многопроцессорной системы авторами был предложен метод доменно-интервальной фрагментации [4], суть которого заключается в следующем. Пусть на множестве значений домена Эв задано отношение линейного порядка. Разобьем множество Эв на к & gt- 0 непересекающихся интервалов:
К = К- V!) ^ v2) =[Ук_{, Ук) —
(r)в = и^.
i=0
Функция «: Эв ^{0,…, к -1} называется доменной функцией фрагментации для Эв ,
(4)
¦'-в
если она удовлетворяет следующему условию:
-е{0,…, к — 1}^Ь е
VI е {0,…, к — 1}^Ь е Эв & lt- (Ь) = I о Ь е V)). (5)
Пусть задан колоночный индекс 1яв для отношения R (А, В,…) с атрибутом В над доменом Эв и доменная функция фрагментации ф^. Функция
: !яв ^{0,., к -1}, (6)
определенная по правилу
^ е 1Е. в (ф/к, (Х) =Фъв (Хв)), (7)
называется доменно-интервальной функцией фрагментации для индекса 1кв. Другими словами, функция фрагментации сопоставляет каждому кортежу х из 1яв номер
доменного интервала, которому принадлежит значение х.в.
Определим г-тый фрагмент (I = 0,., к — 1) индекса 1яв следующим образом:
4. в = {х 1 х е в- ф1кв (х) =/}. (8)
Это означает, что в г-тый фрагмент попадают кортежи, у которых значение атрибута в принадлежит г-тому доменному интервалу. Фрагментация, построенная таким образом, называется доменно-интервальной. Количество фрагментов к называется степенью
У0 & lt- У1 & lt- ••• & lt- Ук-
Колоночный индекс
?и. в
Домен атрибута В
A B
3 110
1 114
5 127
0 136
2 136
7 158
4 174
6 174
8 187
у
100 A B
3 110
¦¦¦ Интервал 0 1 114
129 5 127

130 A В
— Интервал 1 3 110
1 114
159 5 127

160 ¦& quot-¦---…^ A B
— Интервал 2 3 110
1 114
189 5 127
CP 0
го u 0
ср 0
Рис. 3. Фрагментация колоночного индекса
фрагментации. На рис. 3 схематично изображена доменно-интервальная фрагментация колоночного индекса, имеющая степень к = 3.
Пусть для отношения R (А, В, С,…) заданы колоночные индексы 1КВ и 1КС. Транзитивной фрагментацией индекса ^ С относительно индекса ^ В называется фрагментация, задаваемая функцией: 1КС ^{0,…, к -1}, удовлетворяющей условию Ух е ^ С:
& lt-Pir, с (*) = ?IR B (°A=x.A (IR. B)) •
(9)
Транзитивная фрагментация позволяет разместить на одном и том же узле элементы колоночных индексов, соответствующие одному кортежу индексируемого отношения.
В работе в работе [4] авторами была выполнена декомпозиция операций пересечения и соединения, в [8] - операции группировки. В настоящей статье рассматривается декомпозиция операций проекции, выбора, удаления дубликатов и объединения. Кроме этого, вводится новый вид колоночных индексов, названных колоночными хеш-индексами. Колоночный хеш-индекс способен индексировать сразу несколько атрибутов отношения. Для распределенных колоночных хеш-индексов рассматривается декомпозиция операций пересечения, объединения и естественного соединения.
Статья имеет следующую структуру. В разделе 1 рассматривается декомпозиция операций проекции, выбора, удаления дубликатов и объединения с использованием фрагментированных колоночных индексов. В разделе 2 вводится понятие колоночного хеш-индекса и декомпозиция операций пересечения, объединения и естественного соединения с использованием распределенных хеш-индексов. В заключении суммируются полученные результаты, делаются итоговые выводы.
1. Декомпозиция реляционных операций с использованием фрагментированных колоночных индексов
В данном разделе рассматривается декомпозиция операций проекции, выбора, удаления дубликатов и объединения с использованием фрагментированных колоночных индексов.
1.1. Декомпозиция проекции
В этом разделе рассматривается декомпозиция операции проекции вида с ®.
Алгоритм выполнения проекции в строчных СУБД не содержит ресурсоемких вычислений, однако он требует чтения с диска всего отношения. В отличие от этого, предлагаемый ниже алгоритм использует только те столбцы (колоночные индексы) отношения, которые вовлекаются в проекцию. Кроме этого, он вообще не предполагает чтений с диска, так как колоночные индексы хранятся в оперативной памяти.
Пусть задано отношение R (А, В, С1,…, Си,…) с суррогатным ключом Л. Пусть имеется колоночный индекс 1КВ (А, В). Пусть также имеются колоночные индексы 1К с (А, С1),., 1К с (А, Си). Пусть для индекса 1КВ задана доменно-интервальная фрагментация степени к:
4. в = 04 В. (10)
{=0
Пусть для индексов 1Я^,…, 1Яс задана транзитивная относительно 1Кв фрагментация:
Положим
V] е{1,…, и} 1КС = 01кс]. (11)
V ?=0)
Р = 4в& quot-4с (12)
для всех i = 0,., к -1. Определим
к-1
Р = иР. (13)
Построим отношение Q (B, с1,., си) следующим образом:
Я =,., си (Р). (14)
Теорема 1. Q = жв^ с ®.
Доказательство. Сначала докажем, что
Я ^Яв^с ®. (15)
Пусть (Ь, с1,., си) е Я. В силу (14) и (13) существуют, а и i такие, что (а, Ь, с1,., си) е р. В силу (12) имеем:
(а, Ь) е 1Кв- (а с1) е I —
(а си) е 1к
По определению колоночного индекса (свойства (1) и (3)) отсюда следует, что существует г е R такой, что г. А = а-гВ = Ь-г. С1 = с,-… -г. Си = см, откуда следует (Ь, с,…, си) епвс^ С ®, то есть (15) имеет место.
Теперь покажем, что
Q. Си ®. (16)
Пусть (Ь, с,…, си) е жВ ^ с ®. Тогда существует г е R такой, что г. В = Ь- г. С1 = с1- … — г. Си = си. Положим, а = г. А. По определению колоночного индекса (свойства (1) и (3)) отсюда следует что
(а, Ь) е 1Кв —
(а, с1) е 1яс/-
(17)
(a, си) е 1ЯСи.
В силу свойств доменно-интервальной фрагментации существует 1 такой, что (а, Ь) еГНВ. По определению транзитивной относительно 1ЯВ фрагментации отсюда, с учетом (17), следует
(а с1) е гя. с, —
(a, си) е ГК. С^
Тогда, в силу (12), (а, Ь, с,., си) е р. Учитывая (13), получаем (а, Ь, с,., си) е Р, то
есть (Ь, с,., си) ежв^ с (Р). Принимая во внимание (14), имеем (Ь, с,., си) е Q, что означает, что (16) имеет место. Теорема доказана.
1.2. Декомпозиция операции выбора
В данном разделе рассматривается декомпозиция операции выбора вида св®, где в — некоторое условие, накладываемое на атрибуты отношения R.
Пусть имеется отношение R (А, В, С,., Си, Д,…, Dw) с суррогатным ключом А. Рассмотрим операцию выбора вида & lt-ув (в^ с)(Я), где в (В, С,., Си) — некоторое условие, зависящее от значений атрибутов В, С,., Си отношения R. Пусть имеется колоночный индекс 1ЯВ. Пусть также имеются колоночные индексы:
IR. Cl,. ¦¦,Я. Си
Пусть для индекса 1ЯВ задана доменно-интервальная фрагментация степени к:
4.В = 04 В. (18)
1=0
Пусть для индексов 1Я^,…, 1Яс и 1Я^,…, 1Яв задана транзитивная относительно 1Я фрагментация:
С к-1 Л
V- е{1,…, и} 1я. с = Укс,. (19)
Положим
Я. С, ~ Я. с
V & gt-=о '- У
Р =^А (°в (В, с,., си) (1Я.ВЯ. с,. си)) (20)
для всех 1 = 0,., к -1. Определим
P = ОP. (21)
i=0
Построим отношение Q (A, B, Cl,…, Cu, D-,…, Dw) следующим образом:
Q = {& amp-* (p. A) p e P}. (22)
Теорема 2. Q = ae (B, Ci,_ C)®.
Доказательство. Сначала докажем, что
Q c^bc^C)®. (23)
Пусть (a, b, c1,…, cu, d1,…, dw) e Q. Тогда из (22) и (1) следует, что существует r e R такой, что
r.A = a-r.B = b-rC- = c^… -r. Cu = cu-r Dx = dx-… -r. Dw = dw. (24)
C другой стороны, в силу (22) существует p e P такой, что (a) e P. Тогда в силу (21) существует i такой, что (a) e P. Отсюда, с учетом (20), существуют b'-, c{,…, cu такие, что
(a, b'-, c[,…, c'-u) eae, в, q,…, CU) (IR .B mI'-*. *Ir. Cu). (25)
Отсюда следует, что
0(b'-, c[,…, cu) = true (26)
и
(a, b'-) e IR b —
(a cl) e irc1-
(a c'-u) e IRCU.
По определению колоночного индекса (свойства (1) и (3)) отсюда следует, что существует r'- eR такой, что r'-.A = a, r'- .B = b'-, r'-. C- = c[,…, r'-. Cu = cl. Принимая во внимание (26), тогда имеем 9(r '-. B, r '-. C1,…, r '-. Cu) = true, то есть r'- eoe{BCi C) ®. Поскольку r'-.A = a = r. A
и A — суррогатный ключ в R, с учетом (24), отсюда получаем (a, b, c-,…, cu, d-,…, dw) e& amp-g (BCi C } ®, то есть (23) имеет место.
Теперь покажем, что
Q в, C-,., C»,®. (27)
Пусть (a, b, c-,…, cu, d-,…, dw) e ав (вBC^ C) ®. Тогда существует r e R такой, что
r.A = a- r. B = b- r. C- = c^ … — rCu = cu- r. D- = d, — … — r. Dw = dw (28)
и
6(b, c-,…, cu) = true. (29)
По определению колоночного индекса (свойства (1) и (3)) из (28) следует что
(a, b) e IR b — (a, c) e IRC —
1 (30)
си) е ¦
В силу свойств доменно-интервальной фрагментации существует i такой, что
(а, Ь) е Гнв. По определению транзитивной относительно 1КВ фрагментации отсюда, с
учетом (30), следует
(а с,) е 1'-я с, —
си) е ГН. Си.
Тогда с учетом (29) из (20) получаем (а) е р. Принимая во внимание (21), имеем (а) е Р. С учетом (22) и (1) отсюда следует, что существует г'- е Я такой, что
г'-. А = а (31)
и
(г '-. А, г '-. В, г '-. С,., г '-. С, г '-Д,…, г В) е Q. (32)
Так как, А — суррогатный ключ, из (31) следует, что г'- = г. Вместе с (32) и (28) это дает (а, Ь, с,., си, d1,…, dw) е Q, то есть (27) имеет место. Теорема доказана.
1.3. Декомпозиция операции удаления дубликатов
Пусть задано отношение Я (А, В, С,., Си) с суррогатным ключом А. Пусть имеется колоночный индекс 1ЯВ. Пусть также имеются колоночные индексы 1Я^,…, 1ЯС. Пусть для индекса 1Я В задана доменно-интервальная фрагментация степени к:
4.В = 04 В. (33)
1=0
Пусть для индексов 1Я^,…, 1Яс задана транзитивная относительно 1ЯВ фрагментация:
V- е{1,…, и}(1я. с, = 0 1кс11. (34)
V 1=0 У
Положим
р ЖА (Гшш (А)^А, В, С,. -, Си (^Я.ВЯ. С,)) (35)
для всех 1 = 0,., к -1. Определим
Р = 0Р. (36)
1=0
Построим отношение Q (B, С,., Си) следующим образом:
Q = {(& amp-я (р. А). В,&-я (р. А). С,… ,&-я (р. А). с,)| р еР}. (37)
Теорема 3. Q = *(*В, с,., с (Я)). Доказательство. Сначала докажем, что
Q с^(^В, с"., Си (Я)). (38)
Пусть (Ь, с,., си) е Q. Тогда из (37) следует что существует, а такой, что (а) е Р, и существует г е Я такой, что
г. А = а- гВ = Ь- г. с, = с, — … — г. с" = с. (39)
Следовательно (Ь, с,., си) с (Я)). Теперь покажем, что
Q (Я)). (40)
Пусть
(Ь, C1,., си) е^(^В, С"., Си (Я)).
Положим
R '-(Л, В, С,., Си) = {г|г е R л г. В = Ь л г? х = с, л… л г? и = си}. (41)
Вычислим кортеж
г '- = 7тш (Л)^Л, ВС. С (R'-). (42)
Очевидно, что
г'- е R (43)
и
г '-.В = Ь- г '-С = с, — … — г '-€и = Си. (44)
Обозначим
а = г'-.Л. (45)
По определению колоночного индекса (свойства (1) и (3)) из (43), (44) и (45) следует что
(а, Ь) е 1КВ-
(а С1) е
(а Си) е.
В силу свойств доменно-интервальной фрагментации существует 1 такой, что (а, Ь) е ГНВ. По определению транзитивной относительно 1ЯВ фрагментации отсюда следует
(а С1) е 4. с-
(а Си) е 4. си-
Тогда с учетом (42) из (35) получаем (а) е р. Принимая во внимание (36), имеем (а) е Р. С учетом (37) и (1) отсюда следует, что существует г& quot- е R такой, что
г& quot-. Л = а (46)
и
(г& quot-. В, г"-. С,., г"-. Си) е 0. (47)
Так как, А — суррогатный ключ, из (45) и (46) следует, что г'- = г& quot-. Вместе с (44) и (47) это дает (Ь, с,…, си) е 2, то есть (40) имеет место. Теорема доказана.
1.4. Декомпозиция операции объединения
В данном разделе рассматривается декомпозиция операции объединения двух отношений вида п^ В (Я) и^В В (8). При этом предполагается, что п^ В (Я) и п^ В (8)
не содержат дубликатов. Результирующее отношение также не должно содержать дубликатов.
Пусть заданы два отношения Я (Л, В,…, Ви) и 8(Л, В,…, Ви), имеющие одинаковый набор атрибутов. Пусть имеется два набора колоночных индексов по атрибутам В,., Ви:
4. в, ,. '-'-, 4. Ви.
Пусть для индексов 1Я ^ и 18 ^ задана доменно-интервальная фрагментация степени к:
4в1= и 4В- (48)
1=0
к-1 0I
я .В '-
(49)
Пусть для индексов 1ЯВ ,…, 1ЯВ и 1Я в ,…, 1ЯВ задана транзитивная фрагментация отно-
сительно 1Я в и 1Я в соответственно:

V- е{2,…, и} I = 0I
к -1 Л
Я В- Я В
V 1=0 '- У
А к-1 1
V- е{2,…, и} = 0I Положим для всех 1 = 0,., к -1 и, = 1,., и
я. в, ~. в
V & gt-=0 '- У
Р& quot- = я, ,
— ^ В., В..
-Я в м Iя в
_ Я. В (4,. в,= 4 В,. в,) я. В
Определим
Положим для всех 1 = 0,., к -1
Р1=ПР
=1
РЯ = Ж (-Я. В,)
Р. =ХлП. в
м Р1 (-кв. А* Р1. А.)
Определим
Ря=0 ря ,
1=0 к-1
Р. =0 р..
Построим отношение Q (А, В,…, Ви) следующим образом:
Q = {& amp-Я (р. А) | р е Ря }и{& amp-. (р. А) | р е Р. }.
Теорема 4. Ж в., К (Q) =в,., ви (Я) ^в,., ви (я).
Доказательство. Сначала докажем, что
ЖВ., ви (0 с Жв,…, ви (Я) ^ Жв,., ви (Я).
Пусть
(Ь,…, К) еЖв,., в, (Q). Из (58) следует, что как минимум одно из следующих условий истинно:
(Ь,…, Ьш) е^,, ви ({& amp- я (р. А) | р е Рд }) —
(Ь,…, Ьш) е^,, ви ({& amp-. (р. А)|р е Р. }).
Предположим сначала, что условие (61) истинно. Тогда существует р е РЯ такой, что
& amp-Я (р. А) = г е Я
и
г = Ь1,…, Ьи),
где, а = р.А. Отсюда получаем (Ь,…, Ьи) е^в в (Я). Следовательно, (Ь,…, Ьи) е жв в (Я) в (Я), и (59) имеет место. Для случая, когда истинным явля-
(50)
(51)
(52)
(53)
(54)
(55)
(56)
(57)
(58)
(59)
(60)
(61) (62)
и
ется условие (62), это утверждение доказывается аналогично (в рассуждениях выше надо просто заменить R на S и г на з). Теперь докажем, что
пв1.В (0) 3 пв1, -,(Я) и пв,., В^ (8). (63)
По условию, объединение в правой части не должно содержать дубликатов (в предположении, что п^ В (Я) и п^ В (8) не содержат дубликатов). Такое объединение без
дубликатов может быть вычислено следующим образом:
= п8* (Я м .) — (64)
8 Я. В, =8. В, л. лЯ. Ви =8. Ви)
8=п- (^. Л8) — (65)
пв1,…, ви (Я) и пв1,…, ви (8) = пв. ви (Я) и пв1,…, Ви (8). (66) Поэтому условие (63) эквивалентно условию
пВ1,…, Ви (0) 3 пВ1,…, Ви (Я) и пВ1. Ви (8). (67)
Покажем, что последнее истинно. Пусть (Ь,…, Ьи) еп, В (Я) ип, В (8). Тогда
(Ь,…, Ьи) е п, В (Я), либо (Ь,…, Ьи) еп, В (8). Предположим сначала, что (Ь,…, Ьи) е п, В (Я). Это означает, что существует г е Я такой, что
г. В, = Ь,…, г. В и = Ьи. (68)
Положим
г. Л = а. (69)
По определению колоночного индекса (свойства (1) и (3)) отсюда следует что (а, Ь,) е. В силу свойств доменно-интервальной фрагментации существует 1 е N такое,
что (а, Ь,) е ГЯ,. Тогда с учетом (54) и (56) получаем
Р = (а) е Ря. (70)
Положим
г'- = & amp- Я (Р. Л). (71)
По построению
г'-. Л = а. (72)
Принимая во внимание, что, А — суррогатный ключ, из (72) и (69) следует
г = г'-. (73)
Из (58), (70), (71), (73) следует, что г е 0. Вместе с (68) это дает (Ь,…, Ьи) е п, В (0),
то есть (63) имеет место для рассмотренного случая. Предположим теперь, что
(Ь,., Ьи) еяв1. л (8). (74)
Это означает, что существует У е 8 такой, что
У. В, = Ь,… ,!. Ви = Ьи. (75)
Положим
1.Л = а. (76)
Из (65) следует, что У е 8. По определению колоночного индекса из (75) следует что
(а, Ь1) е 1. А-
… (77)
(а, Ьи) е 18. Ви.
В силу свойств доменно-интервальной фрагментации существует 1 такой, что (а, Ь,) е Г8 В. По определению транзитивной относительно 1ЗВ^ фрагментации отсюда, с
учетом (77), имеем
(а Ь2) е. в2-
(а К) е. ви.
Покажем, что
айР1 (78)
Предположим противное, то есть, а еР1. Тогда существует (а'-, Ь,'-,… ,) е Я такой, что (а'-, а) еР1. По определению колоночного индекса (а'-, Ь,'-) е 1ЯВ^. В силу свойств доменно-интервальной фрагментации (а'-, Ь,'-) е ГЯ. По определению транзитивной относительно -Я в фрагментации отсюда следует
(а '-, Ь2) е I'--
(а '-, Ьи) е —
Но тогда с учетом (53) и (52) получаем
и/^ я. в, ¦
Ь = Ь, —
Ь'- = Ь.
и и
Отсюда в силу (64) следует (а, Ь,…, Ьи) е Я. Принимая во внимание (65), получаем (а, Ь,…, Ъи) йЯ. Так как мы предположили, что л^ в (Я) не содержит дубликатов, отсюда следует (Ь,…, Ьи) й л^ в (Я). Получили противоречие с (74). Таким образом, (78) истинно. Тогда из (55) следует, что (а) е Р. С учетом (57) получаем (а) е Р. Теперь из (58), (76), (75) и (65) следует, что (а, Ь,…, Ьи) е Q, то есть (Ь,…, Ьи) е л^ в. Теорема доказана.
2. Декомпозиция реляционных операций с использованием фрагментированных колоночных хеш-индексов
В этом разделе вводится понятие колоночного хеш-индекса. Колоночный хеш-индекс позволяет использовать один колоночный индекс для индексирования нескольких атрибутов одного отношения. Для распределенных колоночных хеш-индексов рассматривается декомпозиция операций пересечения, объединения и естественного соединения.
2.1. Колоночный хеш-индекс
Определение 1. Пусть задано отношение Я (А, В,., Ви,…). Пусть задана инъек-тивная хеш-функция h: ®в х … х ®в ^ Ъа0. Колоночным хеш-индексом 1Ь (А, Н) атрибу-
тов В1,…, Ви отношения R будем называть упорядоченное отношение, удовлетворяющее тождеству:
1и = ти (та, И (в1…, ви)-н (Я)). (79)
Колоночный хеш-индекс обладает следующим основным свойством:
Уг '-, г & quot-е R (г '-Д = г & quot-Д л … л г '-. Ви = г & quot-. Ви «И (г '-Д,.» г '-. Ви) = И (г & quot-Д,." г & quot-. Ви)). (80)
Заметим, что обратная импликация следует из инъективности хеш-функции h. Из (80) непосредственно вытекает следующее свойство колоночного хеш-индекса:
Уг '-, г '-'- е R (И (г '- Д,." г '- Ви) ф И (г & quot-. В,., г '-Ви)" г '- Д Ф г '-'-Д V … V г '- Ви Ф г'-'-. Ви).
Фрагментация колоночного хеш-индекса осуществляется на основе доменно-интервального принципа с помощью функции фрагментации р^: 1Ь — {0,…, k -1}, определенной следующим образом:
Ух е 1и (и (х) = рг^хН)), (81)
где рЪ: Ъ & gt-0 -^ {0,…, k -1} - доменная функция фрагментации для домена ЭН = Ъ & gt-0.
2.2. Декомпозиция операции пересечения
В данном разделе рассматривается декомпозиция операции пересечения вида л^ В (Я) п л^ В (Б) с использование распределенных колоночных хеш-индексов. При
этом предполагается, что л^ В (Я) и л^ В (Б) не содержат дубликатов.
Пусть заданы два отношения Я (А, В,…, Ви) и Б (А, В,…, Ви), имеющие одинаковый набор атрибутов. Пусть имеются два колоночных хеш-индекса 1ЯИ и 15И для атрибутов В!,…, Ви отношений R и 5, построенные с помощью одной и той же инъективной хеш-функции И: х •••х ®В — Ъ& gt-0. Пусть для этих индексов задана доменно-интервальная фрагментация степени к:
к -1
1я, И = и1Я, И '-
i=0 к-1
1Б, И = и 1Б, И.
i=0
Положим
р = Т А-А i'- А-А 1Я, и, /Б, и
1я, И ¦ А-АЯ, 1Б, И-А-Ав 1 (1ЯИ Н =1'-БИ Н)
для всех 1 = 0,., к -1. Определим
к-1
р=и р'-.
1=0
Положим
Q = {& amp-я (р. Ая) р е Р}.
ТеоРема 5 Тв1. _ВВи (0) = лВ1:, Ви (Я) п лВ1:, Ви (Б).
Доказательство. Сначала докажем, что
лВ1:, Ви (0) с лВ1:, Ви (Я) п лВ1:, Ви (Б).
Пусть
(а, Ь,…, Ьи) е 0.
82
83
84
85
86
87
88
Из (86) следует, что
(а, Ъ1,., Ъи) = г е R (89)
и
а = г. А (Р). (90)
Отсюда следует, что существует р е Р такой, что р. АК = а л р.= а'-. С учетом (85) получаем, что существует г, для которого р е Р'-. С учетом (84) отсюда получаем, что при некотором %е Ъ & gt-0:
х) е 4, и с- (а '-, х) еис.
Поскольку хеш-функция h является инъективной, то для нее существует обратная функция. Положим (Ь/,…, Ь^) = И1(х). Тогда по определению колоночного хеш-индекса имеем
(а, Ъ[,…, Ъ'-и) е К- (а, Ъ/ ,…, ъи) е я.
Поскольку, А является суррогатным ключом в R, с учетом (89) получаем
(а, Ь"…, Ъи) е К- (а'-, Ь"…, Ъи) е Я.
Следовательно (Ъ1,., Ъи) е в (К) п ж^ в (Я), и (87) имеет место. Теперь докажем, что
яВ,., ви (К) п жА,., ви (Я) с яв1,., ви (0. (91)
Пусть
(а, Ъ1,., Ъи) = г е К (92)
(а'-, Ъ1,., Ъи) = 5 е Я. (93)
Положим х = И (Ъ1,., Ъи). Тогда по определению колоночного хеш-индекса
(а х) е 1к, ь-
(а '-, Х) е 4, и.
В силу свойств доменно-интервальной фрагментации существует '- такой, что
(а х) е 4, и- (а '-, X) е.
На основе (84) и (85) отсюда получаем (а, а'-) е Р'- с Р. Поскольку, А — суррогатный ключ в К, с учетом (86) имеем (а, Ъ1,., Ъи) е Q и следовательно (Ъ1,., Ъи) е ж^ в (Q). Таким образом (91) имеет место. Теорема доказана.
2.3. Декомпозиция операции объединения
Пусть заданы два отношения К (А, в^…, ви) и Я (А, в^…, ви). Выполним декомпозицию операции объединения вида ж^ в (К) и ж^ в (Я). Пусть имеются два колоночных хеш-индекса 1КИ и для атрибутов в1,…, ви отношений R и 5, построенные с помощью одной и той же инъективной хеш-функции И: х х ®в ^ Ъ & gt-0. Пусть для этих индексов задана доменно-интервальная фрагментация степени к:
и
к -1
1К, И = и 1К, И '-
1=0 к-1
Р, и = и I
1Я, И ~, И
'-=0
Положим
для всех '- = 0,., к -1.
Р =Жа (4,И) Ж^^ | I
Определим
Положим
Ж, I 1К И ^ 11И
к-1
(94)
(95)
(96)
Р=иР.
1=0
б = {& amp-5 (р. А) | р е Р}.
(97)
(98)
Теорема 6 жв1, —, ви (К) и жв,…, ви (б) = жв1,., ви (К) и жв,…, ви (Я). Доказательство. Сначала докажем, что
жв,., ви (К) и жв1,., ви (б) с жв,., ви (К) и жв1,., ви (Я). (99)
Пусть
, К) ежв1.^ (К) ижв. в (б). (100)
Тогда как минимум одно из следующих условий истинно:
, Ъи) ежв1.^ (К) — (101)
, Ъи) ежв,., в" (б). (102)
Если имеет место (101), то очевидно (Ъ1,., Ъи) еж^ в (К) и ж^ в (Я) и (99) имеет место. Пусть истинно условие (102). Тогда из (98) следует, что существует р е Р такой, что
& amp-Я (р. А) = 5 е Я
и
5 = (аЪ1,…, Ъи),
где, а = р.А. Отсюда получаем (Ъ1,., Ъи) еж^ в (Я), то есть (Ъ1,., Ъи) еж^ в (К) и ж^ в (8) и (99) также имеет место. Теперь докажем, что
жв,. ,(К) и жв1,., ви (б) ^ жв1,., ви (К) и жв1,., ви (Я). (103)
Пусть
, К) ежв1,. «в (К) ижВ1. в (Я). (104)
Тогда как минимум одно из следующих условий истинно:
, Ъи) ежв1,…, в (К) — (105)
, Ъи) ежв,. «в» (Я). (106)
Если имеет место (105), то очевидно (Ъ1,., Ъи) е ж^ в (К) и ж^ в (б) и (103) имеет место.
Пусть истинно условие (106) и Тогда существует
, Ъи), ви (К)
(107)
5 = (а, Ь1,., Ьи) е Б. (108)
Положим
Х = Щ,…, Ьи). (109)
Тогда по определению колоночного хеш-индекса
X) е 4, к.
В силу свойств доменно-интервальной фрагментации существует i е{0,…, k -1} такой, что
(а, X) е 1Б, к.
Покажем, что
(а) Л* [ ,) (110)
Предположим противное, то есть
(а) & quot-'--А ('-«. ^"Н,'-«) (111)
Тогда существует (а'-) ел, (ГЯк) такой, что (а'-, х) е ГЯк. С учетом (109) в силу инъек-
1Я, к, А, '- ,
тивности хеш-функции к получаем (а'-, Ь1,…, Ьи) е Я, то есть (Ь1,…, Ьи) ел^ в (Я). Получили противоречие с (107). Значит (110) имеет место. Из (110) и (96) следует, что (а) е р, и из (97) следует, что (а) е Р. Тогда из (98) следует, что существует 5 '- = (а, Ь{,…, Ь'-и) е Q с Б. Так как, А — суррогатный ключ, сопоставляя это с (108), получаем (а, Ь1,…, Ьи) = (а, Ь[,…, Ь'-и) е Q, откуда (Ь1,…, Ьи) ел^ в (0). Таким образом (103) имеет место. Теорема доказана.
2.4. Декомпозиция операции естественного соединения
Пусть заданы два отношения
Я (А, В»…, Ви, С,., С,)
и
Б (А, В1,…, Ви, Д,…, В^). Пусть имеются два колоночных хеш-индекса 1Як и 1Бк для атрибутов В1,…, Ви отношений R и Б, построенные с помощью одной и той же инъективной хеш-функции к: х. ••х ®в ^ Ъ& gt-0. Пусть для этих индексов задана доменно-интервальная фрагментация степени к:
1як = и- (112)
1=0 & amp- -1
Ьл = и. (113)
1=0
Положим
Р =Л!Я, к,. Ая, 1Б, А. АБ (^) 1кк) (114)
для всех 1 = 0,. ,&- -1. Определим
& amp- -1
Р = и Р1. (115)
1=0
Построим отношение 0(В1,., Ви, С1,…, Су, Д,…, В^) следующим образом:
Q = {(& amp-д (p. AR). BX,… &-R (pAR). BU,
& amp-B (p. AB). C». ,&-B (p. AB). CV, (116)
& amp-s (p. As (p. As) Dw)|p e P}. Теорема 7. Q = жлA (A (S).
Доказательство. Сначала докажем, что
Q c^A ®^a (S). (117)
Пусть
Д,…, bu, ci,…, cv, di,…, dw) eQ. (118)
Из (116) следует, что существуют кортежи r и s такие, что
(a, bi,…, bu, ci,., cv) = r e R, (119)
(a'-, V,…, bj, di,…, dw) = 5 e S (120)
и
(r. A, s. A) = p e P. (121)
С учетом (115) получаем, что существует i, для которого p e P'-. С учетом (114) отсюда получаем, что при некотором %e Z& gt-0:
x) e IR, hc IR, h — (a '-, x) e I'-s, k c h, h.
Поскольку хеш-функция h является инъективной, то для нее существует обратная функция. Положим (o& quot-,…, b'-I) = h1(x). Тогда по определению колоночного хеш-индекса имеем
(a, bi& quot-,…, b'-U) e^,.^ ® — (122)
(a'-, bi'-,., bU) (S). (123)
Поскольку A является суррогатным ключом в R и S, из (119), (120), (122) и (123) следует bi = b-= Ц, bu = bU = bU, то есть
(a, ol,…, bu, cl,., c) e R,
(a'-, o,…, b, d,. --, d) e S.
V? i? '- u '- i '- & gt- w /
Следовательно (bi,., bu, ci,., cv, di,., dw) e -r, NA (A (S), и (117) имеет место. Теперь докажем, что
QA ®*^a (S). (124)
Пусть
(a, bi,…, bu, ci,…, cv) e R (125)
и
(а'-, Ъ1,., Ъи, dw) е Я. (126)
Положим х = И (Ъ1,., Ъи). Тогда по определению колоночного хеш-индекса
(а х) е! к, и- (а '-, х) е 4, и.
В силу свойств доменно-интервальной фрагментации существует '- е{0,…, к -1} такой, что
(а х) е 1'-К, и- (а '-, X) е 1Я, и.
На основе (114) и (115) отсюда получаем (a, a'-) е P'- с P. Поскольку A — суррогатный ключ в R и S, с учетом (116), (125) и (126) имеем фг,…, bu, c1,…, cv, dl,…, dw) е Q. Таким образом (124) имеет место. Теорема доказана.
Заключение
В статье были рассмотрены вопросы декомпозиции операций проекции, выбора, удаления дубликатов и объединения с использованием фрагментированных колоночных индексов. Предложен новый вид колоночных индексов, названных колоночными хеш-индексами. Колоночный хеш-индекс способен индексировать сразу несколько атрибутов отношения. Для распределенных колоночных хеш-индексов рассмотрена декомпозиция операций пересечения, объединения и естественного соединения. Предложенные модели и методы являются теоретической основой для разработки колоночного сопроцессора, позволяющего во взаимодействии с реляционной СУБД эффективно выполнять запросы класса OLAP.
Работа выполнена при финансовой поддержке Минобрнауки Р Ф в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014−2020 годы» (Госконтракт № 14. 574. 21. 0035).
Литература
1. Чернышев, Г. А. Организация физического уровня колоночных СУБД / Г. А Чернышев // Труды СПИИРАН. — 2013. — № 7. Вып. 30. — С. 204−222.
2. Abadi, D.J. The Design and Implementation of Modern Column-Oriented Database Systems / D.J. Abadi, P.A. Boncz, S. Harizopoulos, S. Idreos, S. Madden // Foundations and Trends in Databases. — 2013. — Vol. 5, No. 3. — P. 197−280. DOI: 10. 1561/1 900 000 024.
3. Abadi, D.J. Column-Stores vs. Row-Stores: How Different Are They Really? / D.J. Abadi, S.R. Madden, N. Hachem // Proceedings of the 2008 ACM SIGMOD international conference on Management of data, June 9−12, 2008, Vancouver, BC, Canada. — ACM, 2008. — P. 967−980. DOI: 10. 1145/1 376 616. 1 376 712.
4. Иванова, Е. В. Декомпозиция операций пересечения и соединения на основе доменно-интервальной фрагментации колоночных индексов / Е. В. Иванова, Л. Б. Соколинский // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. — 2015. — Т. 4, № 1. — С. 44−56. DOI: 10. 14 529/cmse150104.
5. Ivanova, E. Decomposition of Natural Join Based on Domain-Interval Fragmented Column Indices / E. Ivanova, L. Sokolinsky / / Proceedings of the 38th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO, May 25−29, 2015, Opatija, Croatia. — IEEE, 2015. — P. 223−226. DOI: 10. 1109/mipro. 2015. 7 160 266.
6. Иванова, Е. В. Использование сопроцессоров Intel Xeon Phi для выполнения естественного соединения над сжатыми данными / Е. В. Иванова, Л. Б. Соколинский // Суперкомпьютерные дни в России: Труды международной конференции (28−29 сентября 2015 г., Москва). — М.: Изд-во МГУ, 2015. — C. 190−198.
7. Иванова, Е. В. Использование распределенных колоночных индексов для выполнения запросов к сверхбольшим базам данных / Е. В. Иванова, Л. Б. Соколинский // Параллельные вычислительные технологии (ПАВТ'-2014). Труды международной научной конференции. — Челябинск: Издательский центр ЮУрГУ, 2014. — С. 270 275.
8. Иванова, Е. В. Декомпозиция операции группировки на базе распределенных колоночных индексов / Е. В. Иванова, Л. Б. Соколинский // Наука ЮУрГУ. -
Челябинск: Издательский центр ЮУрГУ, 2015. — С. 15−23.
9. Иванова, Е. В. Исследование эффективности использования фрагментированных колоночных индексов при выполнении операции естественного соединения с использованием многоядерных ускорителей / Е. В. Иванова // Параллельные вычислительные технологии (ПаВТ'-2015): труды международной научной конференции (30 марта — 3 апреля 2015 г., Екатеринбург). — Челябинск: Издательский центр ЮУрГУ, 2015. — С. 393−398.
10. Иванова, Е. В. Использование распределенных колоночных хеш-индексов для обработки запросов к сверхбольшим базам данных / Е. В. Иванова // Научный сервис в сети Интернет: многообразие суперкомпьютерных миров: Труды Международной суперкомпьютерной конференции (22−27 сентября 2014 г., Новороссийск). — М.: Изд-во МГУ, 2014. — С. 102−104.
Иванова Елена Владимировна, программист отдела поддержки и обучения пользователей Лаборатории суперкомпьютерного моделирования, Южно-Уральский государственный университет (Челябинск, Российская Федерация), Elena. Ivanova@susu. ru.
Соколинский Леонид Борисович, д. ф. -м. н., профессор, проректор по информатизации, Южно-Уральский государственный университет (Челябинск, Российская Федерация), Leonid. Sokolinsky@susu. ru.
Поступила в редакцию 5 сентября 2015 г.
E.B. HsaHOBa, JI.B. Cokojihhckhh
Bulletin of the South Ural State University Series & quot-Computational Mathematics and Software Engineering& quot-
2015, vol. 4, no. 4, pp. 80−100
DOI: 10. 14 529/cmse150405
PARALLEL DECOMPOSITION OF RELATIONAL OPERATIONS BASED ON FRAGMENTED COLUMN INDICES
E. V. Ivanova, South Ural State University (Chelyabinsk, Russian Federation)
Elena. Ivanova@susu. ru,
L.B. Sokolinsky, South Ural State University (Chelyabinsk, Russian Federation)
Leonid. Sokolinsky@susu. ru
This paper is a continuation and development of the previous our work, where the decompositions of intersection and join operations for columnar indices on the basis of domain-interval fragmentation were proposed. This decomposition allows to organize the parallel execution of relational operations on the distributed columnar indices without massive data exchange between the processor nodes. In this paper the decompositions of the projection, selection, duplicate elimination and union operations are considered. Also, a new kind of columnar indices called columnar hash-indices is introduced. The columnar hash-index can index multiple attributes of a relation. For distributed columnar hash-indices, the decompositions of intersection, union, and natural join operations are considered.
Keywords: distributed column indices, domain-interval fragmentation, column hash indices, decomposition of relational operations.
References
1. Chernyshev G. A Organizaciya fizicheskogo urovnya kolonochnyh SUBD [Physical Layer Organization of Columnar DBMS] // Trudy SPIIRAN [Proceedings of the SPIIRAS]. 2013. Vol. 7. No. 30. P. 204−222.
2. Abadi D.J., Boncz P.A., Harizopoulos S., Idreos S., Madden S. The Design and Implementation of Modern Column-Oriented Database Systems // Foundations and Trends in Databases. 2013. Vol. 5, No. 3. P. 197−280. DOI: 10. 1561/1 900 000 024.
3. Abadi D.J., Madden S. R, Hachem N. Column-Stores vs. Row-Stores: How Different Are They Really? / / Proceedings of the 2008 ACM SIGMOD international conference on Management of data, June 9−12, 2008, Vancouver, BC, Canada. ACM, 2008. P. 967−980. DOI: 10. 1145/1 376 616. 1 376 712.
4. Ivanova E.V., Sokolinsky L.B. Dekompoziciya operacij peresecheniya i soedineniya na osnove domenno-interval'-noj fragmentacii kolonochnyh indeksov [Decomposition of Intersection and Join Operations Based on Domain-Interval Fragmented Column Indices] // Vestnik Yuzhno-Ural'-skogo gosudarstvennogo universiteta. Seriya «Vychislit-el'-naya matematika i informatika» [Bulletin of South Ural State University. Series: Computational Mathematics and Software Engineering]. 2015. Vol. 4, No. 1. P. 44−56. DOI: 10. 14 529/cmse150104.
5. Ivanova E., Sokolinsky L. Decomposition of Natural Join Based on Domain-Interval Fragmented Column Indices // Proceedings of the 38th International Convention on In-
formation and Communication Technology, Electronics and Microelectronics, MIPRO, May 25−29, 2015, Opatija, Croatia. IEEE, 2015. P. 223−226. DOI: 10. 1109/mipro. 2015. 7 160 266.
6. Ivanova E.V., Sokolinsky L.B. Ispol'-zovanie soprocessorov Intel Xeon Phi dlya vy-polneniya estestvennogo soedineniya nad szhatymi dannymi [Using Intel Xeon Phi coprocessor for execution of natural join on compressed data] // Superkomp'-yuternye dni v Rossii: Trudy mezhdunarodnoj konferencii [Russian Supercomputer Days: Proceedings of the International Conference], September 28−29, 2015, Moscow, Russia. Moscow: MSU publishing center, 2015. P. 190−198.
7. Ivanova E.V., Sokolinsky L.B. Ispol'-zovanie raspredelennykh kolonochnykh indeksov dlya vypolneniya zaprosov k sverkhbol'-shim bazam dannykh [Using Distributed Column Indices for Query Execution for Very Large Databases] // Parallel'-nye vychislitel'-nye tekhnologii (PaVT'-2014). Trudy mezhdunarodnoy nauchnoy konferentsii [Proceedings of the International Conference Parallel Computational Technologies (PCT'-2014)]. Chelyabinsk: SUSU publishing center, 2014. P. 270−275.
8. Ivanova E.V., Sokolinsky L.B. Dekompoziciya operacii gruppirovki na baze raspredelen-nyh kolonochnyh indeksov [Decomposition of Grouping Operation Based on Fragmented Column Indices] // Nauka YUUrGU [Science of SUSU]. Chelyabinsk: SUSU publishing center, 2015. P. 15−23.
9. Ivanova E.V. Issledovanie ehffektivnosti ispol'-zovaniya fragmentirovannyh kolonochnyh indeksov pri vypolnenii operacii estestvennogo soedineniya s ispol'-zovaniem mnogo-yadernyh uskoritelej [Research of efficiency fragmented columnar indices for the natural join operation using multi-core accelerators.] / / Parallel'-nye vychislitel'-nye tekhnologii (PaVT'-2015). Trudy mezhdunarodnoy nauchnoy konferentsii [Proceedings of the International Conference Parallel Computational Technologies (PCT'-2015)], March 30 — April 3, 2015, Ekaterinburg, Russia. Chelyabinsk: SUSU publishing center, 2015. P. 393 398.
10. Ivanova E.V. Ispol'-zovanie raspredelennyh kolonochnyh hesh-indeksov dlya obrabotki zaprosov k sverhbol'-shim bazam dannyh [Using Distributed Column Hash Indices for Query Execution for Very Large Databases] // Nauchnyj servis v seti Internet: mnogoobrazie superkomp'-yuternyh mirov: Trudy Mezhdunarodnoj superkomp'-yuternoj konferencii [Scientific service in Internet: The variety of supercomputing worlds: Proceedings of the International Supercomputer Conference], September 22−27, 2014, Novorossiysk, Russia. Moscow: MSU publishing center, 2014. P. 102−104.
Received September 5, 2015.

ПоказатьСвернуть
Заполнить форму текущей работой