SQL Server 2012 Parallel Data Warehouse - A

Transkript

SQL Server 2012 Parallel Data Warehouse - A
Microsoft SQL
Server 2012
Parallel Data
Warehouse
Yeni Nesil Veri
Ambarı ve Büyük Veri
Çözümlerinde Çığır
Açan Platform
İçindekiler
4
Belge Özeti
4
Giriş
6
PDW'nin Yetenekleri
6
Ölçeklendirilebilir, Hızlı ve
Güvenilir
7
Kullanımı ve Yönetimi Kolay
7
Veri Madenciliği ve Analiz
Platformu
8
Müşterilerimiz Ne Söylüyor?
10
Özellikle Veri Ambarı İş Yükleri için
oluşturuldu
10
Paralel İşlem için Tasarlandı
11
Donanım ve Yazılım Birlikte
Tasarlandı
13
Günümüzdeki Veri Zorlukları için
Ölçeklendirilebilir bir Çözüm
13
Kapasite Ekleme Kolaylığı
15
Hızlı Veri Yükleme Kolaylığı
17
Daha Fazla Veri Tutma Kolaylığı
Microsoft SQL Server 2012 Parallel Data Warehouse
18
19
Verileri Birleştirme Kolaylığı
Sorgular Neden Hızlı Çalışır
19
Sorgular Dağıtılmış Veriler
Üzerinde Çalışır
20
Sorgular Yüksek Derecede
Paraleldir
22
Veri Hareketi Hizmeti Verileri
Hızla Taşır
22
Bellek içi Kümelenmiş
Columnstore Dizinleri Sorgu
Performansını İyileştirir
23
PDW'ye Neden Güvenebilirsiniz?
24
PDW’nin Donanım Yedekliliği
24
Yüksek Süreklilik
25
PDW'nin Kullanım ve Yönetim Kolaylığı
27
Veri Madenciliği ve Analiz Platformu
28
Hadoop Entegrasyonu için
PolyBase
30
© 2013 Microsoft Corporation. Tüm
hakları saklıdır. Bu belge “olduğu haliyle”
sunulmaktadır. URL’ler ve diğer İnternet
Sayfası referansları dâhil olmak üzere bu
belge içerisinde sunulan bilgi ve
düşünceler bildirilmeksizin değişebilir.
Kullanımı ile ilgili riskler size aittir. Bu
belge size herhangi bir Microsoft
ürününe ait herhangi bir fikri mülkiyetle
ilgili herhangi bir yasal hak sunmaz. Bu
belgeyi kendi içinizde referans amacıyla
kopyalayıp kullanabilirsiniz. Bu belgeyi
kendi içinizde referans amacıyla
değiştirebilirsiniz.
30
İş Zekâsı Entegrasyonu
Özet
Microsoft SQL Server 2012 Parallel Data Warehouse
Belge Özeti
Bu belge Paralel Data Warehouse’ın (PDW) zekice hazırlanmış
tasarımını açıklamaktadır. Bu belge sayesinde PDW'nin nasıl çığır
açıcı sonuçlar yarattığı ve SQL Server 2012 PDW'ye terfi ederek
şirketinizin ne gibi avantajlar elde edeceği hakkında daha fazla bilgi
alabilirsiniz. PDW'nin sunduğu yararlar size inanılmaz gelebilir, fakat
gerçektir. Veri ambarlarının Hadoop ve ilişkisel verilerle entegre
olması gibi veri ambarı iş yükleri için oluşturulmuş bir sistemin
sonucudur.
Microsoft® SQL Server® 2012 Parallel Data Warehouse (PDW) çözümü
veri analizlerinizi hızlı bir şekilde çalıştırmak ve tek bir cihaz içerisinde
depolamayı birkaç terabayttan 6 petabayt üzerine ölçeklendirebilmenize
imkân sunmak için oluşturulmuş yeni nesil bir platformdur. PDW, veri
merkezinize en yüksek performansı sunmak için, önceden yapılandırılmış
ve kurulmuş donanım ve yazılımla gelir. Günümüzün Simetrik Çoklu İşlem
(Symmetric Multi-Processing - SMP) veri tabanları ile kıyaslandığında
PDW’nin Büyük Ölçekli Paralel İşlem (Massively Parallel Processing - MPP)
tasarımı, sorguların saatler yerine dakikalar veya dakikalar yerine saniyeler
içerisinde tamamlanmasını sağlar. PDW sadece hızlı ve ölçeklendirilebilir
değildir. Aynı zamanda yüksek yedeklilik ve süreklilik için tasarlanmıştır;
bu da PDW'yi işinizdeki kritik verileriniz konusunda güvenebileceğiniz bir
platforma dönüştürmektedir. PDW sade bir tasarıma sahiptir; bu sayede
hem öğrenmesi hem de yönetmesi kolaydır. Hadoop verilerini analiz
etmek için sahip olduğu PolyBase teknolojisi ve İş Zekâsı araçlarıyla
derinlemesine entegre olabilmesi, PDW’yi eksiksiz çözümler oluşturmak
için kapsamlı bir platform haline getirmektedir.
Giriş
İşiniz verilere dayanıyorsa, devamlı artmakta olan verilerin
depolanmasının, yönetilmesinin ve analiz edilmesinin ne kadar zor
olduğunu biliyorsunuz. Etkin veri ambarlarında analiz edilebilecek
durumdaki verilerin yeterli bir miktarını tutmak pahalıdır. Etkin ambarlar
üzerinde ihtiyaç duyduğunuz verilere sahip olsanız bile, analiz ve
raporlama işlemleri günümüzün simetrik çoklu işlem (SMP) sistemleri ile
saatler ve hatta günler sürebilmektedir. Şirketler günümüzde, ilişkisel
olmayan Hadoop verilerinin sunduğu değeri analizlerine dâhil etme
konusunda da zorluklarla karşı karşıyadır.
Bunun sonucunda şirketlerdeki analistler, günümüzün pazarlarında
rekabet etmek için gerekli olan ve verilere dayanan ticari kararları
yeterince hızlı ve doğru bir şekilde verememektedirler. Bu, modern veri
alanındaki mücadelelerden birisidir.
Veriler hakkındaki bu güncel sorunları siz de yaşıyorsanız, Microsoft'un
veri depolama ve Büyük Veri entegrasyonu için sahip olduğu yeni nesil
platformu SQL Server 2012 Parallel Data Warehouse'a (PDW) geçmeyi
değerlendirin. PDW’nin büyük ölçekli paralel işlem (MPP) tasarımı
sayesinde sorgular, simetrik çoklu işlem (SMP) veri tabanı yönetim
Microsoft SQL Server 2012 Parallel Data Warehouse
4
sistemleri üzerinde kurulmuş geleneksel veri ambarları ile kıyaslandığında
ortalama 50 kat daha hızlı bir şekilde tamamlanmaktadır.
"50 kat hız", sorguların saatler yerine dakikalar
veya dakikalar yerine saniyeler içerisinde
tamamlanacağı anlamına gelmektedir. Bu çığır
açıcı performans sayesinde ticari analistleriniz
daha kapsamlı sonuçları daha hızlı elde edebilir,
plansız
sorguları
daha kolay bir
şekilde
yürütebilir ve detaylara derinlemesine girebilir.
Sonuç olarak şirketiniz daha iyi kararları daha
hızlı bir şekilde alabilir.
Çığır açıcı sorgu performansının yanı sıra PDW aşağıdakileri de
kolaylaştırır:





Mevcut sisteminize "ölçeklendirme birimleri" ekleyerek veri
ambarınızı tek bir cihazda birkaç terabayttan 6 petabaytın üzerine
büyütmek,
Dâhili yüksek yedeklilik ve yüksek süreklilik sayesinde verilere
ihtiyacınız olduğunda ulaşabilmek,
Verileri yükleme ve birleştirme ile ilişkili modern veri sorunlarını
çözmek,
PDW'nin yüksek derecede paralelleştirilmiş PolyBase teknolojisini
kullanarak Hadoop verilerini ilişkisel verilerle entegre etmek,
Kapsamlı ve eksiksiz çözümler geliştirmek için İş Zekâsı araçlarını
kullanmak.
Bu nasıl mümkün olur? PDW'nin nasıl bu kadar iyi sonuçlar elde
edebildiğini bilmek ister misiniz? Bu makalede PDW'nin gerçek
senaryolardaki performansı ve bu sonuçları nasıl elde edebildiği
anlatılmaktadır.
Microsoft SQL Server 2012 Parallel Data Warehouse
5
PDW'nin
Yetenekleri
PDW bir üründen daha fazlasıdır. PDW yeni nesil veri depolama ve Büyük
Veri çözümleri için bir veri platformudur.
Ölçeklenebilir,
Hızlı ve Güvenilir
Ölçeklenebilir
PDW, depolamayı tek bir cihazda birkaç terabayttan 6 petabaytın üzerine
çıkarabilen çığır açıcı bir ölçeklenebilirlik sağlamaktadır. Daha fazla bilgi
işlem ve depolama kapasitesi eklemek için yeni bir sunucu ve ambar satın
almayı gerektiren SMP sistemlerinden farklı olarak, PDW mevcut cihaza
"ölçeklendirme birimleri" ekleyerek genişler. Kapasiteyi ekledikten sonra
verilerin yeniden dağıtılması ve I/O'nun yeni ölçeklendirme birimlerinde
dengelenmesi için gereken tüm işi PDW yapar.
PDW'nin aşağıda belirtilen faydaları, özellikle veri ambarı iş yükleri için
tasarlanmış olan başarılı sisteminin sonuçlarıdır.
Hızlı
PDW’nin Büyük Ölçekli Paralel İşlem (MPP) tasarımı, verilerin gerçek
zamanlı olarak yüklenebilmesine ve karmaşık sorguları Simetrik Çoklu
İşlem (SMP) sistemlerinden 50 kata kadar daha hızlı oranlarda bitirmesine
imkân verir. Sorgular günümüzdeki SQL Server 2008 R2, SQL Server 2012,
Oracle veya DB2 gibi SMP veri tabanlarıyla kıyaslandığında dakikalar
yerine saniyeler ve saatler yerine dakikalar içerisinde tamamlanır.
Günümüzdeki SMP sistemleriyle çalıştırılması mümkün olmayan bazı
sorgular PDW üzerinde tamamlanabilir. Şirketler artık hızlı sonuç elde
etmek için önceden hazırlanmış raporlar ve özetlenmiş sonuçlarla
yetinmek zorunda değildir. Anlık analizler ve detaylı raporlar artık sürekli
olarak elde edilebilmektedir.
Güvenilir
PDW verilerinizi güvenli ve kullanılabilir halde tutma konusunda
güvenebileceğiniz bir platformdur. Tüm donanım ve yazılım bileşenleri,
yüksek yedeklilik ve yüksek süreklilik için tasarlanmıştır. Kullanıcı verileri
her zaman, verileri güvende tutma konusunda ünlenmiş olan SQL Server
2012 tarafından depolanır ve yönetilir.
Microsoft SQL Server 2012 Parallel Data Warehouse
6
Kullanımı ve
Yönetimi
Kolay
PDW basit bir tasarıma sahiptir. Cihazın sahip olması gereken karmaşıklık
zaten içerisine bütünleşmiş edilmiş olduğundan, siz detaylarla uğraşmak
zorunda kalmazsınız. Örneğin PDW, verilerin tamamının cihaz
düğümlerine dağıtılması için gereken tüm detayları kendisi uygular,
sorguların paralel bir şekilde işlenmesi için gerekli ekstra adımları atar ve
basit donanım ve yazılım yapılandırma ayarlarınızı kendiliğinden yönetir.
PDW veri merkezinize önceden yapılandırılmış ve test edilmiş olarak gelir;
sizin tek yapmanız gereken PDW'yi veri merkezinize takmak ve ağ iletişimi
ortamınıza göre yapılandırmaktır. Daha veri merkezinize geldiği gün
kullanmaya başlayabilirsiniz!
Bu sayede öğrenme zamanı en düşük seviyededir. Yeni PDW uzmanları
istihdam etmeye gerek kalmadan çalışanlarınızı kolayca eğitebilirsiniz.
SQL Server veri tabanı yöneticileriniz, SQL Server bilgilerini kolayca
PDW'ye aktarabilir.
PDW'nin kullanımı basittir ve aşağıdakileri yönetmeniz gerekmez:
Veri
Madenciliği
ve Analiz
Platformu

Disk veya veri tabanı alt sistemleri

Depolama alanı

Paralel sorgular

Dağıtılmış veri

Yazılım yapılandırması

Donanım yapılandırması
Hadoop ile Entegre
PDW’nin PolyBase teknolojisi, Transact-SQL kullanarak ve birçok yeni
beceriyi öğrenmek zorunda kalmadan Hadoop verilerini sorgulamanıza ve
ilişkisel verilerinizle birleştirmenize imkân verir. PolyBase’in Transact-SQL
arabirimini kullanarak Hadoop içerisinde MapReduce sorgularını
çalıştırmak için gereken becerileri kazanmadan da derinlemesine veri
madenciliği, raporlama ve analizler gerçekleştirebilirsiniz. Örneğin
sorgular Hadoop ve PDW verilerini tek bir aşamada birleştirebilir, Hadoop
verileri PDW içerisinde ilişkisel veriler olarak saklanabilir ve sorgu sonuçları
tekrar Hadoop üzerinde tutulabilir.
PDW’nin PolyBase teknolojisi, Hadoop verilerini hızla analiz etmek için
PDW’nin MPP mimarisini kullanmanın kolay bir yoludur. PolyBase size
ihtiyaç duyduğunuz Hadoop verilerini gerektiği anda yapılandırma ve
analiz için PDW’ye taşıma esnekliği sunar. PolyBase sayesinde Hadoop
üzerinde çok yavaş çalışan sorgular artık PDW içerisinde hızla
gerçekleştirilebilir. Bu sayede çok sayıda yeni veri entegrasyonu ve analiz
imkânları oluşur.
Microsoft SQL Server 2012 Parallel Data Warehouse
7
İş Zekâsı Araçlarıyla Entegre
PDW’nin İş Zekâsı (BI) araçlarıyla derinlemesine entegrasyonu PDW’yi
uçtan uca veri madenciliği ve analiz çözümleri için kapsamlı bir platforma
dönüştürmektedir. PDW, Reporting Services, Analysis Services,
PowerPivot ve PowerView gibi Microsoft İş Zekâsı çözümleriyle entegre
olmaktadır. PDW aynı zamanda Business Objects, Cognos, SAP Data
Integrator, Tableau, MicroStrategy, QlikView, Oracle Business Intelligence
ve TIBCO Spotfire gibi sayısı gittikçe artan çözümle de entegre olmaktadır.
Müşterilerimiz
Ne Söylüyor?
PDW müşterileri harika sonuçlar elde ediyor. Aşağıda görebileceğiniz bu
sonuçlar birçok kullanıcının PDW hakkında söyledikleriyle örtüşmektedir.








Sorgular Hızlıdır
Sorgularımız PDW üzerinde 76 kat daha hızlı tamamlanıyor. Bu sonuç
PDW’nin 1,5 TB’yi 134 GB’ye sıkıştırmasından sonra elde edildi.
Bir aylık veriler üzerindeki sorgularımız 1,5 saniyeden daha kısa bir sürede
tamamlanıyor. SQL Server 2008 R2 ile 7 günlük veriler üzerindeki aynı
sorgular 2-3 dakika sürüyordu.
Sorgularımız PDW üzerinde 25 kat daha hızlı tamamlanıyor. Sorgular
sorgu başına ortalama 23 saniyede tamamlanıyor. SMP sistemimizde ise
sorgular sorgu başına 5 dakika 36 saniyede tamamlanıyordu.
Sorgularımız PDW üzerinde 18 kat daha hızlı tamamlanıyor. Sorgular
sorgu başına ortalama 53 saniyede tamamlanıyor. SMP sistemimizde
sorgular sorgu başına ortalama 16 dakikada tamamlanıyor.
PDW üzerinde aşırı yük olmasına rağmen sorgu tamamlanma süreleri
sadece %16’lık bir düşüş yaşadı.
SMP’den Daha Yüksek Ölçeklendirme
PDW eski sistemimizde tamamlayamadığımız sorguları tamamlamamızı
sağladı. Sorgularımızı 40 çekirdekli, 2 terabayt RAM’li ve büyük veri
deposuna sahip bir DL980 üzerinde çalıştırsak bile sorgular tamamlanana
kadar bellek doluyordu. Verilerimizi PDW’ye yükledikten sonra 200
kullanıcılı bir sisteme ait 7 yıllık veri üzerinde sorgular çalıştırabildik. Bu
sorgular sorgu başına ortalama 689 saniyede tamamlandı.
SMP performans kısıtlamaları yüzünden sahip olduğumuz 40 veri tabanını
10 sunucu üzerinde paylaştırmak zorunda kalıyorduk. PDW sayesinde tüm
veri tabanlarımızı birleştirip tek bir veri tabanı haline getirebildik. Artık
veriyi tutmak ve yüklemek çok daha kolay. Üstelik tek bir veri tabanı
üzerinde birleştirme sorguları da çalıştırabiliyoruz.
Saatler Yerine Dakikalar Süren Hızlı Yükleme
Bir saatlik verileri bir saatten daha az bir sürede yüklememiz gerekiyor. Bir
saatlik veri içerisinde 6 milyar kayıt mevcut ve bu verileri PDW’ye bir
saatten daha az bir sürede yükleyebiliyoruz.
Microsoft SQL Server 2012 Parallel Data Warehouse
8



Günlük iş yükümüz PDW ile artık 5,5 dakika sürüyor; PDW olmadan bu iş
2,5 saat sürüyordu. İş yükü PDW ile 27 kat daha hızlı.
520 milyon satırı PDW’ye 13 dakikada yükleyebiliyoruz, eski sistemimizde
aynı veriyi yüklemek 16 saat sürüyordu.
PDW karma iş yüklerimizde iyi bir performans gösteriyor; kullanıcılarımız
sorgularını yapmaya devam ederken PDW yüklemeleri de arka planda
devam edebiliyor.
Yüksek Veri Sıkıştırma Oranları
PDW, verileri disk üzerinde tutmak için bellek içi kümelenmiş columnstore
dizinlerini kullanarak yüksek sıkıştırma oranları elde eder. Bu sayede
depolama masraflarını azaltır ve sorgu performansını iyileştirir.
Müşterilerin elde ettikleri sıkıştırma oranlarına örnekler şunlardır:

1,5 TB (sıkıştırılmamış) veri 134 GB’ta sıkıştırılmıştır (7x sıkıştırma).

5,5 TB (sıkıştırılmamış) veri 400 GB’ta sıkıştırılmıştır (14x sıkıştırma).

120 GB (sıkıştırılmamış) veri 2 GB’ta sıkıştırılmıştır (60x sıkıştırma).
Müşteri Referansları
Örnek bir başarı hikâyesinde
(http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?CaseStu
dyID=710000002669) satış ve pazarlama hizmetleri şirketi CROSSMARK
arz ve talep ile ilgili terabaytlarca veriden daha hızlı ve daha detaylı bilgi
elde etme ihtiyacı duymuştur. CROSSMARK, PDW sayesinde bunu
başarmış; bu sayede hizmetlerini iyileştirmiş, raporlarını %50 oranında
daha hızlı oluşturabilmiş, çalışanların memnuniyetini arttırmış ve tasarruf
etmiştir.
Microsoft SQL Server 2012 Parallel Data Warehouse
9
Özellikle Veri
Ambarı İş
Yükleri için
Oluşturuldu
“PDW’yi daha veri merkezimize
geldiği gün kullanmaya başladık.
Cihaz, donanımı yapılandırılmış ve
yazılımı kurulmuş halde geldi.”
PDW özellikle veri ambarı iş yükleri için tasarlanmış cihaz tabanlı bir
çözümdür. Donanımı ve yazılımı, yüksek ölçeklenebilirlik, performans,
güvenirlik ve yüksek süreklilik sunmak üzere dikkatli bir şekilde
tasarlanmıştır. SQL Server 2012, günde binlerce, hatta milyonlarca kaydı
güncelleyen operasyonel (OLTP) iş yüklerinde harika bir performans
gösterirken, PDW ise kurumunuzun her gün oluşturduğu operasyonel
veya Hadoop verilerini yükleme, depolama ve analiz etme konusunda
mükemmel performans gösterecek şekilde tasarlanmıştır.
Paralel İşlem
için
Tasarlandı
PDW, çığır açıcı sorgu performansı gibi bu makalede ele alınan diğer
performans kazanımlarını elde etmek için SQL Server 2012 Simetrik Çoklu
İşlem (SMP) tasarımını genişletmek yerine Büyük Ölçekli Paralel İşlem
(MPP) tasarımını kullanmaktadır.
Şekil 1: SQL Server 2012 PDW yüksek performans ve ölçeklenebilirlik elde etmek için MPP tasarımını kullanmaktadır.
Microsoft SQL Server 2012 Parallel Data Warehouse
10
Sorgu yüksek derecede paralel yürütülmektedir. Kullanıcı verileri
Hesaplama düğümleri (Computing Nodes) olarak adlandırılan işlem ve
depolama birimleri arasında dağıtılmıştır. Her bir Hesaplama biriminin
kendine ait depo, işlemci ve belleği vardır; bunlar birlikte bağımsız bir
işlemci birimi olarak çalışır. Kontrol düğümü PDW’nin beynidir ve her bir
kullanıcı sorgusunun tüm Hesaplama birimleri üzerinde nasıl
çalıştırılacağını belirler. Bu sayede de sorgular hızla tamamlanır!
PDW’nin temelinde SQL Server 2012 bulunur ve dağınık kullanıcı verilerini
depolamak, yönetmek ve üzerlerinde sorgular çalıştırmak için her bir
Hesaplama birimi üzerinde çalışır. PDW özel olarak bir SQL Server 2012
sürümüne sahiptir. Bu sürüm, Hesaplama düğümleri üzerinde yüksek
sıkıştırma oranları ve hızlı performans elde etmek üzere güncellenebilir
bellekte kümelenmiş columnstore dizinleri kullanır. Ayrıca PDW, veri
güvenliği konusunda ünlenmiş olan SQL Server 2012 sayesinde verilerinizi
güvende tutar.
Donanım ve
Yazılım
Birlikte
Tasarlandı
PDW en yüksek performans ve ölçeklenebilirlik elde etmek için donanım
ve yazılımın birlikte tasarlandığı cihaz tabanlı bir çözümdür. PDW veri
merkezinize, yazılım ve donanımı önceden tasarlanmış, yapılandırılmış ve
test edilmiş olarak gelir. Cihaz zaten CPU, bellek, I/O, depolama, ağ ve
diğer kaynakları dengeleyecek şekilde yapılandırılmış olduğundan ayar
yapmayı gerektirmez. Kullanmak için tek yapmanız gereken PDW’yi kendi
ağınıza kurmaktır.
PDW cihazının ilk rafı temel raf olarak adlandırılır. Her cihaz, en az bir
temel rafa sahiptir. Bunun üzerinde, donanım satıcısına bağlı olarak,2 veya
3 Hesaplama düğümü bulunabilir.
İş ile ilgili ihtiyaçlarınız değiştikçe ölçeklendirme birimlerini temel rafa
ekleyerek PDW’yi genişletebilirsiniz. PDW, temel raf dolduğunda,
genişletme rafları olarak adlandırılan yeni raflar ve bu rafların üzerine
ölçeklendirme birimleri ilave edilerek genişletilir.
Temel raf üzerinde yedekli ağ bağlantısı için iki InfiniBand ve iki Ethernet
anahtarı bulunur. Adanmış bir sunucu Kontrol düğümünü ve Yönetim
düğümünü çalıştırır. Raf içerisinde yük devretme için ayrı bir sunucu da
gelmektedir. Seçenek olarak ikinci bir boş sunucu da ekleyebilirsiniz.
Temel raftaki Hesaplama düğümlerinin sayısı donanım satıcısına bağlı
olarak değişmektedir. Örneğin HP ölçeklendirme birimi başına 2
Hesaplama düğümüne sahipken Dell 3 Hesaplama düğümüne sahiptir.
Aşağıdaki görselde toplam 8 Hesaplama düğümüne sahip bir HP temel
rafı ve 3 ölçeklendirme birimi yer almaktadır. Dell’in temel rafı 9
Hesaplama düğümüne kadar ölçeklenebilmektedir.
Microsoft SQL Server 2012 Parallel Data Warehouse
11
Şekil 2: Paralel işlem ve ölçeklendirilebilirlik için yazılım ve donanım birlikte tasarlanmaktadır.
Yüksek Hızlı InfiniBand Ağı
Cihazın sorgu performansında çığır açan sonuçlar elde edebilmesi için ağ
iletişimi de çok önemlidir. Donanım çift InfiniBand ağı ile birlikte gelir ve
FDR InfiniBand ve Mellanox ConnectX-3 FDR InfiniBand ağ adaptörlerini
kullanarak 56 Gb/sn veri transfer hızlarını destekler. Her bir raf kurumsal
ağınıza bağlanmak için yedekli Ethernet anahtarlarına sahiptir.
Hızlı yükleme ve veritabanı yedekleme için kendi yükleme ve yedekleme
sunucularınızı cihazın InfiniBand ağına bağlamanızı tavsiye ediyoruz.
Microsoft SQL Server 2012 Parallel Data Warehouse
12
Günümüzdeki
Veri Zorlukları
için Ölçeklenebilir
bir Çözüm
“Birden çok veri tabanından gelen
verilerimizi PDW üzerinde
birleştirebiliyor ve burada eski veri
tabanlarımızda mümkün olmayan
analiz sorguları çalıştırabiliyoruz.
PDW çığır açan sorgu performansı ve ölçeklenebilirlikten daha fazlasını
yapar. PDW, günümüzdeki şirketlerin daha hızlı ve daha doğru ticari
kararlar almak için verileri yükleme, depolama, yönetme ve analiz etme
konusunda karşı karşıya kaldığı sorunlar göz önünde bulundurularak
tasarlanmıştır ve bu sorunları gidermeyi amaçlar.
Kapasite
Ekleme
Kolaylığı
“Verilerimiz beklediğimizden daha
hızlı büyüyor ve önümüzdeki 12 ay
içerisinde daha fazla kapasite
eklememiz gerekecek.”
Verileriniz artıkça daha fazla kapasite için planlama yapmak durumunda
kalacaksınız. SQL Server 2008 R2, SQL Server 2012, Oracle veya DB2 gibi
SMP sistemlerinde kapasite eklemenin tek yolu daha hızlı işlemcilere, daha
fazla bellek ve depolamaya sahip daha büyük sistemler satın almaktır.
Artımlı büyüme, özellikle de daha fazla işlemci eklemek için, uygulanabilir
bir çözüm değildir.
Daha büyük bir sistem satın alsanız bile, giderek artan işlem ve depolama
gereksinimlerinizi tek bir sistem ile verimli bir şekilde karşılamak mümkün
olamamaktadır. Bu sebeple kurumlar genellikle iş yüklerini birden çok bilgi
işlem kaynağı arasında dağıtmak ve bunun için kendi yazılımlarını
geliştirmek zorunda kalırlar. Bu, zor ve masraflı bir süreçtir.
Microsoft SQL Server 2012 Parallel Data Warehouse
13
Şekil 3: PDW’nin MPP tasarımı karşısında günümüzdeki SMP sistemlerinin ölçeklenebilirliği.
PDW’nin MPP tasarımı sayesinde kapasite eklemek için yeni bir sistem
satın almak zorunda kalmazsınız. PDW, farklı olarak, mevcut sisteme
yapılan ilavelerle büyür. Böylece ihtiyacınız olmayan depolama alanlarını
almak ve boşa harcamak zorunda kalmazsınız. Veri artış hızı
beklediğinizden daha hızlı olursa, küçük alımlar yaparak kapasitenizi hızlı
bir şekilde arttırabilirsiniz. Ayrıca kapasitenizi arttırmak için verilerinizi yeni
bir sisteme taşımak zorunda da kalmazsınız. Uygulamanızı yeniden
tasarlamak veya dağıtım mekanizmasını yeniden oluşturmak zorunda
kalmadan sisteminizi ölçeklendirebilirsiniz.
PDW, işlem gücü, bellek ve depolamayı 2 – 3 Hesaplama düğümünden
oluşan ölçeklendirme birimleri ekleyerek genişletebilir. Ölçeklendirme
yaparak kapasitenizi tek bir cihaz üzerinde birkaç terabayttan 6 petabayt
üzerine çıkarabilirsiniz. Bir raf dolduğunda bir başka raf satın alabilir ve
yeni rafı Hesaplama düğümleri ile doldurmaya başlayabilirsiniz. Verilerinizi
yeni bir sisteme taşımanız gerekmediği gibi, veritabanı dosyalarınızı daha
fazla düğüm kullanmak için yeniden yapılandırmanız da gerekmez.
Verilerinizi Hesaplama birimleri arasında dağıtma işini PDW sizin için
yapar.
Aşağıdaki şekilde bir DELL genişleme rafı, ölçeklendirme senaryoları ile
birlikte gösterilmektedir.
Microsoft SQL Server 2012 Parallel Data Warehouse
14
Şekil 4: Raf dolduktan sonra PDW, ölçeklendirme birimlerinin genişleme raflarına eklenmesiyle büyür
Hızlı Veri
Yükleme
Kolaylığı
“Eski sistemimizde bir günlük veriyi
yüklemek 4 saat sürüyordu. PDW ile
aynı iş sadece birkaç dakika sürüyor ve
herhangi bir aksama olmadan verileri
yükleyebiliyoruz.”
Veri ambarınızda bolca yer olabilir, fakat verilerinizi SQL Server'a
yeterince hızlı taşıyamıyorsanız yükleme işlemi bir darboğaz oluşturur.
PDW, verilerinizi SQL Server 2012'dan 7 kat hızlı yükler. Yükleme işi
PDW’de SMP SQL Server’dan hızlıdır çünkü veri paralel olarak SQL
Server’ın birden çok örneğine yüklenir. Örneğin 10 Hesaplama düğümüne
sahipsiniz ve 1 Terabayt veri yüklemek istiyorsunuz, bu durumda 10 adet
birbirinden bağımsız SQL Server 2012 veri tabanınız olacak ve bu veri
tabanlarına 100 GB’lik veriyi sıkıştırarak aynı anda yüklüyor olacaksınız.
Microsoft SQL Server 2012 Parallel Data Warehouse
15
Birçok müşteri için bu durum 1 TB verinin SQL Server 2012’nin tek bir
örneğine yüklenmesi ile kıyaslandığında 7 kat hızlı gerçekleşmektedir.
Şekil 5: Veri paralel olarak SQL Server’ın birden çok örneğine yüklenir
Yükleme Araçları:

dwloader Komut İstemcisi Yükleme Aracı

SQL Server Integration Services (SSIS)
Verilerinizi Hesaplama düğümlerine yüklemek amacıyla dwloader’ı
kullanmak için, önce kendi ETL sürecinizi kullanıp yüklemek istediğiniz
kaynak verileri oluşturun. Kaynak veriler, hedef tablonuzun şemasıyla
örtüşecek şekilde biçimlendirilmelidir. Kaynak veriyi bir veya daha fazla
metin belgesinde veya gzip belgesinde tutun ve belgelerinizi yükleme
sunucunuzdaki dizinin aynısına kopyalayın. Ardından, yükleme sunucunuz
(veya ETL sunucunuz) üzerinde dwloader’ı çalıştırın. dwloader yükleme
işini yapmak için Kontrol düğümü ile iletişim kuracaktır.
Daha Fazla
Veri Tutma
Kolaylığı
“PDW sayesinde son birkaç seneki
eğilimleri analiz edebilecek kadar
veriyi saklayabiliyoruz. Eski
sistemimizde tutabildiğimiz veriyle
Microsoft SQL Server 2012 Parallel Data Warehouse
16
sadece bir senelik eğilimleri analiz
edebiliyorduk.”
Daha fazla analiz ve bilgi için talep arttıkça, şirketler de daha fazla çevrimiçi
veriyi veri ambarlarında tutma zorunluluğu ile karşı karşıya kalıyor. Veri
ambarları genellikle, analistlerin doğru ticari kararlar verebilmeleri esi için
gereken veri miktarını barındıramazlar. Ayrıca mevzuat yüzünden de bazı
verileri uzun süre boyunca çevrimiçi tutmanız gerekebilir.
Veri artışını yönetmenin yaygın bir yolu, verilerin tutulması için kayan
pencere yaklaşımını kullanmaktır. Bu yaklaşımda, yeni verilere yer açmak
için eski veriler kasetlere veya diğer ucuz depolama birimlerine aktarılır.
Örneğin yalnızca 12 aylık verileri çevrimiçi olarak veri merkezinizde
tutabiliyorsanız, her ay en eski verilerinizi kasetlere aktararak yeni verilere
yer açmak zorunda kalırsınız.
Kasetler üzerinde çevrimdışı olarak tutulan verilere erişmek zordur ve
pratik bir şekilde analiz edilemezler. Bu verileri analiz etmek için öncelikle
çevrimiçi bir sisteme aktarmak gerekir. Bu işlem vakit alır ve analiz etmek
üzere geri alacağınız veriler için alan oluşturmanız gerekir. Bazen kasetleri
bulmak bile zor olabilir.
PDW’nin ölçeklendirilebilir mimarisi, kapasite eklemeyi kolaylaştırır ve bu
sayede analizler ve raporlamalar için daha fazla veriyi çevrimiçi olarak
tutabilirsiniz. Ayrıca SMP sistemlerinde de olduğu gibi, verilerinizi
bölümlere ayırabilir ve ihtiyacınıza göre belirli bölümleri veri ambarınızda
arşivleyebilirsiniz.
Microsoft SQL Server 2012 Parallel Data Warehouse
17
Verileri
Birleştirme
Kolaylığı
"Verilerimiz çok farklı yerlerdeydi,
nerede olduklarını izleyemediğimiz
gibi, analiz de edemiyorduk. Şimdi
PDW sayesinde çok sayıda veri
tabanımızı PDW üzerinde birleştirdik.”
Şirketler internet tıklamaları, müşteri işlemleri, sosyal ağlar ve daha birçok
veri kaynağından veri alır. Veri büyüklüğünden dolayı farklı yerlerden
gelen verileri tek bir veri merkezinde birleştirmek genellikle mümkün
olmaz. Bunun sonucunda veriler dağınık ve yönetimi zor bir hale gelir.
Verilerinizi tek bir merkezi veri ambarında birleştirmek iyi olmaz mıydı? Bu,
veri ambarınızı çok daha verimli bir hale getirir, çünkü tüm veri tek bir
yerdedir ve merkezi olarak yönetilebilir. Veri ambarı yönetimini daha basit
bir hale getirmek toplam sahip olma maliyetini de azaltır. Çünkü sadece
tek bir sistemi yönetmeniz gerekir ve kapasite artışı planlamasını da tek
bir sistem için yapabilirsiniz. Ayrıca bu sayede kurumunuz tek bir sistem
üzerinde tutulan veya birden çok veritabanı arasından seçilecek verilerden
herhangi biri üzerinde sorgu yapabilir.
Verileri tek bir veri ambarında birleştirmenin işiniz için birden çok faydası
bulunur:





Donanım, ömrünü tamamlarken birden cihazlarınızı yenilemekle
uğraşmak yerine, verilerinizi PDW’ye aktarabilir ve tek bir sistem üzerinde
yönetebilirsiniz.
Veri tabanı yöneticileri veri ambarındaki tüm verileri tek bir yerden
yönetebilir. Bu sayede işleri çok kolaylaşır, yönetim masrafları azalır.
PDW, tüm sunucular üzerinde yazılım güncellemesi yapmak için Windows
Server Update Services’dan faydalanır. Windows Server Update Services
üzerinden yapılacak tek bir yazılım güncellemesi cihaz içerisindeki tüm
sunucuları günceller.
Tüm veri setleriniz cihaz tarafından sunulan yedeklilik ve yüksek süreklilik
oranlarından faydalanır.
Cihazın sağlığını ve durumunu tek bir yerden izleyebilirsiniz. Veri tabanı
ve cihaz yöneticileri, sorguların durumunu ve cihazın sağlığını PDW’nin
sahip olduğu bir konsol aracılığıyla takip edebilirler.
Microsoft SQL Server 2012 Parallel Data Warehouse
18

Sorgular
Neden Hızlı
Çalışır
Analistlerin birden çok veri kaynağını içeren sorgular yapabileceği daha
kapsamlı analizler yapabilirsiniz. Bu sayede farklı veri kaynaklarından gelen
verileri çapraz olarak analiz etmek kolaylaşır.
“PDW’yi kullanmaya başladığımızda
sorgularımızın ne kadar hızlı
tamamlandığına inanamadık.
Sorguların gerçekten çalıştığına
kendimizi inandırmak için sorgularımız
yeniden çalıştırdık.”
PDW’nin MPP tasarımı, sorgu performansı konusunda bir dönüm
noktasıdır. Sorguların hızlı tamamlanmasının sebebi, PDW’nin dağıtılmış
veriler üzerinde paralel olarak çalışmasıdır. PDW’nin maliyet tabanlı sorgu
iyileştiricisi her bir paralel sorgunun nasıl hızlı bir şekilde çalıştırılacağını
belirler. Ardından veriler, Data Movement Service (DMS) ile verimli bir
şekilde Hesaplama düğümlerine taşınır.
Sorgular
Dağınık
Veriler
Üzerinde
Çalışır
PDW, paralel sorgu işlemlerini desteklemek için bulgu tablosunun
satırlarını Hesaplama düğümlerine dağıtır ve tabloyu daha küçük fiziksel
tablolar halinde depolar.
Her bir Hesaplama düğümü içerisindeki dağınık veriler, bağımsız disk
çiftlerinde yer alan 8 fiziksel tablo içerisinde tutulur. Her bir bağımsız
depolama alanı, bir dağıtım olarak adlandırılır. PDW, sorguları her bir
dağıtım üzerinde paralel olarak çalıştırır. Her bir Hesaplama düğümü 8
dağıtıma sahip olduğundan, bir sorgudaki paralellik seviyesi Hesaplama
düğümlerinin sayısı ile belirlenir. Örneğin cihazınızda 8 Hesaplama
düğümü varsa, sorgularınız cihaz üzerindeki 64 dağıtım üzerinde paralel
olarak çalışacaktır. Aşağıdaki şekil dört Hesaplama düğümü ve 32
dağıtıma gönderilen veriyi göstermektedir.
Microsoft SQL Server 2012 Parallel Data Warehouse
19
Şekil 6: Bulgu tablosundaki satırlar, tüm Hesaplama düğümü dağıtımları üzerinde tutulur
PDW bir olgu tablosunu dağıttığında, satırların hangi dağıtıma ait
olduğunu belirlemek için sütunlardan birini kullanır. Bir hash fonksiyonu,
her bir satırı, eşleştirildiği sütundaki değere göre bir dağıtıma atar.
Tablolar içerisindeki her bir satır sadece bir dağıtıma aittir. Tabloyu
oluştururken en iyi dağıtım sütununu seçememiş olsanız bile, farklı bir
dağıtım sütunu belirlemek için tabloyu kolayca yeniden oluşturabilirsiniz.
PDW tüm tabloların dağıtılmasını gerektirmez. Küçük ölçekli tablolar
genellikle her bir Hesaplama düğümünde çoğaltılır. Veriler her zaman tüm
Hesaplama düğümlerinde kullanılabilir olduğundan, onları farklı
düğümlere taşıyarak zaman kaybetmektense, küçük tabloları çoğaltmak
sorgu hızını artırır.
Sorgular
Yüksek
Derecede
Paraleldir
PDW’nin maliyet tabanlı sorgu iyileştiricisi, paralel sorguların hızlı
çalışmasını ve doğru sonuçlar üretmesini sağlayan “gizli malzemedir”.
Microsoft’un kapsamlı araştırma ve geliştirme çalışmalarının sonucunda
ortaya çıkan patentli algoritmalar kullanarak yüksek performanslı sorgu
planları oluşturabilmektedir.
Paralel sorgu planı veya diğer adıyla “dsql” planı, sorguyu paralel olarak
çalıştırmak için gerekli olan tüm operasyonları kapsar. Böylece PDW,
paralel işlemlerin tüm zorluklarıyla başa çıkar ve sorguyu arka planda
sorunsuz bir şekilde gerçekleştirir. Sonuçlar istemciye geri gönderilirken,
sorgu sanki SQL Server’ın sadece bir örneği üzerinde çalıştırılmış gibi
görünür.
Microsoft SQL Server 2012 Parallel Data Warehouse
20
PDW’nin "arka planda” yürüttüğü sorgu işlemi aşağıdaki şekilde
gösterilmektedir.
Şekil 7: PDW, sorguları hızlı ve doğru bir şekilde paralel olarak çalıştıran bir sorgu planı seçmektedir.
Öncelikle bir sorgu istemcisi, paralel sorgu sürecini koordine edecek
Kontrol düğümüne bir Transact-SQL kullanıcı sorgusu gönderir. Tüm
sorgu istemcileri SQL Server Native Client veya .NET'e bağlanabilir;
dolayısıyla sorguyu göndermek için SQL Server Data Tools, sqlcmd veya
kendi uygulamanızı kullanabilirsiniz.

Sorgu İstemcileri
SQL Server Native Client veya .Net Framework’e bağlanan müşterilere ait
LOB uygulamaları

SQL Server Data Tools

SQL Server’ın sqlcmd Komut İstemi SQL İstemcisi
Sorguyu aldıktan sonra PDW’nin maliyet tabanlı paralel sorgu iyileştiricisi,
sorguyu Hesaplama düğümleri üzerinde paralel olarak çalıştırmak için,
bazı istatistikler kullanarak sorgu planını oluşturur. Kontrol düğümü, dsql
planı olarak adlandırılan paralel sorgu planını Hesaplama düğümlerine
gönderir. Ardından Hesaplama düğümleri, sorguyu kendilerine ait veriler
üzerinde paralel olarak yürütür.
Hesaplama düğümlerinin her biri, kendilerine gönderilen sorguyu
gerçekleştirmek için SQL Server 2012’yi kullanır. Hesaplama düğümleri
işlemi tamamladığında sonuçlar hızlı bir şekilde Kontrol düğümü
üzerinden istemciye geri gönderilir. Tüm bunlar, veriler Kontrol düğümü
Microsoft SQL Server 2012 Parallel Data Warehouse
21
üzerinde kalmadan ve Kontrol düğümü üzerinde bir darboğaz
oluşturmadan çok hızlı bir şekilde gerçekleşir.
Veri Hareketi
Hizmeti
Verileri Hızla
Taşır
Bellek içi
Kümelenmiş
Columnstore
Dizinleri
Sorgu
Performansını
İyileştirir
PDW verileri bir arada bulunan verilerden yararlanır, yani bir sorguyu
çalıştırmadan önce Hesaplama düğümü üzerinde doğru veriler doğru
zamanda bulunmak zorundadır. Aynı dağıtım sütununu kullanan iki
tablo, üzerlerindeki veriler taşınmadan birleştirilebilirler. Ancak farklı
sütunlar üzerinde dağıtılmış olan iki tablo birleştirilirken, veri hareketi
zorunludur.
PDW, verileri taşımak için Data Movement Service’tan (DMS) yararlanır.
DMS sorguyu gerçekleştirebilmek için sadece gerekli miktarda veriyi
taşır. Veri taşıma zaman aldığından, sorgu iyileştiricisi sorgu planını
oluştururken, veri taşıma maliyetini de dikkate alır.
PDW, sorgu performansını iyileştirmek ve verileri daha verimli bir şekilde
depolamak için bellekte kümelenmiş columnstore dizinlerini kullanır. Bu
dizinler güncellenebilirdir ve verilere, dağıtımları tamamlandıktan sonra
uygulanır.
Kümelenmiş columnstore dizinleri, verileri depolamak, geri almak ve
yönetmek için oluşturulmuş bir teknolojinin ürünüdür. Bu teknoloji,
columnstore olarak adlandırılan bir sütunlu veri formatı kullanır. Veri,
sütun segmentleri olarak adlandırılan bir dizi parçalı sütun halinde
sıkıştırılır, depolanır ve yönetilir.
Şekil 8: Kümelenmiş columnstore dizinleri sorgu hızını ve veri sıkıştırmayı iyileştirir
Microsoft SQL Server 2012 Parallel Data Warehouse
22
PDW, sıkıştırma oranlarını arttırmak ve sorgu tamamlama süresini
azaltmak için sütun tabanlı veri düzenini kullanır. Örneğin:




Sütunlar genellikle benzer verilere sahip oldukları için bu sütunlar
üzerinde yüksek sıkıştırma oranları elde edilebilir. Daha yüksek
sıkıştırma oranları, daha küçük bellek içi ve I/O ayak izi kullanarak
sorgu performansını daha da artırır.
Yüksek sıkıştırma oranları, daha küçük bellek içi ayak izi kullanarak
sorgu performansını artırır. Bu da, SQL Server PDW’nin daha fazla
sorgu ve veri operasyonunu bellek içerisinde yürütebilmesini ve
sorgu performansını daha da arttırmasını sağlar.
Çoğu sorgu bir tablo üzerinden sadece birkaç sütun seçer ve böylece
fiziksel medya üzerinden gerçekleşen toplam I/O miktarı azalır. I/O
miktarının azalmasının sebebi, columnstore tablolarının B-tree
sayfaları yerine sütun segmentlerinde tutulması ve oradan
alınmasıdır.
Gelişmiş sorgu uygulama teknolojisi sayesinde toplu iş olarak
adlandırılan sütun parçaları elverişli bir yöntemle işlenir ve CPU
kullanımı azalır.
Parçalanmış sütun parçalarını önlemek için bazı kümelenmiş columnstore
dizini verileri, sıkıştırılıp columnstore’a taşınana kadar geçici olarak
deltastore olarak adlandırılan bir rowstore tablosunda saklanır.
Kümelenmiş columnstore dizini, doğru sorgu sonuçlarını elde etmek için
hem columstore, hem de deltastore içerisinde çalışır.
PDW’ye neden
güvenebilirsiniz
Verilerinizi güvenli ve erişilebilir bir biçimde saklayabilmek için PDW,
tasarımı Windows Server 2012 Storage Spaces, Yük Devretme ve Hyper-V
ile entegre olacak şekilde tasarlanmıştır.
Microsoft SQL Server 2012 Parallel Data Warehouse
23
PDW’nin
Donanım
Yedekliliği
Verilerinizi
Güvende
Tutar
Donanım, her bir Hesaplama düğümünü, diğer Hesaplama düğümlerinin
veya depolama bileşenlerinin performansını etkilemeden, kendi donanımı
üzerinde verimli bir şekilde çalıştırmak üzere tasarlanmıştır. Her bir
Hesaplama düğümü, iki Windows Storage Space disk dizisine bağlı olan
bir Sanal makine üzerinde çalışır.
Donanım da yedeklilik için tasarlanmıştır; bu sayede PDW’nin verilerinizi
kaybetmeyeceğinden emin olabilirsiniz.
PDW’nin kapasitesi, ölçeklendirme birimleri eklenerek arttırılır.
Ölçeklendirme birimi içerisindeki her bir sunucuda bir Hesaplama
düğümü çalışır ve bu işe adanmış 16 çift yansıtılmış disk üzerine yazar.
Ölçeklendirme birimi başına düşen Hesaplama düğümü sayısı donanım
satıcısına bağlıdır. Aşağıdaki şekilde bir ölçeklendirme birimi oluşturmak
için 2 Hesaplama biriminin nasıl bir arada gruplandığı gösterilmektedir.
Şekil 9: 2 Hesaplama düğümüne sahip bir ölçeklendirme birimi
Windows Storage Spaces’ı kullanan her bir Hesaplama düğümü,
ölçeklendirme birimindeki Windows Storage Spaces disk dizinlerindeki
tüm diskleri okuma ve yazma hakkına sahiptir. Sunucu arıza yaparsa,
Hesaplama düğümü, üzerindeki yükü raf üzerindeki bir başka sunucuya
devreder. Bu sırada çalışmaya devam eder ve disklerine erişmek için
ölçeklendirme birimindeki bir başka sunucu üzerinden InfiniBand ağını
kullanır.
Yüksek
Süreklilik
PDW’nin donanım ve yazılım mimarisi yüksek süreklilik elde edebilmek
için birlikte oluşturulmuştur. Windows Server 2012 içerisinde yer alan
özellikleri kullanarak PDW her bir düğümü sanal bir ortam içerisinde
çalıştırabilir. Bu yetenek sayesinde düğümler teknik olarak herhangi bir
sunucu üzerinde çalışabilir. PDW, bir sunucu arıza yaptığında, sanal bir
makine üzerinde çalışan düğümü ayrı bir sunucuya devretmek için
Windows Failover Clustering özelliğini kullanır.
Windows Storage Spaces özelliğini kullanan her bir Hesaplama düğümü,
ihtiyaç halinde ölçeklendirme birimi üzerindeki tüm diskleri okuyabilir ve
üzerlerine yazabilir. Bir Hesaplama düğümü başka bir sunucuya
devredilirse, ölçeklendirme birimi içerisindeki bir başka sunucuyla
Microsoft SQL Server 2012 Parallel Data Warehouse
24
kuracağı InfiniBand bağlantısı sayesinde kendi verilerini ve disklerini
çalıştırmaya ve onlara erişmeye devam edebilir.
Şekil 10: Yedeklilik ve yüksek süreklilik tasarımı verilerinizi güvende ve çevrimiçi tutar.
PDW'nin
Kullanım ve
Yönetim
Kolaylığı
“Yeni bir veri ambarı teknolojisini
kullanmak için mevcut çalışanlarımızı
kaybetmeyi ve yeni çalışanları işe almayı
göze alamayız. Lütfen veri ambarlarını
çalıştırmayı daha kolay bir hale getirin!”
Microsoft SQL Server 2012 Parallel Data Warehouse
25
PDW’yi öğrenmek son derece kolaydır. SQL Server’dan SQL Server
PDW’ye geçiş yapmak için yeni personel almaya gerek yoktur. TransactSQL’yi bilen veri tabanı yöneticileri bilgilerini kolayca PDW’de kullanabilir.
İstemci sorguları Transact-SQL ile yazılır. MPP mimarisine uygun olması
için bazı deyimler eklenebilir veya bazıları genişletilebilir. MPP’ye uygun
olmadıklarından veya PDW bazı işlemleri arka planda zaten yapıyor
olduğundan, bazı deyimlere ihtiyaç yoktur. SQL
PDW’nin kurulumu kolaydır. Cihaz veri merkezinize geldiğinde
donanım ve yazılım zaten kurulmuş ve yapılandırılmış durumdadır. PDW,
sisteminizi kurmak için yapmanız gerekenleri içeren bir liste ile birlikte
gönderilir ve içerisinde kurulumla ilgili işlemlerin çoğunu gerçekleştirecek
olan Configuration Manager yer alır.
Şekil 11: Yöneticiler cihazı Configuration Manager Aracı ile kurar
PDW içerisinde izleme araçları mevcuttur. Kullanıcıların ve yöneticilerin
cihazı takip etmek için kullanabileceği internet tabanlı bir Admin Console
bulunmaktadır. Admin Console sorgular, iş yükleri ve yedekler hakkında
bilgiler içerir. Ayrıca cihazın sağlığı ve depolama kaynakları hakkında da
sizi bilgilendirir.
Admin Console tarafından ortaya çıkarılan bilgiler, dinamik yönetim
görünümlerini sorgulayan scriptler üzerinden de görüntülenebilir. Buna ek
olarak PDW içerisinde, PDW’yi izlemek amacıyla System Center
Operations Manager’ı (SCOM) kullanmanıza imkân verecek Yönetim
Paketleri mevcuttur.
Microsoft SQL Server 2012 Parallel Data Warehouse
26
Şekil 12: PDW içerisinde cihazı izlemek için internet tabanlı Admin Console yer alır.
Veri
Madenciliği
ve Analiz
Platformu
“Verileri Hadoop içerisinde depolamak
yetmez. Günümüzde kurumlar,
karalarını daha fazla bilgiye dayanarak
verebilmek için Hadoop verilerini nasıl
hızlı ve sorunsuzca analiz
edebileceklerini anlamalıdırlar.
Günümüzde veri, birçok kaynakta üretilmektedir ve bu kaynaklardan
bazıları ilişkisel veri tabanı yönetim sistemleri için uygun değildir. Örneğin
bir kurum, büyük bir hızla oluşan tıklama verilerine, farklı şekillerde oluşan
sosyal verilere, sensor verilerine veya uzaktan ölçülen veri akışlarına sahip
olabilir. Büyük Veri sadece ilişkisel olmayan kaynaklardan gelen verilerin
nasıl saklanacağı, yönetileceği ve analiz edileceği ile ilgili değil, aynı
zamanda ticari bilgiler elde edebilmek için ilişkisel olmayan verileri bir
kurumun ilişkisel verileri ile bir araya getirmekle de ilgilidir.
Microsoft SQL Server 2012 Parallel Data Warehouse
27
Hadoop
Entegrasyonu
için PolyBase
Günümüzde pek çok kurum ilişkisel olmayan verilerini depolama
konusunda Hadoop’un kendilerine sunabileceği imkânları araştırmaktadır.
Hadoop çok sayıda düğüm üzerinde ilişkisel olmayan verileri yöneten açık
kaynaklı bir yazılımdır. Hadoop’a veri eklemek kolaydır, fakat ihtiyacınız
olan verileri elde edip analiz etmek o kadar hızlı gerçekleşmez. Bu noktada
genelde şöyle düşünülür: veriyi elde etmek uzun sürse bile, en azından
veri sistem içerisinde bir yerde tutulmaktadır. Hadoop en çok toplu veri
işlemleri için uygundur.
PDW’deki PolyBase teknolojisi, Hadoop verilerinin analizi için çığır açan
bir teknolojidir ve yepyeni veri analizi imkânlarını sunar. Hadoop’ta çok
yavaş çalışan sorgular artık PDW’de hızla çalışabilir, veri madenciliği
sorguları Hadoop ve PDW verilerini birleştirebilir, Hadoop verileri PDW
içerisinde ilişkisel veriler olarak saklanabilir ve sorgu sonuçları tekrar
Hadoop’ta saklanabilir. PDW’nin gücünden yararlanarak, artık Hadoop
içerisinde MapReduce becerilerine sahip olmadan da derinlemesine veri
madenciliği, raporlama ve analiz yapılabilir.
PolyBase, ihtiyacınız olan Hadoop verilerini ihtiyacınız olduğu anda analiz
edilmek üzere PDW’ye taşır. Sorunsuz bir şekilde hem Hadoop, hem de
PDW verilerini aynı sorgu içerisinde seçebilirsiniz ve her iki kaynaktan
gelen verileri birleştirebilirsiniz. PolyBase, bir sorgunun tamamlanması için
verileri hızlı bir şekilde PDW’nin Hesaplama düğümleri ile Hadoop’un
DataNode’ları arasında taşır.
Şekil 13: PDW Hesaplama düğümleri ve HDFS DataNode’ları arasında paralel veri transferleri
PDW, Hadoop üzerinde tutulan verileri göstermek için harici tablolar
kullanır. Harici tablo oluşturulduktan sonra, tablo, aynı bir PDW
tablosunda olduğu gibi bir SELECT ifadesi içerisinde kullanılabilir.
Aşağıdaki örnekte, DimCustomer_Hadoop_Export adında harici bir tablo
oluşturuluyor ve PDS içerisindeki DimCustomer tablosunda yer alan
veriler, Hadoop Kümesindeki DimCustomerExport.txt belgesine transfer
ediliyor.
Microsoft SQL Server 2012 Parallel Data Warehouse
28
CREATE EXTERNAL TABLE DimCustomer_Hadoop_Export
WITH
(
LOCATION =
ˈhdfs://10.192.63.147:8020/DemoDb/DimCustomerExport.t
xt,
FORMAT_OPTIONS ( FIELD_TERMINATOR = ˈ|ˈ)
)
AS SELECT * FROM DimCustomer;
Verileri transfer etmeden harici bir tablo oluşturmak için kullanılacak
sözdizimi, bir PDW tablosu oluşturulurken kullanılana benzer. Bu örnekte
ClickStream adında bir harici tablo oluşturuluyor. Tablo, Hadoop üzerinde
employee.txt olarak adlandırılan metin belgesi içerisindeki verileri
gösteriyor.
CREATE EXTERNAL TABLE ClickStream (
url varchar(50),
event_date date,
user_IP varchar(50)
)
WITH (
LOCATION =
'hdfs://10.192.63.147:8020/DemoDb/employee.txt',
FORMAT_OPTIONS (
FIELD_TERMINATOR = '|'),
DATE_FORMAT = ꞌMM/dd/yyyyꞌ
)
)
[;]
Bu harici tabloyu PDW içerisinde görüntülemek veya veriler üzerinde işlem
yapmak için tek yapmanız gereken herhangi bir başka tabloda yapacağınız
gibi SELECT işlemini kullanmaktadır.
SELECT * FROM ClickStream;
Bir sorunu çözmek için Hadoop verileri ile PDW verilerini bir araya
getirebilirsiniz. Bu konuda bir örnek izleyin: Birleştirerek Elde Edilen Bilgi:
SQL Server 2012 Parallel Data Warehouse Demo - PolyBase Video
(http://go.microsoft.com/fwlink/?LinkId=320541).
PDW’nin İş Zekâsı (BI) araçlarıyla derinlemesine entegrasyonu, PDW’yi
veri madenciliği ve analiz çözümleri için kapsamlı bir platforma
dönüştürmektedir. PDW, Microsoft İş Zekâsı Araçlarıyla (Reporting
Services, Analysis Services, PowerPivot for Excel, PowerView) entegre
olur. Ayrıca Business Objects, Cognos, SAP Data Integrator, Tableau,
MicroStrategy, QlikView, Oracle Business Intelligence ve TIBCO Spotfire
gibi sayıları gittikçe artan çözümle de entegre olmaktadır.
Microsoft SQL Server 2012 Parallel Data Warehouse
29
İş Zekâsı
Entegrasyonu
İş Zekası araçları, standart SQL Server bağlantı araçlarını, SQL Server
Native Client veya .NET Data Provider for SQL Server’ı kullanarak PDW’ye
bağlanır. Tüm bu iş zekâsı araçlarının PDW veri tabanına sanki standart bir
SQL Server 2012 veri tabanıymışçasına erişebiliyor oluşu, BT çözümlerini
PDW üzerinde hızla güncellemenize veya değiştirmenize imkân verir.
SQL Server 2012 PDW’de yeni bir özellik olarak, PDW’yi SQL Server
Analysis Services (SSAS) ile çok boyutlu VEYA tablolu modeller oluşturmak
için yüksek performanslı bir ilişkisel veri kaynağı olarak kullanabilirsiniz.
Örneğin şunları yapabilirsiniz:




Özet
Bir SQL Server PDW veri kaynağındaki tablolu bir model üzerinde
gerçek zamanlı sorgular gerçekleştirmek için DirectQuery’yi
kullanmak.
SQL Server PDW tabloları üzerinde kümelenmiş columnstore
dizinlerini kullanarak ROLAP sorgu sürelerini kısaltmak.
SSAS’ın yeni özelliklerini kullanmak. Örneğin PDW tablolarında farklı
sayma
işlemlerini
çalıştırmak
için
EnableRolapDistinctCountOnDataSource’u kullanmak.
Çok boyutlu veya tablo modellerinde kullanılmak üzere Hadoop
verilerini birleştirmek için PDW’yi bir veri ambarı olarak kullanmak.
Microsoft SQL Server 2012 Parallel Data Warehouse yeni nesil verilerin
getirdiği zorlukların üstesinden gelebilecek güçlü ve yenilikçi bir
çözümdür. Veri ambarı iş yüklerini yönetmek için tek bir cihazda birkaç
terabayttan altı petabaytın üzerinde veriye ölçeklenebilen bir platform
sunar. Bu sayede daha doğru ve daha hızlı ticari kararlar almanıza imkân
verir. Sorgular, geleneksel ilişkisel veri tabanı sistemlerinden ortalama 50
kat daha hızlı bir şekilde gerçekleşir. Çok daha yüksek veri sıkıştırma
oranları sayesinde daha çok veri daha düşük maliyetlere etkin bir şekilde
saklanabilir. PDW, Microsoft BI araçlarıyla ve Microsoft dışındaki diğer
önemli araçlarla derinlemesine entegre olarak, analiz gerçekleştirmek için
alışkın olduğunuz iş zekâsı araçlarını kolayca kullanmanızı sağlar. PolyBase
teknolojisi, Transact-SQL kullanarak, yeni beceriler öğrenmenize gerek
kalmadan, Hadoop verilerini sorgulamanıza ve ilişkisel verilerinizle
birleştirmenize imkân verir. Yönetim masrafları çok düşüktür ve SQL Server
veri tabanı yöneticileri için öğrenmesi kolaydır. Bu sayede PDW’nin
yönetimi için mevcut veri tabanı yöneticilerinizi kullanabilirsiniz.
PDW’nin çığır açan sorgu performansı ve ölçeklenebilirliği, PDW’nin
özellikle veri ambarı iş yükleri için oluşturulmuş olmasından kaynaklanır.
PDW’nin donanım ve yazılımı, hızlı paralel işlem, dağıtılmış veri depolama,
donanım yedekliliği, ölçeklendirilebilir kapasite ve yüksek süreklilik için
tasarlanmıştır. Tüm bu özellikler sayesinde PDW’yi verileriniz ile ilişkili
artan depolama ve analiz ihtiyaçlarınızı karşılamak için kullanabilirsiniz. Bu
yüzden SQL Server’dan SQL Server PDW’ye geçmek, artan veri
Microsoft SQL Server 2012 Parallel Data Warehouse
30
ihtiyaçlarınızı yönetebilmek ve daha hızlı, daha doğru ticari kararlar
verebilmek açısından önemli bir adımdır. PDW, buna imkân sunacak
karmaşık analizleri gerçekleştirmenizi sağlar.
Daha fazla bilgi için:
SQL Server 2012 Parallel Data

http://www.microsoft.com/PDW/

Warehouse internet
sitesi:
Microsoft veri ambarı internet sitesi: http://www.microsoft.com/enus/sqlserver/solutions-technologies/data-warehousing.aspx
Bu makale size yardımcı oldu mu? Lütfen bize görüşlerinizi bildirin. 1
(zayıf) ila 5 (mükemmel) arasında bir not verin ve verdiğiniz notun sebebini
açıklayın. Örneğin:


Yüksek not verdiyseniz, nedenini açıklayın: örneğin ilgili örnekler,
yararlı ekran görüntüleri, anlatımdaki açıklık veya başka bir sebepten
mi verdiniz?
Zayıf not verdiyseniz, nedenini açıklayın: kötü örnekler, ekran
görüntülerinin net olmaması veya yazım dilinin açıkça
anlaşılmamasından dolayı mı verdiniz?
Yapacağınız geri dönüş, yayınlayacağımız diğer teknik makalelerin
kalitesini artıracaktır. Lütfen düşüncelerinizi paylaşın.
Yazarlar Hakkında
Barbara Kess, Microsoft’ta veri ambarı konusunda uzman ve SQL Server
PDW içeriği konusundaki ana yazarımızdır.
Dan Kogan Microsoft’ta Veritabanı Cihazlarının pazarlamasından ve SQL
Server PDW ürününden sorumludur.
Teşekkürler
Harika bir ürün geliştirmek ve pazara sürmek için kendilerini adamış olan
SQL Server PDW mühendislik, danışmanlık ve satış ekiplerine özellikle
teşekkür ederiz. Bu makalenin büyük bir kısmının dayandığı PDW ürün
belgeleri için yorulmadan çalıştılar.
Her gün müşterilere yardım ederek elde ettikleri deneyimlerle SQL Server
PDW konusundaki en iyi uygulamaları geliştirmiş olan SQL Server Müşteri
Danışmanlığı Ekibinden Murshed Zaman ve John Hoang’a teşekkür ederiz.
PDW konusundaki büyük deneyimleri bu makaleyi zenginleştirdi
Henk van der Valk, SQL Server PDW ile ilgilenen müşterilerle çalışan bir
Teknik Çözüm Görevlisidir. Bizlere müşterilerimizin öğrenmek istedikleri
bilgileri daha iyi açıklamamız konusunda yardımcı oldu.
Microsoft içerik yazarı Rick Byham’a da makaleyi incelediği ve bize yararlı
bilgiler sunduğu için teşekkür ederiz.
Microsoft SQL Server 2012 Parallel Data Warehouse
31

Benzer belgeler