Yüksek Boyutlu Veri Kümeleri için Robust BACON Temel Bileşenler

Transkript

Yüksek Boyutlu Veri Kümeleri için Robust BACON Temel Bileşenler
Yüksek Boyutlu Veri Kümeleri için Robust BACON Temel Bileşenler Analizi
Gülsen Kıral
Ç.Ü. İ.İ.B.F. Ekonometri Böl.
Nedret Billor
A.U. Dep. of Discrete and Statistical Science
Özet:
Temel bileşenler analizi (TBA) çoklu iç ilişki problemini ortadan kaldırmak
amacı ile kullanılan bir tekniktir. Ancak klasik kovaryans matrisine dayalı olarak
tanımlandığından sapan değerlerin varlığında etkinliğini kaybetmektedir. Bu nedenle
araştırmacılar çalışmalarında klasik TBA kullanmak yerine robust kestiricilerden
yararlanarak robust temel bileşenler analizi kullanmayı tercih etmeye başlamışlardır.
Bu çalışmada robust temel bileşenler analizi çerçevesinde yüksek boyutlu
verilerin değerlendirilmesinde bize yardımcı olacak yeni bir yöntem tanımlanacaktır.
Bu konu ile ilgili olarak yapılan ilk çalışma robust dağılım matrisine (örneğin:MCD ya
da S tahmin edicisi) dayalı olup sadece düşük boyutlu veri kümelerinde kullanılan bir
yöntemdi. İkincisi projection–pursuit yöntemine dayalı olup yüksek boyutlu verilerde
de kullanılabilen bir yöntemdi. Ardına projection-pursuit ve robust dağılım matrisine
dayalı yüksek boyutlu veri kümelerinde de etkin olan yeni bir yöntem önerildi. Ancak
bu yöntemde kullanılan robust kestiriciler hesaplama problemi içerdiğinden bu
çalışmamızda alternatif bir ölçü tanımlandı. Yöntem kirletilmiş ve temiz veri
kümelerinde etkin olarak işleyip benzer sonuçları vermektedir. Daha hızlı olarak
sonuca ulaşılabilmekte ve gerçek kestiricileri bulabilmektedir. Ayrıca veri
değerlendirilmesinde bize yardımcı olacak birkaç tanılama grafiği de önerilecektir. Bu
grafikler büyük veri
kümelerinde sapan değerlerin sınıflandırılması ve
gözlemlenmesinde bize yardımcı olacaktır.
Anahtar Kelimeler: BACON algoritması, Yüksek boyutlu veri, Aykırı değer, Robust
temel bileşenler analizi
1. Giriş
Yüksek boyutlu veri kümeleri ile uğraşma her zaman için problemlidir. Çünkü
bu tip verilerin analizi hesaplama problemleri içermektedir. Bunun yanında pek çok
istatistiksel analiz birbiri ile ilişkili gözlemlerin veride bulunmasından (çoklu içi ilişki
problemi) kötü olarak etkilenmektedir. Bu problemlerin üstesinden gelebilmek için veri
boyutunun indirgenmesi yoluna başvurulur ve bu amaçla da temel bileşenler
analizinden yararlanılır. Ancak bu analiz klasik varyans-kovaryans matrisine dayalı olarak
hesaplandığından aykırı değerlerin varlığı durumunda sağlıklı sonuç vermemektedir. Bu
nedenle aykırı değer olması olasılığına karşın robust temel bileşenler analiz tekniklerinin
kullanımı önerilmektedir. Burada amaç aykırı değerlerden etkilenmeyen temel bileşenlerin
belirlenmesi ve bu bileşenler üzerinden problemli gözlemlerin ortaya çıkarılmasıdır.
Bu konu ile ilgili olarak yapılan ilk çalışma varyans-kovaryans matrisinin
özdeğerlerine dayalı olarak tanımlanmış olup sadece düşük boyutlu veri kümelerinde
etkin olarak kullanılmaktadır (Lie ve Chen, 1985). Bu yaklaşımlarda analiz klasik
varyans-kovaryans
matrisinin
robust
varyans-kovaryans
kestiricileri
ile
yer
değiştirilmesi ile gerçekleştirilmektedir. Sonuç daha robust olmasına rağmen birtakım
eksikliklerle karşı karşıya kalınmaktadır. Örneğin; MCD kestiricisinin hesabında
ortalama ve varyans-kovaryans matrisi n elemanlı bir kümede en küçük determinanta
sahip h<<n gözleme dayalı olarak hesaplanmaktadır.Eğer p veri kümemiz içerisindeki
değişken sayımız ise MCD tahmin edicisi p<h iken hesaplanabilir aksi taktirde h alt
kümenin kovaryans matrisinin determinantı sıfır çıkacaktır. Karşılaşabileceğimiz bir
diğer problem yüksek boyutta robust kestiricilerin hesaplama problemidir. İkinci
yaklaşım projection-pursuit yöntemine dayalı olup yüksek boyutlu verilerde etkin
olarak kullanılmaktadır (Croux, Ruiz ve Gazen, 1996, 2000). Bu yöntemler verinin
yansıtılacağı ardışık doğrultuları bulmada yayılımın robust ölçüsünü maksimize
etmeye çalışır. Bu fikir genel temel bileşenlere de genelleştirilebilir. (Boente and
Orellana, 2001). Bu yöntem hızlı ve çok değişkenli ve/ya çok gözlemli veri kümeleri
üzerinde etkin şekilde kullanılmaktadır. Sonuncusu ise ilk iki çalışmanın birleşiminden
oluşmakta olup hem projection-pursuit hem de robust varyans-kovaryans tahminine
dayalı olarak tanımlanan yüksek boyutlu veri kümelerinde de aktif olarak
kullanılabilen bir yöntemdir (Hubert ve ark.,2003).
Çalışmamızda yukarıda verdiğimiz yöntemlere alternatif olarak robust temel
bileşenler analizi için yeni bir yöntem önerilmiştir. Robust BACON Temel Bileşenler
Analizi (ROBTBA) adını verdiğimiz yöntemin performansı gerçek veri kümeleri
üzerinde gösterilecektir. Burada esas olarak incelemek istenilen şey gözlem sayısının
parametre sayısından fazla olması durumunda önerdiğimiz yöntemin etkinliğinin
testidir.
Önerilen yöntem Billor ve ark. (2003) tarafından önerilen BACON yönteminin
uygulanması sonucu elde edilen robust kestiriciler yardımıyla robust temel bileşenler
yönteminin
uygulanmasına
karşılık
gelmektedir.
Bu
çalışmada
verinin
değerlendirilmesinde bize yardımcı olabilecek birkaç tanılama grafiği de önerilecektir.
Bu grafikler büyük veri
kümelerinde sapan değerlerin sınıflandırılması ve
gözlemlenmesinde bize yardımcı olacaktır.
Çalışmanın ikinci bölümünde önerilen yöntem algoritmik olarak açıklanacak
hemen ardına üçüncü bölümde ise yöntemin performansı farklı tipteki 2 farklı veri
kümesi üzerinde gösterilecektir. Son olarak dördüncü bölümde ise yöntem ile ilgili
elde edilen bilgiler özetlenecektir.
2. Robust BACON Temel Bileşenler Analizi (RBTBA) Yöntemi
Dayanıklı kestiricilerle yapılan işlemler çoğu zaman için sağlıklı sonuç verirler
ama bilindiği gibi yapılması gereken işlemler problemli ve zaman alıcıdır. Gözlem ve
parametre sayılarının artması durumunda hesaplamalar iyice artmaktadır. Bunun
yanında
kullanılan
veri
kümesine
ve
istatistiğe bağlı olarak etkinliklerinde
değişikliklerin olabilmesi ve sadece belli tipteki aykırı değerleri ortaya çıkarıyor
olmaları
da
karşılaşılabilecek
problemlerdendir.
O
halde
bu
problemlerden
etkilenmeyen daha hızlı işleyip sağlıklı sonuç veren bir yönteme gereksinim
duyulmaktadır. Bu amaçla; bu çalışmada Billor ve ark. (2000) tarafından tanımlanan
BACON algoritması kullanılarak dayanıklı temel bileşenlerin belirlenmesini sağlayan
yeni bir algoritma tanımlanmıştır. Algoritma iki temele dayandırılmaktadır. Bunlar
projection-pursuit yönteminin kullanımı ile veriyi temsil eden düşük boyutlu verinin
oluşturulması ve hemen ardına BACON algoritmasından elde edilen robust
kovaryans tahmini yardımı ile problemli gözlemlerin belirlenmesidir.
RBTBA yöntemi; ROBPCA (Hubert ve ark., 2003) tarafından tanımlanan
yöntem
içinde
kullanılan
dayanıklı
FAST-MCD
kestiricisi
yerine
BACON
algoritmasından elde edilen robust ortalama ve kovaryans matrisinin kullanılmasına
dayalı olarak yürütülmektedir.
RBTBA yönteminde ana düşünce büyük veri kümelerinde etkinliği ispatlanmış
BACON algoritması (Billor ve ark., 2000) kullanmak ve hemen ardından projectionpursuıt yöntemi ve temel bileşenler analizini uygulamaktır. Böylece analizci aykırı
değerlerden arındırılmış X veri matrisini temsil edebilen en önemli bileşenleri
belirleyebilir ve bu bileşenler üzerinden kolaylıkla problemli gözlemleri belirleyebilir.
RBTBA Algoritması
Adim 1: n gözlemi temsil edebilecek olan veri indirgemesini projection-pursuit
yöntemini kullanılarak yapılır. Bunun için merkezileştirilmiş veri matrisi
X n , p − 1n µˆ 0′ = U n ,r0 Dr0 ,r0 Vr′0 , p
(1)
şekilde ayrıştırılır. Burada µ̂ 0 klasik ortalama vektörü, r0 = rank ( X n , p − 1n µˆ 0′ ) , D r0xr0
tipinde köşegenel matris ve U ′U = I r0 = V ′V şeklinde tanımlanmıştır. Burada I r0 r0xr0
tipinde birim matristir. p>n olduğunda (1) eşitliğinin ayrıştırması Kernel yaklaşımı
olarak
bilinen
( X − 1n µ 0′ )′ ( X − 1n µ 0′ )
matrisinin
özdeğer
ve
özvektörlerinin
hesaplanmasına bağlı olarak yapılmaktadır (Wu ve ark. , 1997).
Adım 2: Z n ,r0 = UD matrisini inşa et.
Adım 3: Z n ,r0 matrisi içerisindeki önemli bileşen sayısını belirle ve sayıya bağlı olarak
indirgenmiş veri kümesini Z n ,r1 belirle ( r1 ≤ r0 ).
Adım 4:
Z n ,r1
veri matrisimize BACON algoritmasını uygulayarak temel alt kümeyi
belirle.
Adım 5: Temel alt kümedeki gözlemlerin ortalama ve varyans-kovaryans matrisleri
sırasıyla, Z b ve Sb olmak üzere
d i (Z b , S b ) =
(z
i
′
− Z b ) S b−1 (z i − Z b )
i=1,2,…,n
uzaklıkları hesaplanır.(zi , Z matrisinin i. satırı.)
Adım 6: d i (Z b , S b ) < C npq .χ p ,α n olan gözlemlerle yeni temel alt küme belirlenir. χ p2 ,α ; p
serbestlik dereceli,
1−α
ki-kare değeri, C npq = C np + C hq olan bir
yüzdelikli
düzeltme faktörü, q; şu an ki temel alt kümede bulunan eleman sayısı, p; temel alt
kümede
C np = 1 +
bulunan
bileşen
sayısı,
C hq = max{0, (h − q ) (h + q )}
ve
p +1
1
+
olarak tanımlıdır (h = [ (n + p + 1) 2 ]) .
n− p n−h− p
Adım 7: 5. ve 6. adımlar temel alt kümede değişme olmayana kadar tekrarlanır.
Adım 8: Yedinci adımda elde edilen temel alt küme dışında kalan gözlemler aykırı
değer olarak tanımlanır.
Adım 9: Aykırı değer olarak belirlenen gözlemler veri kümesinden atılarak
indirgenmiş veri kümesi elde edilir ( Z r ,r2 )
Adım 10: Z r ,r2 veri matrisine ait ortalama vektörü µ̂1 ve varyans-kovaryans matrisi S1
hesaplanır. Ardına S1 matrisinin spectral ayrıştırılması
S1 = P1 L1 P1′
~ ~
olacak şekilde yapılır. ( L1 = diag ( l1 ,..., lr 2 ) and r2 ≤ r1).
Adım 11: Veri S1 in sıfırdan farklı özdeğerlerine karşılık gelen özvektörleri
tarafından gerilen uzay içerisine yansıtılır. Yani
(
Pr2 ,r2
)
Z n*,r2 = Z n ,r2 − 1n µ1′ Pr2 ,r2
Z n*,r2
Adım 12: BACON algoritması kullanılarak
içindeki temiz gözlemlerin matrisi
belirlenir.
Adım 13: Temiz gözlemlere ait ortalama vektörü µ̂ 2 ve varyans–kovaryans matrisi S2
hesaplanır.
Adım 14: Varyans kovaryans matrisinin spectral ayrıştırılması yapılır.
S 2 = P2 L2 P2′
Adım 15: Veri kümelerini S2 in sıfırdan farklı özdeğerine karşılık gelen özvektörleri
Pr*2 ,r2
tarafından gerilen uzay içerisine yansıtılır. Bunun için
(
)
Z n**,r2 = Z n*,r2 − 1n µ 2′ Pr*2 ,r2
veri matrisi hesaplanır.
Adım 16:
Z n*,r1
ve
Z n*,r2
veri matrisleri ne ait varyans-kovaryans matrislerinin (S1 ve
S2) determinantları hesaplanır.
Adım 17: det(S0)<det(S1) ise final veri matrisi
(Z ) , Z
final
*
n ,r2
‘e aksi taktirde
Z n**,r2 ’e
eşitlenir. Final veri matrisine ait ortalama ve varyans-kovaryans matrisleri sırasıyla µ̂ 3
ve S4 hesaplanır
Adım 18: Bu değerlerden yaralanılarak ortagonal uzaklıklar (ODi) ve robust uzaklıklar
(RDi) hesaplanır.
RDi =
(Z
finali
)
′
− µˆ 3 S 4 (Z finali − µˆ 3 )
ODi = Z finali − µ̂ 3 − P t i
′
Burada P, final matrisinin varyans-kovaryans matrisinin özdeğerlerine karşılık
(~
)
gelen özvektörlerin matrisini, ti ise Tn ,k = X n ,k − 1n µ 3′ P matrisinin i. satırını temsil
etmektedir.
Adım 18: Verinin grafiksel incelemesi için RDİ karşın indeks, ODi karşın indeks, RDi
karşın ODi, Zfinal[,i] karşın Zfinal[,j] (i,j=1,2,…,r2 ve i ≠ j ) grafikleri çizilebilir .
Grafiklerin yorumlanmasında araştırmacı grafik içerisine RDi karşın ODi grafiğinde
düşey eksene x = (µˆ + σˆ .Z 0.975 )
32
ve y = C npr .χ p ,α
n
doğruları çizilmelidir. Bu doğrular
dört dikdörtgen belirlemektedir. Alt ve sol taraftaki dikdörtgen içerisinde kalan
gözlemler temiz dışarısındakiler ise problemli gözlemlere karşılık gelmektedir. Alt sağ
tarafta ki iyi leverage gözlemleri üst sol taraftaki ortogonal sapan değerleri ve üst sağ
taraftaki gözlemler de kötü leverage gözlemleri belirtmektedir.
3. Uygulama
Bu bölümde RBTBA yönteminin performansı iki farklı tipteki veri kümesi
üzerinde gösterilecektir. Bunun yanında RBTBA yönteminden elde ettiğimiz sonuçları
klasik temel bileşenler analizi (KTBA) den elde edilen sonuçlarla karşılaştırılacaktır.
3.1. Cars data
Cars veri kümesi 111 satır ve 11 kolondan oluşan düşük boyutlu bir veri
kümesidir. Bu veri kümesinde rasgele seçilmiş 111 arabanın uzunluğu, genişliği ve
ağırlığı
ile ilgili bilgileri içermektedir. Veri kümesine ait ikili serpilme grafikleri ve
spearman rank korelasyon değerleri x1 ile x2 ve x3 ile x9 arasında
yüksek bir
korelasyon olduğunu göstermektedir ( r12 = 0.83 , r39 = 0.87 ). Bu nedenle KTBA
yöntemi kullanılarak veriyi temsil eden en iyi bileşenlerin belirlenmesi işlemi tercih
edilmektedir.
Bu veri kümesine RBTBA yöntemini uyguladığımızda en önemli bileşenlerin
~ ~
~
belirlenmesi işini verinin varyans-kovaryans matrisinin özdeğerlerine l1 ≥ l2 ≥ ...lr
(r = rank ( S 0 ) ) bakarak karar vermekteyiz. Bunun için de
k
~
r
~
∑l ∑l
j =1
j
j =1
j
≈ 90%
OD
5
10
15
20
25
30
olacak şekilde k değerini belirlenmektedir.
0
20
40
60
80
100
index
0
10
20
OD
30
40
50
Şekil 1: Cars veri kümesine ait scree grafiği
0
2
4
6
8
CDi
1.5*10^-11
Şekil 2(a): Cars veri kümesine ait tanılama grafiği (iki klasik temel bileşene ait)
32
30
96
10^-11
36
34
6
5*10^-12
OD
25
103
105
104
108
111
110
109
107
106
0
102
0
2
4
6
8
RDi
Şekil 2(b): Cars veri kümesine ait tanılama grafiği (iki robust temel bileşene ait)
2000
6
108
-2000
t2
0
110
104
111 102
107
104
-4000
96
30
32
34
36
25
-10000
-5000
0
5000
t1
Şekil 3(a) : Cars veri kümesinin en önemli robust iki bileşenine ait skor grafiği
~ ~
Bu veri kümesi için l1 + l2
11
~
∑l
j =1
j
= 94% olduğundan k=2 olarak belirlenmiştir.
Şekil2(a) ve (b) de sırasıyla klasik ve robust yöntem kullanılarak elde edilen
tanılama grafiklerini göstermektedir. Robust yöntem kullanılarak elde edilen grafikten
problemli olan gözlemlerin rahatlıkla belirlenebildiği gözlemlenmektedir. Bu grafik
25,30,32,34,36,102-110 nolu gözlemleri sapan değer olarak belirlemektedir. Ayrıca 6
-40
-20
t2
0
20
ve 96 nolu gözlemlerin iyi leverage oldukları da rahatlıkla söylenebilir.
-60
-40
-20
0
20
40
t1
Şekil 3(b) : Cars veri kümesinin en önemli iki bileşeninin birbirine karşın
serpilme grafiği
Elde ettiğimiz bu sonuçları KTBA den elde edilenler (Şekil 2 (b)) ile
karşılaştıracak olursak robust için elde edilenin klasik için elde edilenden çok farklı
olduğunu göreceğiz. En dikkat çeken kısmı ciddi anlamda problemli olan 25,
30,32,34,36 nolu gözlemlerin klasik yöntemde problemsiz gözlemler olarak
görülmesidir. RBTBA ve KTBA arasında ki farkı (t i1 , t i 2 ) bileşenlerine ait serpilme
grafiklerine (Şekil 3(a), Şekil 3(b) ve Şekil 3(c) ) bakarak ta söyleyebiliriz.
1500
102 106
111 105
108
107
109
110 103
500
t3
1000
104
6
0
30
96
-500
36
25
34
32
-4000
-2000
0
2000
t2
Şekil 3(c) : Cars veri kümesinin robust üçüncü bileşeni karşın ikinci bileşenine
ait serpilme grafiği
106
102
105
103
500
t3
1000
1500
111
107
110
104
108
109
6
0
96
30
36
-500
34
32
25
-10000
-5000
0
5000
t1
Şekil 3(d) : Cars veri kümesinin robust birinci bileşeni karşın ikinci bileşenine
ait serpilme grafiği
Şekil 3(a); RBTBA yönteminden elde edilen en önemli iki bileşene ait serpilme
grafiğini göstermektedir. Veri kümesine ait skor uzaklığı için sınır değeri
χ 22, 0.975 dir.
Gözlemlerin yoğunlaştığı kısım dışarısında kalan
gözlemler problemli gözlemler
olarak bilinmektedir. Grafikten hangi gözlemlerin problemli olduğu rahatlıkla
söylenebilir. Şekil 3(b) ise KTBA den elde edilen skorlara ait serpilme grafiğidir.
Grafikten 25, 30, 32, 34 ve 36 nolu gözlemler dışında problemli gözlem
görülmemektedir. Benzer bilgiler Şekil 3(c) ve Şekil 3(d) için de söylenebilir.
3.2. Octanes data
Octanes veri kümesi Esbensen ve ark. (1994) tarafından tanımlanmıştır. Bu
veri kümesi parametre sayısının gözlem sayısından fazla olması durumunda yöntem
performansının gösterilmesi amacı ile seçilmiştir. Veri kümesinde n=39, p=226 dır.
Veri kümesinde ki 25,26,36-39 nolu gözlemlerin problemli gözlemler oldukları
önceden bilinmektedir.
120
pc
60
0.818
40
Variances
80
100
0.529
20
0.914
0.976
0.992
0.995
0.997
0.998
0.999
0
0.986
Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 Comp. 7 Comp. 8 Comp. 9 Comp. 10
0.4
OD
0.8
1.2
Şekil 4: Octanes veri kümesine ait scree grafiği
0.0
26
0
2
4
6
8
10
CDi
Şekil 5(a): Octanes veri kümesine ait tanılama grafiği (KTBA den elde edilen)
4*10^-15
39
2*10^-15
OD
6*10^-15
26
25
0
37
0
1
36
2
38
3
4
RDi
Şekil 5(b): Octanes veri kümesine ait tanılama grafiği (RBTBA den elde edilen)
KTBA için tanılama grafiği Şekil 5(a) da görülmektedir. Grafikten klasik
yöntemin sadece 26 nolu gözlemi problemli olarak belirlediğini görmekteyiz. Buna
karşın RBTBA yöntemine ait grafikte problemli gözlemlerin tamamı sapan değer
olarak görülmektedir.
4. Sonuç
Bu çalışmada robust temel bileşenler analizi ile ilgili yeni bir algoritma önerildi.
Yöntem orijinal veriye projection-pursuit tekniğini uygulanarak daha az boyutlu olacak
şekilde düzenledikten sonra robust yöntem uygulayarak veriyi temsil edecek bir alt
uzaya gözlemleri yansıtmaktadır. Bu uzay içerisinde veri kümesine ait robust
kovaryans matrisinin tahminini kullanarak robust uzaklıklar hesaplanır. Grafiksel
yöntemler yardımıyla problemli gözlemler belirleniyor.
İnceleme sonuçları gösteriyor ki; RBTBA yöntemi hem n<<p hem de p<<n
durumlarında etkin olarak sonuç vermekte ve robust tahminler sunmaktadır.
RBTBA
yöntemi
robust
temel
bileşenler
regresyonun
çerçevesinde
tanımlanmıştır. Yöntem veride sapan değer olması ve çoklu iç ilişki probleminin
bulunması durumlarında etkin olarak kullanılmaktadır. Ayrıca en önemli özelliği
yüksek boyutlu veri kümelerinde sorunsuz olarak sonuç verebilmesidir.
Araştırmamızda
S-Plus
6.0
paket
programını
kullanıldı.
İlgili
bilgiler
[email protected] adresinden temin edilebilir.
KAYNAKLAR
•
Billor , N., Hadi, A. S., Velleman, P. F., 2000. BACON: Blocked Adaptive
Computationally-Efficient Outlier Nominators, Computational Statistics And
Data Analysis, 34, 279-298.
•
Billor, N., Hadi, A. S. And Kiral, G. (2003) “A Comparison Of Recent Multiple
Outlier Detection Methods For Regression Data”, Proceedings Of JSM,
Pg:1718-1723.
•
Boente, G., Pires, A.M. , And Rodrigues, I (2002), “Influence Functions And
Outlier Detection Under The Common Principal Component Model:A Robust
Approach.” Biometrika, 89,861-875.
•
Croux, C., Abd Ruiz-Gazen, A. (2000), “ High Breakdown Estimators For
Principal Components: The Projection-Pursuit Approach Revisited”, Under
Revision.
•
Esbensen, K., H., Schonkopf, S., And Midtgaard, T. (1994), Multivariate
Analysis İn Practica. Camo, Trondheim.
•
Hubert, M.,Rousseeuw, P.J., And Branden, K., V. (2003), ”ROBPCA:A New
Aprroach To Robust Principal Component Analysis”
•
Lie, G., And Chen, Z. (1985),”Projection-Pursuit Approach To Robust
Dispersion Matrices And Principal Components: Primary Theory And Monte
Carlo,” Journal Of The American Statistical Association, 80, 759-766.
•
Wu, W., Massart, D.L., And De Jong, S. (1997), “The Kernel PCA Algorithms
For Wide Data. Part 1: Theory And Algorithms.” Chemometrics And Intelligent
Laboratory Systems, 36, 165-172.
Robust BACON Principle Component Analysis for High-Dimensional
Regressors: (RBPCA)
Abstract:
In this study we have presented the Robust BACON Principle Component
Analysis (RBPCA) method for robust principal components. It is able to handle highdimensional spectra and several concentration variables at once and detect the
latent variables that explain the variability of the good data points. It can deal with
situations where there are more variables than objects, and combines numerical
accuracy with computation speed.
PCA is a technic to handle the problem of multicollinearity and produce stable
and meaningful estimates for regression coefficient. But unfortunatelly it gives very
unreliable results when data set contains outlying observations. So in this study we
prefer to use robust PCA method. In the past three robust approaches have been
developed. The first is based on the eigenvectors of a robust scatter matrix, and is
limited to relatively low-dimensional data (Lie and Chen, 1985). The second approach
is based on projection pursuit and can handle high-dimensional data(Croux, Ruiz
Gazen, 1996,2000). And the last one is based on both projection pursuit and robust
covariance estimation and can handle high-dimensional matrix (Hubert et.al., 2003).
In this study we propose the RBPCA approach which combines robust
estimation. It yields more accurete estimates at non-contaminated data and more
robust estimates at contaminated data. RBPCA can be computed fast, and is able to
detect exact fit situations. Also we introduce several diagnostic plots which are
helpful to visualize and classify the outliers in the analysis of large data sets .
We can show the performance of this method by using real data sets.
Key Words: Principal Component Analysis (PCA), Robust Methods, Highdimensional data, BACON method

Benzer belgeler