veri madenciliği

Transkript

veri madenciliği
Sosyal İlişkiler: Çizge

VERİ MADENCİLİĞİ

Sosyal Ağlar
Düğümler: Kişiler
Ayrıtlar: sosyal
ilişkiler



Yrd. Doç. Dr. Şule Gündüz Öğüdücü
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/


aile, arkadadaş, iş
Çizge G(V,E)
V: düğümler
kümesi
E: Ayrıtlar kümesi
Benzerlik Matrisi
S. Milgram (1967)
Yakınlığın Altı Derecesi: Six Degrees of Separation
1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Sosyal Ağ


4
Kevin Bacon Oyunu
Sosyal ağ kişiler arasındaki ilişkilerin
oluşturduğu bir yapıdır
Sosyal ağ incelemesi: ağ yapısının, kişiler ya da
gruplar (topluluklar) arasındaki ilişkilerin ve
bilgi akışının incelenmesi



1994 yılında bir grup öğrenci
tarafından icat edildi: Craig
Fass, Brian Turtle, Mike Ginelly
Amaç: Bütün oyuncuları en az
sayıda bağlantı ile en kısa
sürede Kevin Bacon’a
bağlamak
Oracle of Bacon Web sitesi
IMDB veritabanındaki veriyi
kullanarak iki oyuncu
arasındaki en kısa yolu
buluyor.
http://oracleofbacon.org/
L.C. Freeman, Visualizing Social Networks. Journal of Social Structure, 2000.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
2
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Sosyal İlişkiler: Çizge

Sosyal Ağların Özellikleri
Düğümler: Kişiler

Farklı (doğal) ağlar

Ortak özellikleri







3
sosyal, biyolojik, teknik, içerik..
Çok büyük, dinamik: düğümler, ayrıtlar
eklenebilir/silinebilir
düğümler hangi düğümlerle ilişkide olacaklarına kendileri
karar veriyorlar
düğümler arası etkileşim ayrıtlarla sınırlı
uzaklık/benzerlik için soyut bilgi: coğrafi, içerik, ilişkiler
Sosyal ağ kuramı: link analizi

http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
5
Farklı ağların genel özellikleri nelerdir?
Bu özellikler nasıl belirlenir, nasıl ölçülür?
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
6
1
Sosyal Ağların Özellikleri

Uzunluk (dG(s,t)): Iki düğüm (s,t) arasındaki en büyük,
en küçük, ortalama uzaklık





Sosyal Ağların Özellikleri

Iki düğüm arasında bulunan yoldaki ayrıt sayısı
Iki düğüm arasında bulunan yoldaki ayrıtların
ağırlıklarının toplamı
Derece: yönlü ise düğüme gelen (in-link) / düğümden
çıkan (out-link) bağlantıların sayısı
Merkez: Ağdaki diğer düğümlerin bağlı olduğu bir ya
da bir kaç düğüm
Yoğunluk: Ağdaki bağlantı sayısının olası bütün
bağlantı sayısına oranı

=9/21
7
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Sosyal Ağların Özellikleri



t

st= ts s ve t (s,t  V) düğümleri arasındaki en kısa yol sayısı -> ss=1
st(v): v  V düğümünün üzerinde bulunduğu s ve t düğümleri arasındaki
en kısa yol sayısı
Cc ( v ) 
Iki düğüm arasında
bulunan yoldaki ayrıt
sayısı
d
tV
CG (v) 
dG(s,t) = 3 (en kısa yol)

10
Tanımlar
s
Uzunluk (dG(s,t)): Iki
düğüm (s,t) arasındaki
en büyük, en küçük,
ortalama uzaklık
Merkez: Ağdaki diğer
düğümlerin bağlı
olduğu bir ya da bir
kaç düğüm
Yoğunluk: Ağdaki
bağlantı sayısının
olası bütün bağlantı
sayısına oranı
Cs (v ) 
Iki düğüm arasında
bulunan yoldaki
ayrıtların ağırlıklarının
toplamı
1
( v, t )
1
max tV d G (v, t )

s  v  tV
C B (v ) 
closeness centrality (Sabidussi, 1966)
G

s  v  tV
st
(v )
 st (v)
 st
graph centrality (Hage and Harary, 1995)
stress centrality (Shimbel, 1953)
betweenness centrality
(Freeman, 1977; Anthonisse, 1971)
Ulrik Brandes, A Faster Algorithm for Betweenness Centrality, Journal of Mathematical Sociology
25(2):163-177, (2001).
8
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Sosyal Ağların Özellikleri

Tanımlar
Derece:


yönlü ise düğüme
gelen (in-link) /
düğümden çıkan
(out-link)
bağlantıların sayısı
yönsüz ise düğüme
bağlanmış ayrıt sayısı
11


n
Hizip (Clique):
 seçilebilecek her düğüm çifti arasında
bir bağ olan alt çizge
 tam bağlı alt çizge
Daha zayıflatılmış
 N-Hizip (N-Clique): Bir düğümün içinde bulunduğu alt çizgedeki
diğer tüm düğümlere olan uzaklığı en çok N olabilir
 N-Klan (N-Clan): N-Hizipteki düğüm çiftleri arasındaki yollar
üstündeki düğümler de N-Hizip üyesi
 K-Plexes: Bir düğümün n düğümden oluşan bir N-Hizip içindeki en
az n-k düğüm ile doğrudan bağlı olması
d(n)=4
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
9
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
12
2
Tanımlar

Problemler
Kesitleme noktası (Cut Points): Bağlı olan bir
G çizgesinden, v düğümü ve bu düğüme
bağlı olan bütün ayrıtlar çıkarıldığında oluşan
G-v çizgesi bağlı değil ise v kesitleme
noktasıdır.

Bağlı parçalar:

Ağ çapı:







5
1


7
2
6
Gruplaşan ilişkiler/düğümler
Örtüşen gruplar
Grup içi ve gruplar arası ilişkilerin oranı
Grup içi ve gruplar arası ilişkilerin rolü
Ağın yapısı

4
en uzak – ortalama
Bağlı olmayan düğümler / parçalar
Küçük dünya özelliği
Demetleme

Kesitleme noktası
kaç parça, büyüklükleri ne, ne kadar bağlılar
düğümlerin derecesi


3

13
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Web’de Sosyal Ağlar
Kesitleme noktası (Cut Points): Bağlı olan bir
G çizgesinden, v düğümü ve bu düğüme
bağlı olan bütün ayrıtlar çıkarıldığında oluşan
G-v çizgesi bağlı değil ise v kesitleme
noktasıdır.
5
1
6
2
16
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Tanımlar

ki: i düğümünün derecesi, Ni: i düğümünün komşular kümesi
ilişkilerin ağırlığının dağılımı
ağ içinde önemli rolü olan düğümler: iki grubu birbirine bağlayan
4
3
14
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Facebook
Myspace
 LinkedIn
 Classmates
 Orkut
 Bebo
Medya paylaşım siteleri:
 YouTube
 Flickr


17
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Sosyal Ağların Yeteneği
Özellik
Tanım
Etki
Derece
(Degree)
Bir düğümün bağlantı sayısı
daha fazla seçenek
Yakınlık
Diğer düğümlere olan
yolun uzunluğu
Diğer düğümlerle doğrudan
etkileşim
İki düğüm arasında yer
alan düğüm
Diğer iki düğüm arasında
ilişkiye sağlamak/kesmek
Ara düğüm
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
15
Boyd, D. M., & Ellison, N. B. (2007). Social network sites: Definition, history, and scholarship.
Journal of Computer-Mediated Communication, 13(1), article 11.
http://jcmc.indiana.edu/vol13/issue1/boyd.ellison.html
18
3
Sosyal Ağlar için Modeller

Demetleme Katsayısı
Rassal çizgeler (Random Graphs: Erdös-Rényi

C7=2*0/2*1=0
C1=2*1/3*2=1/3
C2=2*1/2*1=1
models)

Watts-Strogatz modelleri

Scale-free Networks
Demetleme katsayısı
5
1
7
6
2
4
3
19
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
N = 12
Rassal Ağlar

Erdös-Rényi (ER)
Model: 1959 yılında
Paul Erdös ve Alfred
Rényi



Erdös-Rényi Model (1960)
p = 0.0 ; k = 0
N: Düğüm sayısı
p: iki düğüm arasında
ayrıt olma olasılığı

Poisson distribution
(1913-1996)
Ortalama derece:
p = 1.0 ; k ≈ ½N2
20
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Rassal Ağlar
N(N-1)/2 adet hileli yazı tura atma
Derece dağılımı
 N çok büyük olduğunda Poisson
dağılımı
 G(N,p) ile bir çizge oluştur,
rastgele bir u düğümü
 Pr[deg(u) = k] ?
 Poisson dağılımı ortalama
= p(N-1) ~ pN
Demetleme katsayısı (clustering
coefficient ) küçük
23
Erdös Sayısı

Paul Erdös ile birlikte
makale yazma uzaklığı


f (k ;  ) 

Pál Erdös
p=1/6
N=10
~1.5
p = 0.09 ; k = 1
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

Connect with
probability p
p = 1/2N, p = 1/N, p
= 2/N, p=10/N, p =
log(N)/N...
k ≈ pN

22
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Ci 
2 e jk 
ki (ki  1)
k e  
k!

: v j , vk  N i , e jk  E
Paul Erdös ile birlikte
makale yazan kişinin
Erdös sayısı=1
Paul Erdös ile birlikte
makale yazan bir kişiyle
birlikte makale yazan
kişinin Erdös sayısı=2
Yaklaşık 1500’den fazla
makalesi var
http://www.oakland.edu/enp/
N
C   Ci
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
i 1
21
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
24
4
Watts-Strogatz modelleri: Caveman and
Solaria




Watts-Strogatz Model
Erdos-Renyi
 Ortak komşuları olması iki düğüm arasında ayrıt olma olasılığını
artırmıyor
 her ayrıt daha öncekilerden bağımsız olarak oluşuyor
Gerçekte oluşan ağ yapısına uygun değil
 iki kişinin tanışma olasılığı ortak arkadaşları varsa daha fazladır
 Web de iki sayfa biribirine bağlı ise büyük olasılıkla aynı
konudadırlar
Watts Caveman:
 ayrıtların genel olarak yoğunluğu az
 iki düğümün ortak komşuları varsa aralarında ayrıt olma olasılığı
büyük
Watts Solaria
 ayrıtların genel olarak yoğunluğu az, bir düğümün komşuları
arasında ayrıt olma olasılığı farklı değil
 Erdos-Renyi çizgesine benzer
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/




25
Bir daire etrafında eşit dağılmış N düğüm
Her düğümün en yakın k komşusu arasında k ayrıt (yakın ilişki)
p olasılığı ile bir düğüme az sayıda rastgele ayrıt ekle (uzak ilişki)
farklı p değerleri için farklı çizgeler
Collective dynamics of 'small-world' networks
Duncan J. Watts & Steven H. Strogatz
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
-model



Small Worlds - Occam’s Razor
Gerçek hayatta çizgelerde düğümler arasındaki bağlantılar düzenli
çizge (regular graph) ve rassal çizge arasında
Gerçek hayattaki sosyal ağların yapısını mıodellemek
 -model (Watts, D. J. (1999) Kevin Bacon, the small-world, and
why it all matters. Santa Fe Institute Bulletin, 14(2): center
section)
-model için parametreler
 N düğüm sayısı
 k: ortalama derece
 p: iki düğüm arasında ayrıt olma olasılığı
 : yakın ilişkilerin olasılığını artırmak için parametre


küçük  değerleri için demetleme katsayısı
büyük





demetleme katsayısı büyük
Örnek
u,v düğüm çifti için
 m(u,v): ortak komşu sayısı
R(u,v): iki düğümün arasında ayrıt olma eğilimi (propensity)
 m(u,v) >= k, R(u,v) = 1
 m(u,v) = 0, R(u,v) = p
 diğer durumlarda R(u,v) = p + (m(u,v)/k)^ (1-p)

üç gerçek ağ üzerinde inceleme



Oyuncular
batı bölgesindeki güç santralleri
C.elegans sinir sistemi
 için Erdös-Renyi çizgelerine benziyor
Actors
Power-grid
C.elegans
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
29
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
-model

farklı özellikler için basit tek bir model
Watt’s small world:
 çapı küçük

26
Erdos-Renyi  çapı küçük
-model  büyük demetleme katsayısı
Occam’s Razor


Rassal ağlarda olduğu gibi iki düğüm arasına ayrıt eklenir. Ancak iki düğümün
ortak komşuları varsa aralarında ayrıt olma olasılığı fazladır.
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
28
27
n
k
d
c
225,226
4,941
282
61
2.67
14
3.65
18.7
2.65
0.79
0.08
0.28
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
30
5
Small World


Topluluk Belirleme
Rastgele iki düğüm arasındaki yolun uzunluğu
kısa
Serbest Ölçekli Ağlar (Scale free): Örnek web




S. Fortunato and C. Castellano, Community Structure
in Graphs, ArXiv e-prints
Bir çizge içinde ortak özellikleri/görevleri olan
düğümler topluluğu

düğümler web sayfaları
ayrıtlar bağlantılar




Topluluk içindeki topolojik konumlarına göre düğümler
sınıflandırılabilir


http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
31
Metabolik

web: yeni sayfalar/siteler ekleniyor/siliniyor
yayınlar: yeni yayınlar ekleniyor
Eklenen düğümlerle oluşan ayrıtlar üniform değil


Sosyal
35
32
Serbest Ölçekli Ağlar
Topluluk Tanımı
Pareto veya power law

dağılımı

P(k)=Ck-


çapı küçük (~log(N))
demetleme katsayısı çok
büyük değil


Ekonomik
çok sayıda sayfanın/sitenin bağlantı verdiği
sayfaya/siteye bağlantı verme olasılığı yüksek
çok sayıda yayının referans gösterdiği yayının referans
gösterilme olasılığı yüksek
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/

Protein
Ağ sürekli yeni düğümlerin eklenmesi/silinmesi ile
değişiyor


34
Düğüm sayısı N sabit değil


topluluğun merkezinde yer alan düğüm
topluluğun sınırında yer alan düğüm
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Serbest Ölçekli Ağlar

aynı konudaki web sayfaları
benzer işleve sahip proteinler
aynı konuda çalışan insan grupları
aynı ilgi alanına sahip insan grupları
Dar tanım
Geniş tanım
Düğüm benzerliği
yakın komşuları ile ayrıt olma
olasılığı yüksek değil
“hub” olan düğümlerle ayrıt
oluşturma olasılığı yüksek
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
33
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
36
6
Dar Tanım

Çizge Parçalama
Sadece alt çizgedeki ilişkilere göre toplulukları
belirliyor.


Örnek: Hizip, n-klan, k-plexes
Graph Partitioning: Çizgeyi bir düğüm bir
grupta kalacak şekilde gruplara (altçizgelere)
bölme
Problem:


http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
37
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Geniş Tanım




40
Örtüşen Topluluklar
Topluluk çizginin yapısal bir birimi
Altçizgeler hem kendi içindeki ilişkiler hem de
çizgenin geri kalanıyla olan ilişkileri ile
belirleniyor
Null model: içinde topluluk bulunmayan çizge

Örtüşen topluluklar
Hiyerarşik yapı

Erdös-Renyi
Newman-Girvan: düğümlerin orjinal çizge ile
aynı dereceye sahip olduğu rassal çizge
Gerçek dünyada bir nesne birden fazla gruba
üye olabilir
G. Palla, I. Derényi, I. Farkas, T. Vicsek,
Uncovering the overlapping community structure of
complex networks in nature and society
Nature 435, 814, 2005
http://www.cfinder.org/
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
38
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Düğüm benzerliği

Hiyerarşik Yapı
Düğümler birbirine “benzer” ise aynı toplulukta


41

dar
geniş
Altçizgeler tekrar
parçalanabilir
A. Clauset, C. Moore, M.E.J. Newman,
Hierarchical structure and prediction of missing links
Nature 453, 98, 2008
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
39
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
42
7
Çizge Parçalama

Girvan-Newman Algoritması
Hangisi daya iyi


M. Girvan & M.E.J Newman, Community
structure in social and biological networks,
PNAS 99, 7821-7826 (2002)
Toplulukları birbirine bağlayan ayrıtları belirle



http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
43

1.
2.
3.
4.
44
Bütün ayrıtların “betweenness” değerleri
hesaplanır
En büyük “betweenness” değerine sahip ayrıt
silinir
Kalan ayrıtların “betweenness” değerleri
hesaplanır
2. adıma geri dönülür
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
Birimsellik

Modularity:
Bitişiklik Matrisi:
m

1 (u,v)  E
Auv  
0 diger
Phys. Rev. E 69, 026113 (2004)
2.
vV
C  {c1 , c2 ,...}, ci  c j   (i  j )  ci  V
3.
ci C
A
uci ,vc j
uv
M.E.J. Newman & M. Girvan, Finding and
evaluating community structure in networks,
1.
ku   Auv
eij 
47
Geliştirilmiş Girvan-Newman Algoritması
Auv
2

u , vV
46
Girvan-Newman Algoritması
Üstünlüklerini karşılaştırmak için bir kriter Q
Q(P1) > Q(P2) veya Q(P1) < Q(P2) ?
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
birbirinden ayrık demetler
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
İki Farklı Sonuç

Betweenness
bu ayrıtları silme
/ 2m
4.
ai   kv / 2m
Her düğüm bir demet
Q değerini en büyütecek iki düğümü birleştir
Bütün düğümler tek demet olana kadar işleme
devam et
En fazla Q değerine sahip demetlemeyi seç
vci
Q(G , C )   (eii  ai2 )
i
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
45
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
48
8
Problemler






Örtüşen topluluklar
Yönlü çizgeler
Ağırlıklı çizgeler
Karmaşıklık
Dinamik ağlar
Büyük ağlar
http://www3.itu.edu.tr/~sgunduz/courses/verimaden/
49
9

Benzer belgeler

06-Demetleme Yöntemleri-2

06-Demetleme Yöntemleri-2 Aile ilişkileri Sosyal ağlar (eğitim, suçlular arası ilişki...) Telefon çağrıları Bilgisayar ağları

Detaylı