Bildiri Özetleri - 9. Uluslararası İstatistik Kongresi

Transkript

Bildiri Özetleri - 9. Uluslararası İstatistik Kongresi
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
1
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
ADVISORY BOARD
Süleyman DÜNDAR
Embiya AĞAOĞLU
Yılmaz AKDİ
Müjgan ZOBU
M. Bahar BAŞKIR
İsmail ERDEM
Fahrettin ÖZBEY
Muhammet BEKÇİ
Hamza EROL
Serdar Kurt
Onur KÖKSOY
Zeki YILDIZ
Sinan ÇALIK
Hülya BAYRAK
Nurgül OKUR BEKAR
Hülya ÇINGI
Adnan MAZMANOĞLU
Esra AKDENİZ DURAN
Münevver TURANLI
Zafer KÜÇÜK
Sevgi YURT ÖNCEL
Müjgan TEZ
Gülay BAŞARIR
Dursun AYDIN
Aydın KARAKOCA
Mehmet Ali CENGİZ
Ayşen DENER AKKAYA
Aşır GENÇ
Alper SİNAN
Cenap ERDEMİR
Şaban EREN
Ali Hakan BÜYÜKLÜ
H. Eray ÇELİK
AFYON KOCATEPE ÜNİVERSİTESİ
ANADOLU ÜNİVERSİTESİ
ANKARA ÜNİVERSİTESİ
AMASYA ÜNİVERSİTESİ
BARTIN ÜNİVERSİTESİ
BAŞKENT ÜNİVERSİTESİ
BİTLİS EREN ÜNİVERSİTESİ
CUMHURİYET ÜNİVERSİTESİ
ÇUKUROVA ÜNİVERSİTESİ
DOKUZ EYLÜL ÜNİVERSİTESİ
EGE ÜNİVERSİTESİ
ESKİŞEHİR OSMANGAZİ ÜNİVERSİTESİ
FIRAT ÜNİVERSİTESİ
GAZİ ÜNİVERSİTESİ
GİRESUN ÜNİVERSİTESİ
HACETTEPE ÜNİVERSİTESİ
İSTANBUL AYDIN ÜNİVERSİTESİ
İSTANBUL MEDENİYET ÜNİVERSİTESİ
İSTANBUL TİCARET ÜNİVERSİTESİ
KARADENİZ TEKNİK ÜNİVERSİTESİ
KIRIKKALE ÜNİVERSİTESİ
MARMARA ÜNİVERSİTESİ
MİMAR SİNAN GÜZEL SANATLAR
ÜNİVERSİTESİ
MUĞLA SITKI KOÇMAN ÜNİVERSİTESİ
NECMETTİN ERBAKAN ÜNİVERSİTESİ
ONDOKUZ MAYIS ÜNİVERSİTESİ
ORTA DOĞU TEKNİK ÜNİVERSİTESİ
SELÇUK ÜNİVERSİTESİ
SİNOP ÜNİVERSİTESİ
UFUK ÜNİVERSİTESİ
YAŞAR ÜNİVERSİTESİ
YILDIZ TEKNİK ÜNİVERSİTESİ
YÜZÜNCÜ YIL ÜNİVERSİTESİ
2
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
SCIENTIFIC BOARD
Prof. Dr. Farouq ALMEQDADI
Emirates College for Advanced Education,
UAE
Prof. Dr. Ildar BATYRSHIN
National Polytechnic Institute of Mexico,
Prof. Dr. İsmihan BAYRAMOĞLU
İzmir Ekonomi Üniversitesi, TURKEY
Prof. Dr. Canan BİLEN
North Dakota University, USA
Prof. Dr. Hamparsum BOZDOGAN
University of Tennessee, USA
Prof. Dr. Carlos Manuel Agra COELHO
Nova de Lisboa University, PORTUGAL
Prof. Dr. Thorsten DICKHAUS
University of Bremen, GERMANY
Prof. Dr. Andrzej DZIECH
AGH University of Science and
MEXICO
Technology, POLAND
Prof. Dr. Şenol ERDOĞMUŞ
Osmangazi Üniversitesi, TURKEY
Prof. Dr. Roland FREID
Dortmund University, GERMANY
Prof. Dr. Armando GONÇALVES
Federal University of Rio de Janeiro,
BRAZIL
Prof. Dr. Michael GREENACRE
Pompeu Fabra University, SPAIN
Prof. Dr. Orhan GÜVENEN
Bilkent Üniversitesi, TURKEY
Prof. Dr. Andreea IACOB
The Bucharest University of Economic
Studies, ROMANIA
Prof. Dr. Miruna Mazurencu MARINESCU
The Bucharest University of Economic
Studies, ROMANIA
Prof. Dr. Zehra MULUK
Başkent Üniversitesi, TURKEY
Prof. Dr. Alexandros PAPADOUPULOS
Yeditepe Üniversitesi, TURKEY
Prof. Dr. Simo PUNTANEN
University of Tampere, FINLAND
Prof. Dr. Klaus RITTER
University of Kaiserslautern, GERMANY
Prof. Dr. Andreas RÖßLER
University of Lübeck, GERMANY
Prof. Dr. Marıa Antónıa Amaral TURKMAN
University of Lisbon, PORTUGAL
Doç.Dr. Joao Miguel da Costa SOUSA
Technical University of Lisbon, PORTUGAL
Prof. Dr. Kamil Feridun TURKMAN
University of Lisbon, PORTUGAL
Prof. Dr. Burhan TÜRKŞEN
TOBB Ekonomi ve Teknoloji Üniversitesi,
TURKEY
Prof. Dr. Jakob WASSERMANN
University of Applied Sciences Technicum
Wien, AUSTRIA
Prof. Dr. Hans Joachim WERNER
University of Bonn, GERMANY
Prof. Dr. Fetih YILDIRIM
Çankaya Üniversitesi, TURKEY
Prof. Dr. Veysel YILMAZ
Osmangazi Üniversitesi, TURKEY
Prof. Dr. Vladimir ZAIATS
Universitat de Vic, SPAIN
3
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
TURKISH STATISTICAL ASSOCIATION
EXECUTIVE COMMITTEE
Ayşen APAYDIN
President
Sevtap KESTEL
Vice President
Süzülay HAZAR
Vice President
Furkan BAŞER
General Secretary
İsmet TEMEL
Accountant
Esra AKDENİZ DURAN
Member
Haydar DEMİRHAN
Member
Atakan ERDEM
Member
Gürol İLHAN
Member
SPONSIRS
4
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
INVITED SPEAKERS
5
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
Multivariate Statistical Methods for Analyzing Genetic Association Studies
Thorsten DICKHAUS
University of Bremen, Institute for Statistics, P. O. Box 330 440, 28344 Bremen, Germany
[email protected]
Genetic association studies lead to simultaneous categorical data analysis. The sample for every genetic locus
consists of a contingency table containing the numbers of observed genotype-phenotype combinations. The goal
of the statistical analysis is to detect associations between the (potentially very large) set of genetic markers and
the (typically binary) phenotype of interest. This is a particular multiple test problem which has several
challenging aspects, for instance the high dimensionality of the statistical parameter and the discreteness of the
statistical model. Furthermore, the locus-specific contingency tables exhibit strong dependencies, at least in
blocks of loci which are in linkage disequilibrium (LD), due to the biological mechanism of inheritance. This
makes a multivariate statistical analysis the method of choice.
In the first part of the presentation, we will consider frequentist multiple test procedures which are based on the
concept of the effective number of tests based on probability bounds, see [1,2] and Section 4.3 of [3]. Such
procedures incorporate LD information in a relaxed multiplicity correction of Bonferroni- or Šidák-type. Due to
the extended interpretation of LD provided in [4], this methodology is applicable for a variety of families of test
statistics. The second part is based on [5] and deals with Bayesian approaches to contingency table inference for
genetic association data. Here, the multiplicity correction is performed via an appropriate construction of the
prior probabilities for the validity of the locus-specific null hypotheses of no association. Exploiting the
conjugacy of Dirichlet and multinomial distributions, posterior probabilities for the nulls can exactly be
computed for any finite sample size, and decision theoretic multiple test procedures can be applied.
REFERENCES
[1] Dickhaus T. and Stange J. (2013), Multiple point hypothesis test problems and effective numbers of tests
for control of the family-wise error rate, Calcutta Statistical Association Bulletin, 65(257260):123-144.
[2] Dickhaus T., Straßburger K., Schunk D., Morcillo-Suarez C., Illig T. and Navarro A. (2012), How to
analyze many contingency tables simultaneously in genetic association studies, Statistical
Applications in Genetics and Molecular Biology, 11(4):Article 12.
[3] Dickhaus T. (2014), Simultaneous Statistical Inference with Applications in the Life Sciences, BerlinHeidelberg, Springer-Verlag.
[4] Dickhaus T., Stange J. and Demirhan H. (2014), On an extended interpretation of linkage disequilibrium in
genetic case-control association studies, WIAS Preprint No. 2029, http://www.wiasberlin.de/preprint/2029/wias_preprints_2029.pdf
[5] Dickhaus T. (2015), Simultaneous Bayesian analysis of contingency tables in genetic association studies,
Statistical Applications in Genetics and Molecular Biology, 14(4):347-360.
Key Words: Contingency tables, Dirichlet-multinomial distribution, effective number of tests, linkage
disequilibrium, multiple testing, multivariate statistical inference
6
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
Robust and nonparametric detection of shifts in time series
Roland FRIED
Department of Statistics, TU Dortmund University, 44221 Dortmund, Germany
We propose and study tests for detecting change-points, particularly level shifts, in time series which are
stationary otherwise. We focus on near-epoch dependent time series, which allows us to treat most standard
models of time series analysis, such as ARMA and GARCH processes.
A classical test for the detection of level shifts in such weakly dependent data is the CUSUM test, which
compares the partial sum of the first m observations to the sum of all observations for each candidate changepoint m, and maximizes this statistic with respect to m after some appropriate scaling. Asymptotical critical
values for the CUSUM test can be calculated from tables of the Kolmogorov-Smirnov distribution, i.e. the
distribution of the supremum of the Brownian bridge process.
The CUSUM test statistic, which can be formulated equivalently in terms of the differences between the sample
means of the first m and of the remaining observations, is not robust to outliers and can be improved in case of
non-normal data, particularly for heavy-tails. Dehling, Fried and Wendler (2015) propose a modification of the
CUSUM test based on the Hodges-Lehmann two-sample estimator, which is the median of all pairwise
differences between the two samples. It is highly robust and has a high efficiency in the case of Gaussian
observations. Like for a related test based on the two-sample Wilcoxon statistic (Dehling et al. 2015), the
asymptotics of the Hodges-Lehmann change-point test can be established under general conditions without any
moment assumptions. Both tests offer similar power against a shift in the center of the data, but the test based on
the Hodges-Lehmann estimator performs superior if the shift is far from the center. This can be explained by the
well-known discretization problems of the Wilcoxon statistic in small samples.
CUSUM-type tests comparing all observations before and after each candidate change-point are designed under
the idea that there is only one change. MOSUM-type tests restrict the comparison to data in two subsequent
moving time windows. This may overcome possible masking effects due to several shifts into different
directions. The talk also discusses the findings of Mielke (2015), who investigates MOSUM-type tests based on
the two-sample Wilcoxon statistic or the Hodges-Lehmann two-sample estimator in case of independent data.
In addition to testing for a shift in location, one is often interested in possible changes in the variability of the
data. The talk also reports on ongoing work on the robust detection of single or multiple changes of variability
under conditions analogous to those mentioned above.
REFERENCES
[1] Dehling H. and Fried R. (2012), Asymptotic Distribution of Two-Sample Empirical U-Quantiles with
Applications to Robust Tests for Structural Change, Journal of Multivariate Analysis, vol. 105,
pages 124-140.
[2] Dehling H., Fried R., Sharipov O.S., Vogel D. and Wornowizki M. (2013), Estimation of the variance of
partial sums of dependent processes, Statistics & Probability Letters, vol. 83, pages 141-147.
[3] Dehling H., Fried R. and Wendler M. (2015), A robust method for shift detection in time series, preprint
available at http://arxiv.org/abs/1506.03345
[4] Dehling H., Fried R., Garcia I. and Wendler M. (2015), Change-Point Detection under Dependence Based
on Two-Sample U-Statistics, in Kulik R. (editor), Asymptotic Methods in Stochastics - Festschrift
in Honor of Miklos Csörgö, to appear.
[5] Mielke J.I. (2015), Entwicklung und Evaluierung von robusten, MOSUM-artigen
Teststatistiken für Strukturbruchtests auf Lageänderung unter Unabhängigkeit, Master
thesis (in german), Dept. of Statistics, TU Dortmund University, Germany.
Key Words: change-points, heavy tails, outliers, time series
7
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
The parameters, the reliability function and the P(Y<X) for
Kumaraswamy’s distribution are estimated from the Classical and
Bayesian point of view.
Alexandros S. PAPADOPOULOS
Department of Mathematics, Yeditepe University, İstanbul, Türkiye
In this study it is assumed that the parameters of Kumaraswamy’s distribution behave as random variables, thus
they are estimated, along with the reliability function, from the Bayesian point of view. Furthermore the
reliability R=P(Y < X) when X and Y are independent random variables that follow Kumaraswamy’s
distribution are estimated under different settings. If it is assumed that the first shape parameter is common and
unknown, the maximum likelihood estimator (MLE) and the uniform minimum variance unbiased estimator
(UMVUE) of R are obtained. Furthermore, Bayes and empirical Bayes estimators for R are obtained when the
first parameter is common and unknown. Finally, when all four parameters are different and unknown the ML
estimator of R is obtained. In the computation of the Bayes estimators, Lindley’s or Tierney and Kadane’s
approximations are utilized. Monte Carlo simulations are performed to compare the different proposed methods,
and conclusions on the findings are given.
8
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
CONTRIBUTED PAPERS
(BASED ON SESSIONS ORDER)
9
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
SESSION 1
BAYESIAN STATISTICS
10
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
Estimation of reliability in a multicomponent stress-strength model based
on bivariate generalized exponential distribution
1
1
Mustafa NADAR*, 2Fatih KIZILASLAN
Department of Mathematical Engineering, Istanbul Technical University, Istanbul, TURKEY
2
Selimiye, 34668, Uskudar, Istanbul, Turkey
e-mail : *[email protected], [email protected]
1.
Introduction
In the reliability context, an s-out-of-k:G system has k s-independent and identically distributed strengths
components, and a common stress. This multicomponent stress-strength system functions when s (1≤s≤k) or
more components simultaneously survive (see, Bhattacharyya and Johnson (1974)). In recent years, there has
been a growing interest in the study of reliability for s-out-of-k and related systems for which both industrial and
military applications are available.
In this paper, we assume that the underlying distributions are bivariate generalized exponential (BVGE) (see,
Kundu and Gupta (2009)) for the strength variables, and a generalized exponential (GE) for the stress variable
which is s-independent of the strength variables. The estimation of reliability for this system is obtained under
the classical, and Bayesian frameworks. The Bayesian estimates are obtained by using both Lindley's
approximation and the Markov Chain Monte Carlo (MCMC) method.
2.
Model Description
We consider a system which have k identical strength components and each component is constracted by two
pair of dependent elements. The system is subject to a common stress and works if at least s (1≤s≤k)
components simultaneously operate and a component is alive only if the weakest elements is operating. We
assume that the independent strength random vectors
( X i11, X i12 );
(Yi11, Yi12 ) is distributed as
BVGE ( ,1 , 2 , 3 ), i  1,..., k and the common stress component T has GE( ,  ). Let
Z i1  max( X i11, X i12 ) and Z i 2  max( Yi11, Yi12 ) then Z i1 , Z i 2 ~ GE( ,  1   2   3 ). Let
U i  min( Z i1 , Z i 2 ) then FU (u)  1  [1  (1  e u ) ]2 . Let strength and stress r.v.’s be
i
independent, G (t ) be the cdf of T and F(u) be the common cdf of
U1 ,...,U k . The reliability in a
multicomponent stress-strength model is given by
k
k 
Rs ,k  P(at least s of the (U 1 ,...,U k ) exceeds T )     (1  F (t )) i ( F (t )) k i dG(t )

i s  i 
In our case, we assume that
(1)
( X i11, X i12 ); (Yi11, Yi12 ),..., ( X k11, X k12 ); (Yk11, Yk12 ) is a random sample from
(  1, 1 ,  2 ,  3 ) and T is a r.v. from GE with parameter (  1,  ). By using (1),
 k k i  k 
   ((k  i)  ( /  )  t ) 1 ).
 i  s j 0  i j 
BVGE with parameters
we obtain Rs ,k
3.
Maximum likelihood and Bayesian estimation of Rs ,k
In order to obtain the estimators of Rs ,k , suppose that n systems are put on life-testing experiment. In this case,
( X i11, X i12 ); (Yi11, Yi12 ) ,…, ( X k11, X k12 ); (Yk11, Yk12 ) and Ti , but the
actual observed data is U i1 ,U i 2 ,...,U ik and Ti , i  1,..., n. Then, the likelihood function of these observed
we obtain the following potential data
sample is given as
11
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
n
n
k
n
k
N
n
İ 1
i 1
n
k
 ln(1(1wij 1 ) )( 1)  ln(1wij 1 )(  1)  ln(1hi 1 ) ln(hi )  ln(wij )
k
L( ,  , u, t )   f (uij ) g (ti ) 2nk  nk ne i 1 j 1
i 1 j 1
i 1 j 1
i 1 j 1


The MLE of  is given by
nonlinear equation
Hence,
the
nk

n
k
 
n
1
 n /  ln(1  hi ) and the MLE of α, say
i 1
1
1 
(1  (1  wij ) )
i 1 j 1
MLE
of
1
(1  wij ) ln(1  wij )
Rs , k ,
by
using
n
k

 , is the solution of the
  ln(1  wij )  0 .
1
i 1 j 1
the
invariance
property
of
the
MLE,
is
ˆ k k i  k 2i  j
Rˆ s ,k     ((k  i)  (ˆ / ˆ )  t ) 1 ).
ˆ i  s j 0  i j t 0
Now, assume all parameters α and λ are random variables have independent gamma priors with parameters
(ci , d i ), i  1,2.
Then,
the
n
 ( ,  | u, t )  
nk  c1

n  c2 1
joint
k
posterior
n
density
k
function
of
α
and
λ
is
N
 ln(1(1wij 1 ) ) (  ln(1wij 1 )d1 ) (  ln(1hi 1 )d2 )
e i 1 j 1
i 1 j 1
İ 1
Then the Bayes estimate of Rs ,k under SE loss function is given by
 
Rˆ s ,k    Rs ,k  ( ,  | u, t )dd
0
0
(2)
It is not possible to compute equation (2) analytically. Two approaches can be applied to approximate
Rˆ s ,k , namely (i) Lindley’s approximation, (ii) MCMC method.
REFERENCES
[1] Bhattacharyya, G.K., Johnson, R.A. (1974). Estimation of reliability in multicomponent
stress-strength model. Journal of the American Statistical Association, 69, 966-970.
[2] Kundu , D., Gupta R.D. (2009). Bivariate generalized exponential distribution. Journal of Multivariate
Analysis, 100, 581–593.
ABSTRACT
Estimation of reliability in a multicomponent stress-strength model based on a generalized bivariate
exponential distribution
In this paper, we consider a system which have k identical strength components and each component is
constructed
by
two
pair
of
dependent
elements.
These
elements
( X i11, X i12 ); (Yi11,Yi12 ),..., ( X k11, X k12 ); (Yk11,Yk12 ) follows bivariate generalized exponential and each
element is exposed to a common random stress T which follows generalized exponential distribution. The system
is regarded as operating only if at least s out of k (1≤s≤k) strength variables exceeds the random stress. The
multicomponent
reliability
of
the
system
is
given
by
Rs ,k  P(at least s of the (U1 ,...,U k ) exceeds T ) where U i  min(max( X i11, X i12 ), max( Yi11, Yi12 )),
i=1,...,k. We estimate Rs ,k by using frequentist and Bayesian approach. The Bayes estimate of Rs ,k have been
developed by using Lindley's approximation and the Markov Chain Monte Carlo methods due to the lack of
explicit forms. The comparison of the reliability estimators is made in terms of the estimated risks.
Key Words: Bivariate generalized exponential distribution; stress-strength model; system reliability.
12
Uluslararası 9. İstatistik Kongresi,
28 Ekim – 1 Kasım 2015 ANTALYA
What determines mathematics achievement: A bayesian network approach
Erhan ÇENE1
Selahattin AYDOĞDU1
1
Yildiz Technical University, Department of Statistics,34220, Esenler, Istanbul, Turkey
[email protected] ; [email protected]
1.
Introduction
Factors determining mathematics achievement of students attract great attention from researchers. Although
there is not a simple system explaining mathematics achievement, past studies suggest that three main factors
take part in explaining it, namely family and student background, student motivation and school or teacher
related factors. Each factor has many sub-categories that may be related to mathematics achievement.
In this work, possible factors effecting mathematics achievement for 4848 Turkish students are investigated
using Bayesian network (BN). Data is gathered from The Programme for International Student Assessment
(PISA) which is a triennial international survey which aims to evaluate education systems worldwide by testing
the skills and knowledge of 15-year-old students [1].
Regression models, structural equation models, panel estimation techniques and regression trees are widely
preferred statistical methods in educational framework. But this work applies BN to an educational data for the
first time.
2.
Bayesian network
Bayesian network is a graphical model that efficiently visualizes relations between variables using the Bayes
theorem. In a BN, variables are represented by nodes and relations between variables are illustrated with directed
arcs. BNs are especially useful when number of variables is high. They are also capable of revealing indirect
influences as well as direct influences. A BN consist of two parts: A structure part and a parameters part [2].
Structure part is given by the graph part of the BN and parameter part is given by the probabilistic information
contained in the node parts of the graph.
3. Revealing factors on Mathematics achievement
A BN is constructed using 22 variables. Definition of variables is given in Table-1. The BN can be seen in
Figure-1. In Figure-1, mathematics grade is directly linked to various factors such as mathematics anxiety, grade
repetition, familiarity with mathematical concepts, home possessions, classroom size, disciplinary climate,
parents’ education in years, mathematical self-efficacy and attending to kindergarten. Another variable that plays
a central role is home possessions which have interactions with many variables.
Table-1: Variable codes in PISA2012 and their descriptions
PISA 2012 NAME
ST04Q01
ST05Q01
REPEAT
ANXMAT
BELONG_Gruop
CULTPOS_Gruop
DISCLIMA_Group
FAILMAT_Group
HEDRES
hisei
HOMEPOS
Description
Gender
Attend kindergarten
Grade Repetition
Mathematics Anxiety
Sense of Belonging to School
Cultural Possessions
Disciplinary Climate
Attributions to Failure in
Mathematics
Home educational resources
Highest parental occupational
status
Home Possessions
MATHEFF
MTSUP
OUTHOUR
SCMAT
STUDREL
TEACSUP
PV1MATH
hisced
School_Locate
CLASS_SIZE
Pared
Mathematics Self-Efficacy
Mathematics Teacher's Support
Out-of-School Study Time
Mathematics Self-Concept
Teacher Student Relations
Teacher Support
Mathematics Grade
Highest educational level of
parents
School Location
Class size
Highest parental education in
years
13
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Figure 1. BN of Turkish students’ mathematics achievement.
REFERENCES
[1] OECD (2013), PISA 2012 Assessment and Analytical Framework: Mathematics, Reading, Science,
Problem Solving and Financial Literacy, OECD Publishing.
[2] Tonda A., Lutton E., Squillero G., and Wuillemin P.H. (2013), A memetic approach to Bayesian network
structure learning, in Applications of Evolutionary Computation, A.I. Esparcia-Alczar, ed.,
Springer, Berlin, Heidelberg, 2013, pp. 102–111.
ABSTRACT
WHAT DETERMINES MATHEMATICS ACHIEVEMENT: A BAYESIAN NETWORK APPROACH
In this work, possible factors effecting mathematics achievement for 4848 Turkish students are
investigated using Bayesian network (BN). Bayesian network is a graphical model that efficiently visualizes
relations between variables using the Bayes theorem. In a BN, variables are represented by nodes and relations
between variables are illustrated with directed arcs. Results showed that mathematics grade is directly linked to
various factors such as mathematics anxiety, grade repetition, familiarity with mathematical concepts, home
possessions, classroom size, disciplinary climate, parents’ education in years, mathematical self-efficacy and
attending to kindergarten.
Key Words: Bayesian network, Mathematics achievement, PISA
14
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
BAYESIAN ESTIMATION OF THE PARAMETERS OF THE ARCH
MODEL USING LINDLEY’S APPROXIMATION
Yakup ARI a and Alexandros PAPADOPOULOS b
a
b
1.
Financial Economics, Yeditepe University, Ataşehir/İSTANBUL. [email protected]
Department of Mathematics, Yeditepe University, Ataşehir/İSTANBUL. [email protected]
Introduction
The basic idea of the ARCH model is that the error term
dependent on its p squared lag values. The dependence of
its lagged values. The ARCH(p) model assumes that
of an asset return is serially uncorrelated, though
can be described by a simple quadratic function of
(1)
Engle [1] used the ML method to estimate the unknown parameters
. Another commonly used
estimation procedure for an ARCH model is the QMLE, whose asymptotic properties have been extensively
studied.
The purpose of this study is applying Lindley’s approximation to derive Bayesian estimators for the parameters
of the ARCH(p) model, using squared error (SE) and linear exponential (LINEX) loss functions and when the
innovations are distributed according to the standard normal or a standardized student-t distribution.
2.
Methodology
Lindley [2] developed approximate procedures for the evaluation of the ratio of two integrals which are in the
form of
(2)
where
,
is the logarithm of the likelihood function, and
) and
arbitrary functions of . The posterior expectation of the function
, for given , is
are
(3)
where
is the the posterior distribution of
except for the normalizing constant and
). Expanding
in equation (4) into a Taylor series expansion about the ML estimates
is asymptotically estimated by
of .
(4)
where
and
, and
is the
element of the inverse matrix
and all are evaluated at the MLE of the parameters.
Under the assumption that the innovations follow the the standard normal or a standardized student-t and that the
parameters behave as random variables with
having a gamma or vague prior and
a Dirichlet prior,
the posterior density is derived which is not a closed form. Therefore, for the estimation of the parameters of the
ARCH(1) and ARCH(2) models Lindley’s approximation is used. Finally, an example is given to illustrate the
findings of previous sections. In order to compare the different types of estimators a computer simulation study
is done.
3.
Results
15
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
The Bayesian and ML estimators were compared by means of Monte Carlo simulations with different sample
sizes. In particular the sample sizes are 200, 400, 600, 800 and 1000. The prior for
is a gamma or an improper
prior and for
Dirichlet function. Using the mentioned innovations, sample sizes and priors the
ML and Bayes estimates of the parameters were obtained under a SE and LINEX loss functions.All the results
are based on 1000 repetitions.
It is observed that as the sample sizes increase the mean square errors (MSEs) and mean errors (MEs) decrease.
This should be expected since the MLEs are consistent. Also, as expected for all the estimates when the sample
sizes increase the MSEs and MEs decrease. In all cases the MSEs and MEs when proper priors are used for the
Bayes estimates are smaller than the ones corresponding when an improper prior is used for
and to the MLE
estimates. Finally, there is little difference between the MSEs and MEs when an improper prior for
is utilized.
REFERENCES
[1] R. F. Engle (1982), Autoregressive conditional heteroscedasticity with estimates of the variance of United
Kingdom inflation, Econometrica,
[2] D.V. Lindley (1980), Approximate Bayes methods, Trabajos de Estadistica 3
[3] M. Mahmoud (1991), Bayesian Estimation of the 3-parameter Inverse Gaussian Distribution, Trabajos de
Estadistica 6
ABSTRACT
BAYESIAN ESTIMATION OF THE PARAMETERS OF THE ARCH MODEL USING LINDLEY’S
APPROXIMATION
The procedure that is most commonly used for estimating the unknown parameters of an ARCH model is
the maximum likelihood estimation (MLE). In this study, it is assumed that the parameters of the ARCH model
are random variables having known prior probability density functions, and therefore they will be estimated
using Bayesian methods. The Bayesian estimators are not in a closed form, and thus Lindley’s approximation
will be used to estimate them. The Bayesian estimators are derived under squared error loss (SEL) and linear
exponential (LINEX) loss functions. An example is given in order to illustrate the findings and furthermore,
Monte Carlo simulations are performed in order to compare the ML estimates to the Bayesian ones. Finally,
conclusions on the findings are given.
Key Words: ARCH, QMLE method, Lindley’s Approximation, Bayesian Methods, SEL, LINEX
16
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
SESSION 1
İSTATİSTİK TEORİSİ 1
17
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
FGM ve FRANK KOPULALARI İÇİN İKİ DEĞİŞKENLİ RİSK
ÖLÇÜMLERİNİN KARŞILAŞTIRILMASI
Ömer L. GEBİZLİOĞLU ve Emel KIZILOK KARA*
Kadir Has Üniversitesi, İktisadi, İdari ve Sosyal Bilimler
Fakültesi,Uluslararası Ticaret ve Finans Bölümü,
Cibali, 34083 İstanbul, Türkiye
[email protected]
1.
Kırıkkale Üniversitei, Fen Edebiyat Fakültesi,
Aktüerya Bilimleri Bölümü,
Yahşihan,71450, Kırıkkale, Türkiye
[email protected]
Giriş
Bu çalışmada, iki değişkenli kuzey-güney kuantil noktası (North-South Bivariate Quantile Point-NSBQP)
yaklaşımı kullanılarak bağımlı riskler için iki değişkenli risk ölçümleri elde edilmiştir. Burada, Riske Maruz
Değer (Value at Risk-VaR) ve Koşullu Riske Maruz Değer (Conditional Value at Risk-CVaR) risk ölçümleri
kullanılmıştır. Bağımlı riskler, kopula yaklaşımı ile modellenmiştir. Farlie-Gumbel- Morgenstern (FGM) ve
Frank kopulaları için iki değişkenli VaR ve CVaR risk ölçümleri hesaplanarak karşılaştırmalı sonuçlar
verilmiştir.
2.
Risk ölçümleri
Finans ve aktüerya gibi önemli risk kararlarının alındığı alanlarda risk ölçümlerinin hesaplanması önemlidir. Bu
anlamda VaR ve CVaR uygulamada sık kullanılmaktadır. Denuit et al. [1] tarafından, bir X rasgele değişkeni
için
,
ve
,
ile tanımlanır.
3.
Kopula
Gerçek yaşamda, risk olaylarının çoğunda bağımlılık durumu ile karşılaşılır. Kopulalar da böyle durumların
modellenmesi için önemli bir araçtır. İlk defa Sklar [4] tarafından verilmiş kopula tanımında;
) ve
sürekli marjinal fonksiyonları,
kopula fonksiyonunu göstermek üzere, X ve Y rasgele
değişkenlerinin arasındaki bağımlılık yapısı
şeklinde ifade edilen ortak dağılım
fonksiyonu ile açıklanır.
Bu çalışmada kullandığımız FGM ve Frank (F) kopulalarının dağılım fonksiyonları aşağıdaki gibi tanımlanır.
(Nelsen [2] ) .
4.
Bağımlı iki değişkenli risk ölçümleri
rasgele vektörünün iki değişkenli VaR ölçümünü elde etmek için Chen and Welsh [3] tarafından verilmiş
kuzey-güney kuantil yöntemini kullanıyoruz. Bu yönteme dayalı iki değişkenli VaR vektörünü
18
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
şeklinde
tanımlıyoruz.
de
şeklinde ifade edilebilir.
Dolayısıyla,
iki
değişkenli
bileşenleri ile
CVaR
vektörü
FGM kopulası için Kizilok Kara ve Gebizlioglu [5] tarafından bu yolla elde edilen iki değişkenli VaR ve CVaR
ölçümleri bu çalışmada geliştirilmiştir. Frank kopulası için de benzer çıkarımlar yapılarak, sonuçlar risk
yönetimi kararlarında önemli olan bazı risk nicelikleri bakımından karşılaştırılmıştır.
REFERENCES
[1] Denuit M., Dhaene J., Goovaerts M.J., Kaas R. (2005), Actuarial Theory for Dependent Risks; Measures,
Orders and Models, John Wiley and Sons.
[2] Nelsen R.B. (2006), An Introduction to Copulas, 2nd edition, Springer, New York.
[3] Chen L.A., Welsh A.H. (2002) , Distribution function based bivariate quantiles, Journal of Multivariate
Analysis, 83, 208-231.
[4] Sklar A. (1959), Functions de repartition an dimensions at leurs marges. Publ. Inst. Statist, Univ. Paris, 8,
229-231.
[5] Kizilok Kara E., Gebizlioglu O.L. (2014), Measurement of bivariate risks by the north-south quantile point
approach, Journal of Computational and Applied Mathematics, 255, 208-215.
19
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
BUDANMIŞ (TRIMMED) OLABİLİRLİK TAHMİN EDİCİLERİ
Nuri ÇELİK
Bartın Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 74100, Bartın
[email protected]
1.
Budanmış Olabilirlik Tahmin Edicileri
İstatistikte en sık kullanılan nokta tahmin yöntemlerinden biri en çok olabilirlik tahmin yöntemidir. En
çok olabilirlik yöntemi olabilirlik fonksiyonunu maksimum yapma ilkesine dayanır. Buna göre
kitle
olasılık yoğunluk fonksiyonu olmak üzere en çok olabilirlik tahmin edicisi,
(1)
Burada
olabilirlik fonksiyonu olup
eşitliğiyle hesaplanır. Bulunan en çok olabilirlik
tahmin edicilerinin değişmezlik, tutarlılık ve asimptotik normallik gibi çıkarımsal istatistikte çok kullanılan
önemli özellikleri mevcuttur. Ancak, en çok olabilirlik tahmin edicileri uç değerlere (outlier) karşı hassastır ve
dolayısıyla sağlam (robust) değildir.
Uç değerler, diğer verilerle karşılaştırıldığında veri setine uygun olmadığı düşünülen aşırı değerlerdir.
Dolayısıyla, literatürde uç değerlerden etkilenmeyen istatistik tahmin yöntemleri geliştirilmiştir. Bu çalışmada
budanmış olabilirlik yöntemi (trimmed likelihood estimator) ele alınmıştır.
Buna göre,
bağımsız ve aynı dağılıma sahip rasgele değişkenler olmak üzere
rasgele
değişkeninin olasılık yoğunluk fonksiyonu
olsun.
) gözlem vektörü olmak üzere her
bir gözlemin log-olabilirlik fonksiyonu
olarak gösterilebilir. Söz konusu log-olabilirlik
toplamını maksimum yapmak en çok olabilirlik yöntemi iken, budanmış olabilirlik yöntemine göre logolabilirlik fonksiyonları küçükten büyüğe sırlandıktan sonra en büyük h log-olabilirlik değerini budamayla
ulaşılacak fonksiyonu maksimum yapmaya dayanır. Başka bir deyişle,
(2)
olarak hesaplanır. Burada N-h gözlem budanmış olup,
şeklinde
ifade edilebilir.
Budanmış olabilirlik tahmin edicileri bilinen varyanslı normal dağılım varsayımı altında en küçük
budanmış kareler (least trimmed squares) tahmin edicileriyle aynı işlevi görmektedir (Rousseeuw, 1984, 1985).
Rousseeuw (1984, 1985) ve Müller (1995) ve budanmış olabilirlik tahmin edicilerinin normal dağılım varsayımı
altında tutarlı ve asimptotik normal olduğunu göstermişlerdir. Ayrıca tahmin edicilerin yüksek kırılma noktası
(breakdown point) olduğu da gösterilmiştir.
Kaynaklar
[1] Müller, C. H. (1995). Breakdown points for designed experiments. J. Statist. Plann. Inference. 45,
413-427.
[2] Rousseeuw, P. J. (1984). Least median of squares regression. J. Amer. Statist. Assoc. 79, 851-857.
[3] Rousseeuw, P. J. (1985). Multivariate estimation with high breakdown point. Mathematical Statistics
and Applications, Vol. B, eds. W. Grossman, G. Pflug, I. Vincze and W. Wertz. Reidel, Dordrecht, 283-297.
20
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
ABSTRACT
TRIMMED LIKELIHOOD ESTIMATORS
In statistics, Maximum Likelihood (ML) estimation method has been widely used for estimate the
unknown parameters. Under regularity conditions ML estimators have nice properties like consistency and
asymptotic normality. However, ML estimators are sensitive to outliers for this reason, they are not robust. In
this paper trimmed likelihood (TL) estimation method is introduced. Also, the robustness and other properties of
TL estimators are shown. The simulation study and real life example are given at the end of the study for
strengthen the theory.
Keywords: Maximum Likelihood, Trimmed Likelihood, Outlier, Robustness
21
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
GENETİK ALGORİTMAYA DAYALI YENİ BİR SAĞLAM
KORELASYON KATSAYISI
Vedide Rezan USLU1, Keziban KILIÇ TOPAL1*
1
1.
Ondokuz Mayıs Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 55139, Samsun, TÜRKİYE,
E-mail: [email protected], * [email protected]
Giriş
İki değişken arasındaki doğrusal ilişkinin gücü ve yönünün sayısal olarak ifade edilmesi korelasyon olarak ifade
edilir. Bu ilişkinin gücü ve yönünü gösteren sayısal değere de Korelasyon Katsayısı denir. Korelasyon
katsayısını tahmin etmek ve istatistiksel çıkarım yapabilmek için verinin genellikle iki değişkenli normal
dağılıma sahip olduğu varsayılır. Pearson [1] birçok araştırmacı tarafından çok sık kullanılan Pearson korelasyon
katsayısına matematiksel bir formül geliştirilerek bilime büyük katkıda bulunmuştur.
Pearson korelasyon katsayısı ortalamalara dayalı bir formüle sahip olduğu için örneklem verisinde olabilecek
aykırı değerlerden oldukça olumsuz etkilenir. O halde veri içerisindeki aykırı gözlemlerden daha az etkilenen
veya aykırı değer olarak nitelendirdiğimiz gözlemleri değil de geriye kalan çoğunluk gözlemlerin davranışını
temsil edebilecek bir korelasyon katsayısı hesaplamasına gerek duyulmaktadır. Abdullah [2] sıklıkla kullanılan
Pearson, Spearman ve Kendall korelasyon katsayılarını ve önemli derecede aykırı gözlem olduğu durumlarda
aykırı gözlemlerin bu korelasyon katsayılarına etkisini incelemiştir. Bu korelasyon katsayılarına alternatif olarak
aykırı gözlemlerden daha az etkilenen En Küçük Medyan Kareler (EKMK) yöntemine dayanan yeni bir
korelasyon katsayısı önermiştir. Niven ve Deutsch [3] orijinal verinin alt kümelerinden ya da farklı
kombinasyonlar kullanılarak hesaplanan ağırlıklı ortalamaya dayanan sağlam bir korelasyon katsayısı
hesaplayarak yeni bir yöntem geliştirmiştir. Yöntem adının baş harflerini yansıtan LOOT kısaltması ile bilinen
Leave One Out korelasyon katsayısı α ağırlık üssü parametresine dayanmaktadır. Ancak α için çok kesin bir
değer belirtilmemiştir. Bu çalışmada bu dezavantaj dikkate alınmış ve buradan hareketle α ağırlık üssü için
sezgisel algoritmalardan genetik algoritma (GA) kullanımı önerilmiştir. Yapılan bu çalışma sonunda genetik
algoritmaya dayalı yeni bir sağlam korelasyon katsayısı önerilmiş ve literatürdeki denklerine göre daha doğru
sonuçlar sunduğu ortaya çıkarılmıştır.
2. Uygulama
Yöntemin performansının değerlendirilmesi amacıyla literatürde sıklıkla kullanılan bir gerçek hayat verisi olan,
1931-1943 yılları arasında ocak ayı için Kootenay nehri üzerinde iki farklı noktadaki Newgate ve Libby su akım
ölçümlerini gösteren veri kullanılmıştır (Rousseeuw ve Leroy [4]). Kullanılan veri setinin orijinal hali üzerinde
aykırı gözlem sayılabilecek bir değişiklik yapılmış ve yeni veri ile analizler yapılmıştır. Veri setinde yalnızca bir
tane aykırı gözlem olduğunda, önerilen yöntem ile LOOT yönteminden elde edilen korelasyon katsayısı ve diğer
korelasyon katsayıları karşılaştırılmıştır. Genetik algoritma parametreleri kullanılarak genetik algoritmanın
adımları uygulanmış ve LOOT yöntemindeki α ağırlık üssü parametresi için en uygun değer belirlenmiştir.
Kullanılan veriye ilişkin en iyi korelasyon katsayısı farklı durumlar incelendiğinde, genetik algoritma
parametreleri itr(iterasyon sayısı)=1000, ks(kromozom sayısı)=30, es(elenecek kromozom sayısı)=8,
co(çaprazlama oranı)=0.7 ve mo(mutasyon oranı)=0.1 olarak alındığında değişkenler arasındaki korelasyon
katsayısı (
0.9452 bulunmuştur ve α değeri 8.75 bulunarak en iyi korelasyon katsayısı elde edilmiştir.
Çizelge 1’ de sırasıyla Pearson, Spearman, Kendall, LOOT ve önerilen yöntemden elde edilen korelasyon
katsayıları verilmiştir.
Çizelge 1. Korelasyon katsayıları
Korelasyon
katsayıları
Korelasyon
sonuçları
-0.0441
0.5674
0.5973
0.9033
22
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
0.9452
KAYNAKLAR
[1]
[2]
[3]
Pearson, K., 1896, Mathematical contributions to the theory of evolution: III. Regression, heredity, and
panmixia, Philosophical Transactions of the Royal Society, 187, 253-318.
Abdullah, M. B., 1990. On a robust correlation coefficient, Journal of the Royal Statistical Society.
Series D (The Statistician),39(4), 455–460.
Niven E. B., Deutsch C. V., 2012. Calculating a robust correlation coefficient and quantifying its
uncertainty, Computers & Geosciences, 40, 1-9.
[4]
Rousseeuw, P. J., Leroy, A.M. 1987. Robust regression and outlier detection. New York: Wiley.
[5]
Karaboğa, D., 2004. Yapay Zeka Optimizasyon Algoritmaları, Atlas Yayın Dağıtım, İstanbul.
ABSTRACT
A NEW ROBUST CORRELATION COEFFICIENT BASED ON THE GENETIC ALGORITHM
The aim of robust methods is to ensure high stability of statistical inference under the deviations from the
assumed distribution model. The well-known Pearson correlation coefficient gives actually the direction and
severity of the linear relationship between two variables. Since this correlation coefficient gives equal weights to
all observations the data with one or more outliers can be hidden the severe correlation between the variables in
actual.
In this study, some other type correlation coefficients which are robust to the outliers and are known in
statistical literature, are discussed. Moreover, we propose a new robust correlation based on the “leave one
out” correlation coefficient in which the weight parameter α is generated by genetic algorithm.
Key Words: Correlation Coefficient, Outliers, Robust Correlation Coefficients, Genetic Algorithm.
23
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
GENEL KARMA LİNEER MODEL ALTINDA RASGELE ETKİLER İÇİN
BLUP’ların KOVARYANS MATRİSLERİ
Nesrin GÜLER
Sakarya Üniversitesi, Fen Edebiyat Fakültesi, istatistik Bölümü, Sakarya, Türkiye
nesring@sakarya. edu.tr
1. Genel Karma Lineer Model
rasgele hata vektörü ve
rasgele etkilerin vektörü olmak üzere,
ya da diğer bir gösterimi
M = {y, X β + Zu, D, R, K}
(1)
olan genel karma lineer model ele alınsın. Bu modelde E (u) = 0, E (𝜺) = 0, cov (u) = D ve cov (𝜺) = R olmak
üzere, u ile 𝜺 vektörlerinin ilişkili yani cov (𝜺, u) = K olduğu kabul edilmektedir, yani
cov
(2)
ve dolayısıyla cov(y) = ZDZ' + R + ZK + KZ' := ∑ olarak yazılabilir.
2.
BLUP
y vektörü tarafından üretilen ve lineer tahmin edicileri içeren
kümesi göz önüne
alınsın. Bu L kümesinin elemanları arasından en iyi olanı belirlemek için bazı ölçütler vardır. Bir tahmin
edicinin yansız olmasının yanı sıra, bu ölçütler arasında en çok kullanılanlardan biri Löwner sıralamasına göre
kovaryans matrislerinin karşılaştırılmasına dayanır. Her
için E (Ay) = E (u) = 0, yani bir başka
deyişle E (Ay - u) = 0 ise, Ay lineer ön tahmin edicisi u rasgele vektörü için yansızdır. Bu lineer yansız ön
tahmin edici diğer tüm yansız ön tahmin ediciler arasında Löwner sıralamasına göre en küçük kovaryans
matrisine sahipse en iyi lineer yansız ön tahmin edici (BLUP) olarak tanımlanır. Yani E (By - u) = 0 olacak
şekildeki her By vektörü için
dir [1]. Ay = BLUP(u|M) olmak üzere A matrisi, temel BLUP denklemi olarak bilinen aşağıdaki
denklem vasıtasıyla belirlenir [2]:
(4)
Tahmin edicilerin kovaryans matrisleri, tahmin edicilerle ilgili özellikleri belirlemekte önemli bir role
sahiptir. Matrislerin rankları ve ranklarla ilgili sonuçlar, bu özellikleri belirlemede kullanılan yöntemlerden
biridir [3]. Bu çalışmanın amacı, rasgele etkiler vektörünün BLUP’ının kovaryans matrisini diğer bir yansız ön
24
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
tahmin edicinin kovaryans matrisi ile karşılaştırmaktır. Kovaryans matrislerinin karşılaştırması, ranklar ve
katlılığı ile birlikte sayılan pozitif ve negatif özdeğerlerin sayısı ile ilgili özellikler kullanılarak yapılmaktadır.
KAYNAKLAR
[1] Haslett, S. J. & Puntanen, S. (2011), On the equality of the BLUPs under two linear
mixed models, Metrika, 74, 381-395.
[2] Christensen, R. (2002), Plane answers to complex questions: the theory of linear models,
3rd edn. Springer, New York.
[3] Tian, Y. (2010), Equalities and inequalities for inertias of hermitian matrices with
applications, Linear Algebra Appl., 433, 263-296.
ABSTRACT
COVARIANCE MATRICES OF BLUPS FOR RANDOM EFFECTS UNDER GENERAL
MIXED LINEAR MODEL
In this note, the general mixed linear model
is considered under the
assumption that the random vectors can be correlated. We give some equalities based on ranks and inertias of
the covariance matrices for the best linear unbiased predictors (BLUPs) to compare the covariance matrices of
BLUPs and other predictors.
Key Words: BLUP, general mixed linear model, inertia, rank.
25
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
SESSION 1
YÖNEYLEM ARAŞTIRMASI
26
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
KRİTER AĞIRLIKLANDIRMA YÖNTEMLERİNİN
KARŞILAŞTIRILMASI
Nezih TAYYAR ve Mert DURMUŞ
Açık İletişim Adresi: Uşak Üniversitesi 1 Eylül Kamp. İktisadi ve İdari Bilimler Fakültesi B Blok Kat:2
No:27
E-mail: [email protected], [email protected]
1.
Giriş
Karar verme işlevinin hayatın içinde oldukça büyük bir yere ve öneme sahip olduğu bilinmektedir. Karar
verme, belirlenen amaç ve hedefe ulaşmak için alternatif durumlar arasından seçim yapma eylemi olarak
tanımlanmaktadır (Forman ve Selly, 2001:1). Alternatif sayısı ile birlikte verilecek karara büyük etkisi olan
kriter sayısının da artması durumu karar verme sürecini uzatmakta ve zorlaştırmaktadır. Bu bağlamda çok kriterli
karar verme (ÇKKV) problemlerinin çözümünde kullanılan ağırlık belirleme yöntemleri, kriter önemlerinin
belirlenmesi ve karar vericiler için en iyi ve tatmin edici sonucun elde edilmesinde ciddi önem taşımaktadır
(Zardari vd., 2015). Bu önemine binaen yapılan literatür taraması sonucunda 1965 yılından 2015’e kadar kriter
ağırlıklandırma yöntemleriyle doğrudan ilgili toplam 24 çalışma yapıldığı görülmüştür. Bu çalışmanın konusu
kriter ağırlıklandırma yöntemlerinin ÇKKV sürecindeki önemi ve bu alanda gerçekleştirilen çalışma sayısındaki
yetersizlik göz önünde bulundurularak belirlenmiştir. Çalışmada Max100, SWARA ve İkili Karşılaştırma ağırlık
belirleme yöntemlerinin değişkenlik düzeylerine göre kullanım koşullarının öğrenilmesi amaçlanmıştır. Ayrıca
bu üç yöntemin kullanım kolaylıkları ve karar vericiler için güvenilirlik düzeyleri de incelenmiştir. Yöntemlerin
uygulanabilmesi için ise katılımcıların kolay bir şekilde hâkim olabileceği düşünülen otomobil seçim örneği
kullanılmıştır. Uygulama için 139 kişilik örneklemden faydalanılmıştır. Bu çalışmanın kriter ağırlıklandırma
yöntemleriyle ilgili daha önce yapılan çalışmalardan en büyük farkı, 2010 yılında geliştirilen SWARA (Stepwise Weight Assessment Ratio Analysis) yönteminin (Keruliene vd., 2010) ilk kez bu çalışmayla kriter
ağırlıklandırma yöntemleriyle karşılaştırılmış olmasıdır. İkincisi, karşılaştırılan yöntemler için kullanım koşulları
önerilmesidir. Üçüncüsü ise özellikle öznel kriter ağırlıklandırma yöntemleri üzerine yapılmış detaylı bir çalışma
olmasıdır.
2.
Sonuç ve Tartışma
Anketleri yanıtlayan 139 kişinin otomobil alırken göz önünde bulundurulan beş kritere göre kişisel
tercihleri arasında fark olmasına rağmen ortalamalarına göre üç yöntemin kriter önem sıralarının aynı çıktığı
görülmüştür. Yöntemlerin üçünde de güvenlik kriteri birinci, yakıt tüketimi ikinci, performans üçüncü, konfor
dördüncü ve görsel çekicilik beşinci sırada yer almıştır. Yöntemlerin verdiği sıralamalar aynı olsa da ağırlık
ortalamalarının birbirinden farklı olduğu gözlemlenmiştir. En önemli kriter olan güvelik kriteri için Max100,
SWARA ve İkili Karşılaştırma’nın ortalamaları sırasıyla %24, %28 ve %38 olarak bulunmuştur. En az önem
verilen görsel çekicilik kriteri için ise Max100, SWARA ve İkili Karşılaştırma’nın ortalamaları sırasıyla %18,
%17 ve %12 olarak bulunmuştur.
Dağılım Aralığı
0.6
0.425
0.4
0.2
0.202
0.114
0.0
Max100
İkili Karşılaştırma
SWARA
Yöntemler
27
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Şekil 1. Yöntemlere Göre Ağırlıklıların Dağılım Aralıkları
Şekil 1’deki ortalama dağılım aralıkları dikkate alındığında Max100’ün %11,4, SWARA’nın %20,2 ve
İkili Karşılaştırma’nın ise %42,5’tir. Kriter ağırlıklarının yöntemlere göre aldıkların ortalama değerler ve dağılım
aralıkları göz önünde bulundurulduğunda, İkili Karşılaştırma’nın en yüksek, SWARA’nın orta düzeyde ve
Max100’ün en düşük seviyede değişkenliğe sahip olduğu gözlemlenmiştir. Çalışma sonunda katılımcıların
Max100’ü kullanımı en kolay yöntem olarak seçtikleri ve üç yöntemi de güvenilir buldukları görülmüştür.
Ayrıca çalışmadan elde edilen sonuçlara dayanarak değişkenliğin az olması istenilen ÇKKV problemlerinde
Max100, değişkenliğin orta düzeyde olması istenildiği durumda SWARA ve değişkenliğin yüksek seviyede
olması istenildiği durumlarda İkili Karşılaştırma yönteminin kullanılması önerilebilir.
KAYNAKLAR
Forman, E. H. & Selly, M. A. (2001). Decision by Objectives: How to Convince Others that You are Right.
World Scientific Press.
Kersuliene, V., Zavadskas, E. K. & Turskis, Z. (2010). Selection of rational dispute resolution method by
applying new step-wise weight assessment ratio analysis (SWARA), Journal of Business Economics and
Management 11(2), 243–258.
Zardari, N. H., Ahmed, K., Shirazi, S. M. & Yusop, Z. B. (2015). Weighting Methods and their Effects on MultiCriteria Decision Making Model Outcomes in Water Resources Management. Springer, New York.
ABSTRACT
COMPARING CRITERIA WEIGHTING METHODS
The aim of this study is to compare Max100, Pairwise Comparison and SWARA weighting methods
according to their variability statistics on related criteria for an automobile selection problem. According to the
findings of the study, variability of Pairwise Comparison method is higher than Max100 and SWARA methods.
In addition, Max100 is the easiest method to use whereas Pairwise Comparison is the most reliable method.
Key Words: Multiple Criteria Decision Making (MCDM), Max100, SWARA, Pairwise Comparison, Weighting
Methods, Criteria Weighting, Automobile Selection
28
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
SINAV PROGRAMI ÇİZELGELEME PROBLEMİ İÇİN KARIŞIK
TAMSAYILI PROGRAMLAMA MODELİ
Hakan ALTUNAY1, Tamer EREN2
1
Fırat Üniversitesi, Mühendislik Fakültesi, Endüstri Mühendisliği Bölümü, Elazığ, [email protected].
2
Kırıkkale Üniversitesi, Mühendislik Fakültesi, Endüstri Mühendisliği Bölümü, Kırıkkale,
[email protected].
Çizelgeleme, hizmet veya mamul üreten herhangi bir işletmede, matematiksel veya sezgisel teknikler yardımı ile
sınırlı kaynakların, tamamlanması gereken görevlere en uygun şekilde tahsis edilmesini amaçlamaktadır [1].
Etkin bir çizelgeleme süreci yardımıyla belirlenen faaliyetlerin, daha az kaynak kullanılarak ve daha kısa sürede
tamamlanabilmesi sağlanır [3]. Kurum ve sektörlere göre farklılık gösteren bu faaliyetler; hastanelerdeki sağlık
personelinin çalışma saatlerinin düzenlenmesi, belediyelerdeki toplu taşıma araçlarının hareket saatlerinin
belirlenmesi veya üniversite ve okul gibi eğitim kurumlarındaki ders veya sınav programlarının hazırlanması gibi
zamana bağlı aktiviteleri ifade edebilmektedir. Tüm bu örnekler gibi haftalık veya günlük olarak planlanması
gereken faaliyetler zaman çizelgeleme problemleri kapsamında değerlendirilmektedir [4]. Zaman çizelgeleme;
sınav, ders ve toplantı gibi faaliyetlerin, bazı kısıtlamalar dikkate alınarak, en uygun zaman dilimlerine
yerleştirilmesidir [2].
Sınav programı çizelgeleme problemi de 1960’lı yıllardan beri üzerinde çalışılan bir tür zaman çizelgeleme
problemidir. Sınav programı çizelgeleme faaliyeti bütün eğitim kurumlarını ilgilendiren temel bir aktiviteye
dayanmaktadır. Okullar ve üniversitelerdeki dönemler içerisinde uygulanması gereken sınavların, sorumlu
öğrenci grupları ve aday gözetmenlere atanarak, çakışmaları önleyecek şekilde belirli zaman dilimleri ve
dersliklere yerleştirilmesi işlemi sınav programı çizelgeleme problemi olarak tanımlanmaktadır. Bu çalışmada,
sınav programı çizelgeleme probleminin çözümü için yeni bir karışık tamsayılı programlama modeli önerilmiştir.
Önerilen model Fırat Üniversitesinde yapılan bir örnek uygulama ile test edilmiştir.
KAYNAKLAR
[1] Baker K.R. (1974), Introduction to Sequencing and Scheduling, John Wiley and Sons, New York.
[2] Burke E.K, Petrovic S. Qu R. (2006), Case-Based Heuristic Selection for Timetabling Problems, Journal of
Scheduling, Vol 9, no. 2, s. 115-132.
[3] Güldalı A. (1990), Seri İş-Akışlı Atölye Çizelgelemesinde Sezgisel Teknikler. Yüksek Lisans Tezi, Gazi
Üniversitesi, Ankara, Türkiye.
[4] Özyandı G. (2010), Ders Çizelgeleme Probleminin 0-1 Tamsayılı Programlama Tabanlı Uygulaması.
Yüksek Lisans Tezi, Gazi Üniversitesi, Ankara, Türkiye.
ABSTRACT
A MIXED INTEGER PROGRAMMING MODEL TO EXAMINATION TIMETABLING PROBLEM
Examination timetabling problem is a type of scheduling problem which refers to a process of assigning
exams, student groups and invigilators to suitable time slots and rooms. This problem is an extremely
challenging task that takes place in all academic institutions at each end of semester. Exam timetabling problem
is one of the most difficult combinatorial optimization problems and is considered to be NP-Hard. In this study,
we used mixed integer programming method that provides optimal solution for examination timetabling problem
in universities. This paper also includes an implementation that is the final examination timetable of Business
29
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Department in Fırat University. Finally, the obtained and existing timetable was compared and provided some
suggestions for future studies.
Key Words: Examination Timetabling Problem, Mixed Integer Programming, Scheduling, Operations Research.
ROBUST OPTİMİZASYON İLE TÜRKİYE ELEKTRİK ENERJİSİ
MODELİ
Prof Dr. Ayşen APAYDIN*
Leyla BİLEN KAZANCIK**
*Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü.
**
Ankara Üniversitesi, Fen Bilimleri Enstitüsü İstatistik Anabilim Dalı doktora öğrencisi.
[email protected]
1. Giriş
Kalkınmanın, rekabetin ve büyümenin temel unsurlarından olan enerji konusunda, literatürde dinamik
optimizasyon, karma tamsayılı doğrusal programlama, heuoristik optimizasyon gibi modelleri kullanan planlama
ve modelleme çalışmaları bulunmaktadır.
Türkiye için yapılan bu çalışmada, belirsizlik altında, 2023 yılına kadar elektrik enerjisi talebini minimum
maliyetle ve güvenilir bir şekilde karşılamak amacıyla kurulacak yeni üretim tesislerinin zamanlaması, miktarı
ve kompozisyonuna karar verilecektir.
Bu amaçla deterministik doğrusal programlama ile en kötü senaryoya odaklanan Soyster, tarafından geliştirilen
robust optimizasyon yöntemleri kullanılacaktır. Ayrıca fosil yakıtlı santrallerin tamsayılı olması için Soyster
yaklaşımının kullanıldığı modele dal-sınır algoritması da uygulanacaktır.
2. Uygulama
Kurulan modelde; maliyetler, talep edilen elektrik miktarı ve yenilenebilir enerji santrallerinin üretim miktarları
belirsiz olarak alınacaktır. Mevcut ve lisans almış santrallerin devreye girdiği yıl talep edilecek elektriği
karşılayamadığında oluşan açık, aday santraller tarafından karşılanacaktır. Buna göre, amaç fonksiyonu:
(1)
Burada;
i=1,2..14 yakıt türü ve kapasitesine göre sisteme ilave edilecek aday santralin tipini,
: i tipi aday santralin seviyelendirilmiş birim elektrik üretme maliyetini (yatırım, yakıt, bakım ve
işletme maliyetlerini içermektedir),
: t yılında i tipi aday santralden kaç tane kurulacağını,
: i tipi aday santralin yıllık üretebileceği elektrik miktarını
ifade etmektedir.
Modelin fosil yakıtlı karar değişkenleri: 150 MW gücünde akışkan yataklı linyit santral ünitesi, 360 MW
gücünde Elbistan tipi ünite, 300 MWgücünde taş kömürü, 500 MW gücünde ithal kömür, 700 MW gücünde
doğalgaz, 1000 MW gücünde nükleer santral ünitesi olarak belirlenmiştir. Yenilenebilir enerji santralleri ise; 3,6
MW gücünde küçük HES, 25 MW gücünde orta ölçekte HES, 100 MW gücünde büyük ölçekli, 40 MW gücünde
RES, 3 MW gücünde GES PV, 100 MW gücünde GES depolama özelliği olmayan CSP, 100 MW gücünde 6
saat depolamalı santral GES CSP, 30 MW gücünde binary jeotermal santralleri olarak tanımlanmıştır.
Kısıtlar:
İlave kapasite için alt sınırı:
T=2019,2020…2023
(2)
İlave kapasite için üst sınır:
T=2019, 2020…2023
(3)
Pik yük kapasite kısıtı:
i=7,10,11,12,13,14
(4)
Üretim kısıtları:
T=2019, 2020…2023; (5)
Burada;
: i. ilave edilebilecek aday santraller için yedek oranını (termik santraller için %15 ve yenilenebilir
enerji santralleri için %70’dir)
: t yılı için tahmin edilen kapasite açığı alt sınırı (MW),
: t yılı için tahmin edilen kapasite açığı üst sınırı (MW),
: t yılında mevcut ve lisans almış santrallerle karşılanamayan elektrik miktarını (GWh)
ifade etmektedir.
Model, Matlab ile deterministik doğrusal programlama olarak çözüldüğünde seviyelendirilmiş minimum toplam
üretim maliyeti 2.851.894.783$ olarak bulunmuştur. Soyster yaklaşımı ile çözüldüğünde 66 değişken ve 31
30
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
kısıtlı doğrusal programlama modeli, 128 değişkenli ve 154 kısıtlı bir yapıya dönüşmüştür. Seviyelendirilmiş
minimum toplam maliyet 3.394.077.073 $ olup, deterministik model sonucundan %19 daha fazla olmuştur. Dalsınır algoritması ile çözülen Soyster yaklaşımında minimum seviyelendirilmiş maliyeti 3.398.713.313 $ olan 3
uygun çözüm elde edilmiştir. Fosil yakıtlı santrallerin tamsayıya dönüştürülmesi deterministik doğrusal modele
göre maliyeti %19,2 artırmıştır.
Yöntem
Belirsizlik altında optimizasyon problemleri için geliştirilen robust optimizasyon, duyarlık analizi ve
stokastik programlama için tamamlayıcı bir yöntemdir. Belirsiz parametrenin sınırlandırılmış, dışbükey
belirsizlik kümesine ait olduğu varsayımı ile yapılmakta olan robust optimizasyon, belirlenen belirsizlik kümesi
üzerinden amaç fonksiyonunun maksimum değerinin minimizasyonunu bulmayı amaçlamaktadır. Bu nedenle en
kötü durum analizi olarak da adlandırılır. Bu yaklaşım 1970 yılında Sosyter ile başlamıştır (Düzgün, 2012).
Robust optimizasyon; belirsizlik kümesinin belirlenmesi ve robust eşdeğer problemin oluşturulması
olmak üzere iki temel aracı vardır (Li vd, 2012). Yaygın kullanılan belirsizlik kümeleri; kutu belirsizlik kümesi
(Soyster tarafından geliştirilmiştir), elipsoidal belirsizlik kümesi, poliherdan (çok yüzlü) belirsizlik kümesi ve
bunların kombinasyonu olarak ifade edilebilir. Doğrusal optimizasyon problemlerinde belirsizlik, amaç
fonksiyonlarında, sağ yan ya da sol yan değerlerinin hepsinde olabildiği gibi bir kısmında da olabilmektedir. En
genel haliyle belirsiz doğrusal optimizasyon problemi Eşitlik 6 ile ifade edilir.
(6)
Burada; ,
,
belirsiz parametrelerdir.
,
,
aralığında değer
alarak kendi ortalamaları etrafında simetriktir bir dağılıma sahiptir.
,
, ve
parametrenin nominal değerleri,
pozitif sabit dalgalanmaları,
belirsizlik
buluna katsayıların değişken indeksini içeren alt kümeyi,
ve
rastlantı değişkenlerini ifade etmektedir.
Rastlantı değişkenleri [-1,1] aralığında dağılmaktadır. Soyster yaklaşımında tüm parametrelerin belirsiz olduğu
durumda robust eşdeğer kısıt;
(8)
olarak ifade edilir.
Anahtar Kelimeler: Enerji, Elektrik sektörü, Robust optimizasyon
Kaynaklar
Ben-Tal A., Nemirovski A., 2000 “Robust solution of linear programmng problems contaminated with
uncertain
data”.
Mathematical
Programming,
Ser.
A
88:
411–424.
http://course.shufe.edu.cn/jpkc/jcjx/zyff/doc/tl13.pdf.
Li Z., Floudas C.A.,2012. “A Comparative Theoritical end Computational Study on Robust Counterpart
Optimization: II. Probabilistic Guarantees on Constraint Satisfaction” Industrial & Engineering
Chemistry Research: Volume 51, Issue 19 sf.6769–6788.
Moazeni, M., 2006. Flexible Robustness in Linear Optimization. Doktora tezi. Waterloo, Ontario, Canada,
TEİAŞ, 2011. Türkiye Elektrik Enerjisi Üretim Planlama Çalışması (2010-2030).
TEİAŞ, 2012, Türkiye Elektrik Enerjisi 10 Yıllık Üretim Kapasite Projeksiyonu (2012-2021).
ABSTRACT
TURKISH ELECTRICAL ENERGY MODEL WITH ROBUST OPTIMIZATION
The aim of this study is to determine the added electrical installed capacity at minimal cost in the long
term in Turkey. For this purpose, it will be decided which year, what type of fuel, and how much capacity is to be
added to installed capacity by considering resource constraints. In the study, robust linear programming model
which was developed Soyster, is preferred as a result of uncertainty in demand, cost of production and
production quantity. It will also be used in branch and bound algorithm.
Keywords: Energy, the Electricity sector, Robust optimization,
31
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
32
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
TAGUCHI DENEY TASARIMI YÖNTEMİNİN YAPI ENDÜSTRİSİNE UYGULANMASI
İbrahim ÖZDEMİR1, Pelin KASAP1, Başak MESCİ2, Aytül DUMLU2
1
2
Ondokuz Mayıs Üniversitesi, Fen-Edebiyat Fakültesi, İstatistik Bölümü, 55139, Kurupelit, Samsun
Ondokuz Mayıs Üniversitesi, Mühendislik Fakültesi, Malzeme Bilimi ve Mühendisliği Bölümü, 55139,
Kurupelit, Samsun
[email protected], [email protected],
[email protected],[email protected]
1. Giriş
Klasik deney tasarımı yöntemlerinin endüstri alanında kullanımı bazı durumlarda verimli olamamaktadır.
Sistemi etkileyen faktörlerin sayısı arttıkça gerekli olan deney sayısı da hızlı bir şekilde artmakta, maliyetler
yükselmekte, uygulamalar zorlaşmaktadır. Böyle durumlarda az sayıda deney ile optimal sonucun
belirlenebileceği Taguchi Deney Tasarımı yönteminin uygulanması daha verimli ve kolay olacaktır. Dr. Genichi
Taguchi, kendi adıyla anılan bu yaklaşımı ile deneylerin gerçekleştirilmesinde ve değerlendirilmesinde
verimliliği arttıracak bir çözüm getirmiştir (Taguchi [3]). Burada Taguchi’nin deney düzenlemek için geliştirdiği
yöntemlerin temelini, Dikey Dizimler oluşturmaktadır. Ayrıca Taguchi Deney Tasarımı yönteminde elde edilen
deney sonuçları Sinyal/Gürültü (Signal/Noise-S/N) oranına çevrilerek değerlendirilmektedir. Taguchi, 60’ın
üzerinde S/N oranından bahsetmektedir (Pignatiello [4]). En çok bilinen üç tanesi; en küçük en iyi, nominal en
iyi ve en büyük en iyi S/N oranlarıdır. Problemin amacına göre S/N oranı, kalite değerlerinin hedeflendiği değere
göre farklı şekillerde hesaplanabilir. S/N oranları için kullanılan formüller aşağıdaki gibidir:
1 n

S N   10 log  Yi2 
n

 i 1 
1 n 1 

S N   10 log 
 n Y2 
 i 1 i 

S N  10 log Y 2 S 2

,
en küçük en iyi yanıtı için
(1)
,
en büyük en iyi yanıtı için
(2)
,
nominal en iyi yanıtı için
(3)
Her üç tip problemde de amaç S/N oranını maksimize etmektir. En küçük en iyi yanıtı için hedef değer sıfır, en
büyük en iyi yanıtı için hedef değer sonsuz ve nominal en iyi yanıtı için hedef değer belirlenen değerdir.
Yapı endüstrisinde birçok malzeme kullanılmaktadır, fakat bir yandan yakıt giderlerinin artması bir yandan da
ülkemizin deprem kuşağında olması araştırıcıları ucuz, dayanıklı ve yalıtkan malzeme türleri aramaya
zorlamaktadır. Alçı kompozitler, bu amaca yönelik kullanılabilecek malzemelerdir. Tek başına alçı, ısıyı az
iletmesi, hafif ve ucuz olması gibi önemli avantajlara sahiptir. Fakat tüm bunların yanı sıra alçı, mekanik
dayanımı zayıf bir malzemedir. Bu yüzden olası kullanım alanlarını genişletmek ve sahip olduğu özellikleri
geliştirmek için dolgu malzemeleri ile güçlendirilmesi gerekmektedir.
Hem alçının kullanımını arttırmak hem de doğada atık olan malzemeleri azaltmak için alçı; kırpık atık araba
lastiği ve E-camı ile birleştirilerek sağlam bir kompozit malzeme oluşturulmak istenmektedir. Burada Su/Alçı
oranı (A faktörü), E-camı (B faktörü) ve kırpık atık araba lastiği (C faktörü) olmak üzere 3 faktör vardır. Su/Alçı
oranı faktörünün 0.6, 0.7, 0.8, E-camı faktörünün %1, %2, %3 ve kırpık atık araba lastiği faktörünün %0.5, %1
ve %2 olmak üzere üçer düzeyi vardır. Fakat alçı, kırpık atık araba lastiği ve E-camı faktörlerinin hangi
düzeyleri seçildiğinde daha optimal bir sonuç elde edileceğine karar vermek gerekmektedir. Bu nedenle
minimum maliyet ile deney yapmaya imkân sağladığı için Taguchi Yöntemi kullanılmıştır.
Bu çalışmada,
Dikey Dizimi kullanılmıştır ve Taguchi Yönteminin en büyük en iyi yanıtı formülü
kullanılarak elde edilen S/N oranları aşağıdaki gibi hesaplanmıştır:
33
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Çizelge 1. Taguchi
Deney Tasarımına göre deney sonuçları ve S/N oranları
Faktörler ve Seviyeleri
B
C
Kırpık atık
E-camı
Su/Alçı Oranı
araba lastiği
miktarı (%)
miktarı (%)
0,6
1
0,5
A
Deney No
1
Basınç
Dayanımı
S/N Oranı
8,32
18,4025
2
0,6
2
1
8,28
18,3606
3
0,6
3
2
9,05
19,1330
4
0,7
1
1
5,95
15,4903
5
0,7
2
2
5,93
15,4611
6
0,7
3
0,5
7,26
17,2187
7
0,8
1
2
3,20
10,1030
8
0,8
2
0,5
4,05
12,1491
9
0,8
3
1
4,35
12,7698
Yapılan analiz sonucunda Su/Alçı oranının 1. düzeyi, E-camı miktarının 3. düzeyi, Kırpık atık araba lastiği
miktarının 3. düzeyi birleştirilerek elde edilen kompozit malzemenin, yapı endüstrisinde kullanılmasının basınç
dayanımı bakımından optimal olduğu sonucuna ulaşılmıştır.
KAYNAKLAR
[1] Karna S. K., Sahai R., (2012), An Overwiev on Taguchi Method, International Journal of Engineering and
Mathematical Sciences, Vol. 1, pp. 1-7.
[2] Zaharis Z. D. (2012), A modified Taguchi’s Optimization Algorithm for Beamforming Applications,
Progress In Electromagnetics Research, Vol. 127, pp. 553-569.
[3] Taguchi, G. (1987), System of Experimantal Design: Engineering Methods to Optimize Quality and
Minimize Cost, UNIPUB, White Plains, New York.
[4] Pignatiello, J.J. (1988), An Overview of The Strategy And Tactics of Taguchi, IIE
Transactions, Vol.20, pp. 247
ABSTRACT
THE APPLICATION OF TAGUCHI EXPERIMENTAL DESIGN METHOD ON CONSTRUCTION
INDUSTRY
In this study, we try to increase poor mechanical properties of composite material using the Taguchi
Experimental Design method. We use
orthogonal array in experiment. Signal/Noise ratio is used to
evaluate the experiment results.
Key Words: Experimental design, Taguchi design, Signal-to-Noise ratio, Composite material.
34
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
SESSION 1
EKONOMETRİ 1
35
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
AKDENİZ ÜLKELERİNDE TURİZM GELİRLERİ ve EKONOMİK
BÜYÜME: PANEL VERİ ANALİZİ
Nurzen ÜZÜMCÜ, Kurtuluş BOZKURT*, Aytaç PEKMEZCİ
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Kötekli, MUĞLA
*Adnan Menderes Üniversitesi, Söke İşletme Fakültesi, Bankacılık ve Finans Bölümü, Söke, AYDIN
[email protected], [email protected], [email protected]
1. ÖZET
Turizm sektörü 20. yüzyılın ikinci yarısından itibaren, özelliklede 2. Dünya Savaşının bitmesiyle
birlikte dünya genelinde hızla gelişen, hizmet sektörünün en önemli alt sektörlerinden birisi olarak karşımıza
çıkmaktadır. Günümüzde ise gerek gelişmiş gerekse gelişmekte olan ülkeler için önemli bir döviz kazandırıcı
sektör konumundadır. Bunun dışında özellikle imalat ve tarım ana sektörü başta olmak üzere diğer birçok
sektöre de önemli dışsallıklar sağlamakta, çevreye duyarlı bir sektör olarak da sürdürülebilir kalkınmanın
sağlanması noktasında başat bir rol oynamaktadır. Bu bağlamda özellikle döviz geliri kazandırıcı özelliği
nedeniyle, ülkelerin uluslararası turizm piyasasından pay almaya yönelik rekabetleri özelliklede Türkiye’nin de
içerisinde yer aldığı Akdeniz bölgesinde her geçen gün artmaktadır.
Dünya Turizm Örgütünün 2020 yılında dünya turizm gelirinin 2 trilyon dolar olacağına ilişkin
projeksiyonu ülkelerin turizm arz potansiyellerini geliştirerek bu pastadan pay alma veya aldıkları payı büyütme
mücadelesine girişmelerine neden olmuştur. Turizm sektörünü geliştirerek ülkelerin gelişmişlik seviyelerine göre
ulaşmak istediği hedeflerin farklılık gösterdiğini söylemek mümkündür. Gelişmiş ülkelere bakıldığında söz
konusu ülkelerin turizm sektörünün gelir yaratıcı etkisinden yararlanmaya çalıştıkları, gelişmekte olan veya az
gelişmiş ülkelerin ise, sektörün döviz kazandırıcı ve yeni istihdam olanakları yaratabilme gücünden
yararlanmaya çalıştıkları gözlenmektedir. Zira gelişmekte olan ülkelerin ihracat yapabilmeleri büyük oranda ara
ve yatırım malı ithalatına bağlı olduğu için döviz ihtiyacı nedeniyle turizm sektörü önemli bir döviz tedarikçisi
sektör olarak değerlendirilmektedir.
Diğer taraftan ülkelerin en önemli sorunlarından biriside işsizlik sorunudur ve bu noktada emek-yoğun
hizmet üreten bir sektör olması nedeniyle yine turizm sektörü gelişmekte olan ve az gelişmiş ülkelere önemli bir
istihdam potansiyeli sağlamaktadır. Zira turizm sektörünün yapısal özellikleri, istihdam yaratma potansiyeli
açısından onu diğer sektörlerden farklılaştırmaktadır. Turizm sektöründe makineleşme ve bilgisayar sistemlerin
kullanımı dışında teknolojik yeniliklerin kullanım alanı oldukça sınırlıdır ve bu sınırlılık, teknolojik ilerlemelerin
emek tasarruf ettirici etkisini azaltmaktadır.
Analizde zaman boyutuna sahip kesit serileri kullanılarak ekonomik ilişkilerin tahmin edilmesi yöntemi
olan panel veri analizi kullanılmıştır. Kesit seri ve zaman serisinin bir araya getirilmesiyle oluşturulan panel veri
analizi, zaman serilerinde görülen problemleri de beraberinde taşımaktadır. Bu nedenle zaman serisi verilerinde
olduğu gibi değişkenlerin birim kök içerip içermediği, aynı dereceden birim köke sahip değişkenler arasında
eşbütünleşme olup olmadığı incelenecektir. Aksi halde verilerin durağan olmaması durumunda elde edilecek
regresyon tahminleri yanıltıcı olacaktır. Bu amaçla panel birim kök testleri ve panel eşbütünleşme testleri
uygulanarak değişkenler arasında uzun dönemli ilişki olup olmadığı analiz edilecektir.
Çalışmanın analiz kısmında, 17 Akdeniz ülkesi için 1995-2013 dönemini kapsayan Dünya Bankasının
İstatistik Veri Tabanlarından elde edilen turizm gelirleri ve GSYİH (Gayri Safi Yurtiçi Hâsıla) serilerinin
logaritmik değerleri kullanılarak bir veri seti oluşturulacaktır. Panel eşbütünleşme testleri uygulanarak
değişkenler arasında uzun dönemli ilişki olup olmadığına bakılacaktır.
KAYNAKLAR
[1] Tatoğlu, F. Y. (2013), “Panel Veri Ekonometrisi: Stata Uygulamalı”, Beta Yayıncılık, İstanbul.
[2] Bahar, O. ve Bozkurt, K. (2010). “Gelişmekte Olan Ülkelerde Turizm-Ekonomik Büyüme
İlişkisi: Dinamik Panel Veri Analizi”, Anatolia: Turizm Araştırmaları Dergisi, 21 (2): 1-11.
[3] Baltagi, B. H. (2005), “Econometric Analysis of Panel Data”, Third Edition, John Wiley and
Sons, New York.
36
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
[4] Gökovalı, U. and Bahar, O. (2006). “Contribution of Tourism to Economic Growth in
Mediterrranean Countries: A Panel Data Approach”, Anatolia An International Journal of
Tourism And Hospitality Research, 17 (2): 155-168.
[5] Bozkurt, K. ve Pekmezci, A. (2015), “Turizm Talebi ve Döviz Kuru Şokları: Türk Turizm
Sektörü İçin Ekonometrik Bir Analiz”, Osman Gazi Ün. İİBF Dergisi, Ağustos, Cilt: 10-2.
TOURISM RECEIPTS AND ECONOMIC GROWTH IN MEDITERRAN
COUNTRIES: THE PANEL DATA ANALYSIS
ABSTRACT
The process of globalization has come within inevitable changes about countries’ sectoral situations. One of that
changes is a passing through the service sector from the industry sector. Especially management, technique that
based on a information and technology and professional individuals are in a service sector. With this on the
other hand tourism sector that is may be called a sub-service sector have enhanced itself for foreign exchange
earnings. In this context the objective of this study that analyze the cointegration between tourism receipts and
economic growth for 17 Mediterranean countries that includes Turkey also between two dates that 1995-2013.
For success of this analysis, panel dataset have been created and within panel unit root method the panel
cointegration analysis has been done.
Key Words: Tourism Receipts, Economic Growth, Panel Data Analysis.
37
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
BOOTSTRAP GRANGER NEDENSELLİK TESTİ ÜZERİNE BAZI
SİMÜLASYON SONUÇLARI
Savaş GAYEKAR*. Yeliz YALÇIN.
Gazi Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, Ekonometri Bölümü, 06500, Ankara, Türkiye,
[email protected]
1.
Giriş
İktisadi değişkenler arasındaki nedensellik yapısını bilmek ekonomistler için önemli bir konudur.
Nedenselliğin test edilebilir tanımı “Granger nedensellik olarak” Granger (1969) da verilmiş ve ekonometrik
çalışmalarda sıkça kullanılmaya başlanmıştır. Değişkelerin durağan olduğu varsayımı altında kullanılan Wald
istatistiği asimptotik olarak standart dağılıma sahiptir. Ancak Sims (1990)’da değişkenlerin durağan olmadığı
durumdaWald istatistiğinin standart dağılıma sahip olmadığını testin yanlış sonuçlar verebileceğini göstermiştir.
Toda-Yamamoto (1995) makalesinde durağan olmayan seriler arasındaki Granger nedensellik ilişkisini test
etmede yaygın olarak kullanılan yeni bir yöntem önermişlerdir. Önerdikleri yöntem serilerin maksimum
bütünleşme sırasının VAR modeline ilave gecikme uzunluğu olarak eklenmesine dayanmaktadır. TodaYamamato (TY) yaklaşımı adı verilen bu testte Wald istatistiği asimptotik olarak  dağılımına yakınsamakta
ve “değişkenler arasında Granger nedensellik yoktur” yokluk hipotezi kolaylıkla test edilebilmektedir. Ancak
TY testinin başarısı VAR modelinin gecikme uzunluğuna ve serilerin bütünleşme derecesinin doğru tespit
2
edilmesine bağlıdır. Ayrıca Wald istatistiği asimptotik olarak 
dağılımına yakınsadığı için küçük
örneklemlerde testin gücü ve anlamlılık düzeyi etkilenmektedir (Mavrotas ve Kelly, 2001). Literatürde son
yıllarda durağan olmayan zaman serilerinde Granger Nedensellik testi için bootstrap yönteminin kullanıldığı
çalışmalarla karşılaşılmaktadır. Bu çalışmada durağan olmayan zaman serilerinde TY ve Bootstrap Granger
Nedensellik (BGN) testleri karşılaştırılmış, farklı durağanlık durumlarını ele alan 4 farklı veri üretme süreci ve
örnek çapları kullanılmıştır.
TY ve BGN testlerinin, iki zaman serisi arasındaki nedensellik ilişkisini test etmedeki performansları
sınırlı veri kümesinde karşılaştırılmıştır. Bu amaçla her iki testin gücü ve anlamlılık düzeyleri farklı veri üretim
süreçleri kullanılarak Monte Carlo simülasyon çalışması sonucu değerlendirilmiştir.
2
38
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Tablo 1. Durağan olmayan fakat eşbütünleşik seriler için BGN ve TY testlerinin anlamlılık düzeyleri ve Güçleri
Sonuç olarak. BGN testinin anlamlılık düzeyi küçük örneklemlerde TY testine göre nominal anlamlılık
düzeyine e daha yakın sonuçlar vermiştir ve BGN testinin gücü TY testine göre daha yüksek çıkmıştır.
KAYNAKLAR
[1] Di lorio F, and Triacca U, (2013) , Testing for Granger non-causality using the autoregressive metric,
Economic Modelling, 33, 120-125,
[2] Hacker R,S,, Hatemi, J,A, (2006)“ Tests for CausalityBetween Integrated Variables Using
Asymptotic and Bootstrap Distributions: Theory and Application” Applied Economics, 38: 1489-1500,
SOME SIMULATION RESULTS ON BOOTSTRAP GRANGER CAUSALITY TEST
Granger (1969) proposed causality using foreseeability as a criterion which is called Granger Causality.
If the series are non-stationary, the wald statistic which is using in Granger causality test is not valid. TodaYamamoto (1995) proposed test for the causality.This method has some disadvantages like size distortion and
low power in small samples. This study propose bootstrap Granger Causality test without the pretest of
integration. In addition, Toda-Yamamoto and bootstrap Granger Causality tests are compared. Results show
that size of the bootstrap Granger causality test is closer to nominal size than Toda-Yamamoto test and higher
power values in small samples.
Key Words: (Granger Causality, Bootstrap Method, MWald Test)
39
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
MALİ BAŞARISIZLIK KESTİRİMİNDE VERİ MADENCİLİĞİ
YAZILIMLARININ LOJİSTİK REGRESYON PERFORMANSLARININ
KARŞILAŞTIRLMASI
Nurzen ÜZÜMCÜ*
Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Bölümü Ekonometri ABD 32260
Çünür/ISPARTA
Ömer Utku ERZENGİN
Süleyman Demirel Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü 32260 Çünür/ISPARTA
1. MALİ BAŞARISIZLIK KESTİRİMİNDE VERİ MADENCİLİĞİ YAZILIMLARININ
LOJİSTİK REGRESYON PERFORMANSLARININ KARŞILAŞTIRLMASI
Ekonomik süreçlerdeki değişime bağlı şirketler mali başarısızlık durumuna düşebilmektedir. Serbest
piyasa ekonomisi rekabet kurallarına göre çalışmaktadır. İşletmelerin rekabet ortamında varlıklarını
sürdürebilmeleri nakdi ve nakdi olmayan değerlerin dengeli kullanılmasına bağlıdır. 2012 yılından bu yana
Borsa İstanbul’da işlem gören hem ulusal hem de uluslararası bazı şirketler mali açıdan başarısız olup pazardan
çekilmek zorunda kalmışlardır. Son yıllarda görülen bu durum mali başarısızlığın belirlenmesinin önemini
arttırmıştır.
Mali başarısızlığı belirlerken yalın veriler (bilanço ve gelir tablolarındaki tek başına kalemler) yerine mali
oranlar kullanılmalıdır. Bilanço ve gelir tablolarında yer alan nakdi ve nakdi olmayan değerlerin birbirlerine
oranlanmasıyla finansal oranlar elde edilir. Oranların kullanılması şirketler arasındaki büyüklük farkları ve farklı
risk sınıflarında bulunmalarından doğacak etkileri azaltmaktadır. Edward I. Altman ve arkadaşları 1968’den bu
yana oranlara bağlı mali başarı/başarısızlık formüllerini ortaya koymuştur. Genel olarak Altman’ın ölçeklerinde
Z skoruna göre başarı ve başarısızlık ortaya konmaktadır.
Bilanço ve gelir tablolarından elde edilen oranlar birbiriyle istatistiksel açıdan ilişki içindedirler. Bazı
oranlar hesaplanırken aynı kalemler kullanılabilmektedir. Aynı kalemleri kullanan oranlar çoklu bağlantı
sorununu ortaya çıkartmaktadır. Yapılan çalışmada bilanço ve gelir tablolardan elde edilen oranlar arasındaki
çoklu bağlantı sorunu temel bileşenler analiziyle (TBA) giderilmiştir. Temel bileşenlere bağlı faktör analizinin
amacı, çoklu bağlanım sorunu olan oranların birbirinden bağımsız olarak daha az sayıdaki yeni veri yapısına
indirgenmesidir.
Altman 1983 yılında yaptığı çalışmada Z skorunun 1.23 ile 2.99 arası gri bölge olarak tanımlamıştır.
Altman Z skoruna göre 1.23’ün altında kalan alan şirketler başarısız ve 2.99 üzerine çıkan şirketler başarılı
olarak kabul edilmiştir. Çeşitli çalışmalarda Altman Z skoruna göre başarısızlık ve başarı kategorik olarak 0-1
şeklinde belirlenmiştir. Yapılan çalışmada ikili lojistik regresyon (İLR) analizinde bağımlı değişken olarak mali
başarısızlık kullanılmıştır. Bağımlı değişken y’nin aldığı değer 1 ise mali başarıyı, 0 ise başarısızlığı temsil
etmiştir. Altman Z skoruna göre bulanık olan bölgenin ne kadarının 0 ne kadarının 1 alacağı bilançolara bağlı
İLR’ deki eğri altında kalan alan ROC (Receiver Operating Characteristic) eğrisine göre belirlenmiştir. Lojistik
regresyondaki en doğru sınıflama oranı bulunmaya çalışılmıştır.
Yapılan çalışmada Borsa İstanbul’da işlem gören şirketlerin 2012 yılları bilançolarından ve gelir
tablolarından elde edilen veriler kullanılmıştır. Mali başarı ve başarısızlık oranlara bağlı İLR analiziyle
incelenmiştir. TBA’ dan sonra elde edilen faktörler İLR’ ye sokulmuştur. İLR analizi doğrusal analizlerdeki
varsayımlar olmaksızın sınıflama işlemi yapan bir regresyon yöntemidir. Altman Z skoruna göre bulanık olan
bölgenin ne kadarının 0 ne kadarının 1 alacağı ROC eğrisi altında kalan alana göre bulunmuş ve lojistik
regresyondaki sınıflama oranı optimize edilmeye çalışılmıştır.
Yapılacak çalışmada açık kaynak kodlu veri madenciliği yazılımlarının (R, Weka, Orange, Rapid Miner,
Knime) lojistik regresyon sınıflama oranları karşılaştırılacaktır. Bilanço ve gelir tablolarından elde edilmiş
verilerin temel bileşenler analizinden sonra ikili lojistik regresyon sonrası kesim noktasına bağlı sınıfları
incelecek yazılımlar arasındaki farklılıklar tartışılacaktır.
40
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
KAYNAKLAR
[1] Altman, E. I. (1968). Financial Ratios, Discriminant Analysis and the Prediction of
Corporate Bankruptcy,
The Journal of Finance, Vol. 23, No. 4, pp. 589–609.
[2] Kleinbaum, D.G., Klein, M. (2002). Logistic Regression A Self-Learning Text, Second Edition, SpringerVerlag, New York, 513s.
[3] Cortez, P. (2010). Data Mining with Neural Networks and Support Vector Machines using the R/rminer
Tool, Advances in Data Mining Applications and Theoretical Aspects Lecture Notes in Computer Science,
Vol. 6171, pp. 572-583.
[4] Altman, E. I., Drozdowska, M.I., Laitinen, E.K., Suvas, A. (2014). Distressed Firm and Bankruptcy
Prediction in an International Context: A Review and Empirical Analysis of Altman's Z-Score Model
(Available at SSRN: http://ssrn.com/abstract=2536340 or http://dx.doi.org/10.2139/ssrn.2536340).
[5] Wahbeh, A. H. (2011). A Comparison Study between Data Mining Tools over some Classification Methods.
Journal
of
Advanced
Computer
Science
and
Applications(IJACSA),
DOI:
10.14569/SpecialIssue.2011.010304.
ABSTRACT
DATA MINING SOFTWARE LOGISTIC REGRESSION PREDICTION PERFORMANCE
COMPARSION OF FINANCIAL DISTRESS
Companies have to survive in economical process with competition and has a probabilty falling into
financial distress. Companies must balance their monetary and non-monetary assets. To describe financial
distress only financial ratios calculated proportioning monetary and non-monetary assets in annual financial
statement are not enough. In 1968 Altman showed that the Z-Score could be used to determine the company is
financially distressed or not. In this study to predict financial distress Binary Logistic Regression (BLR) was
used to esitmate companies specified as successful and unsuccessful according to Altman Z score. The open
source data mining softwares classification performance was compared.
Key Words: Financial Distress, Altman Z score, Logistic Regression, ROC
41
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
OTOKORELASYONLU LİNEER REGRESYON MODELLERİNDE
MODEL GEÇERLİLİĞİ İÇİN EN İYİ RİDGE YANLILIK
PARAMETRESİNİN BELİRLENMESİ
Tuğba SÖKÜT AÇAR*
M. Revan ÖZKALE
Çanakkale Onsekiz Mart Üniversitesi, Fen Bilimleri Çukurova Üniversitesi, Fen-Edebiyat
Fakültesi,
Enstiüsü, Çanakkale
E-mail: [email protected]
İstatistik Bölümü, Adana
E-mail: [email protected]
1. Giriş
Model geçerliliği konusu özellikle değişken seçimi için regresyon analizinde önemli bir yere sahiptir.
Regresyon modellerinin geçerliliği sıradan çapraz geçerlilik (Ordinary CrossValidation, OCV),
genelleştirilmiş çapraz geçerlilik (Generalized Cross-Validation, GCV) ve kavramsal ön tahmin
(Conceptual Prediction, Cp) ile belirlenmektedir. Uydurulan bir regresyon modelinin geçerliliği, düşünülen
modelin sağlıklı ve etkili bir model olup olmadığını ifade eder. Model iyi bir model değilse, uydurulan model
üzerinden yapılacak tahminler de güvenilir sonuç vermez.
Veri setinde çoklu iç ilişki problemi olduğu durumlarda Hoerl ve Kennard [2] sıradan ridge tahmin
Z'y, k > 0 olarak önermişlerdir. Burada
ediciyi
diag(0,1,1,. .,1)’dir. Ridge
regresyonda k’nın seçimi için kullanılan birçok yöntem, hata kareler ortalamasını minimum yapmaya yönelik
önerilmiştir. Regresyon modeli, yanıt değişkenin öngörü performansı için kullanılacaksa, hata kareler
ortalamasını minimum yapan yanlılık parametresinin sağlıklı bir seçim olmadığından endişe edilmiştir. Bu
nedenle ilişkisiz ve sabit varyanslı hataya sahip lineer regresyon modelinde çoklu iç ilişki olması durumunda
OCV, GCV ve Cp istatistikleri birçok yazar tarafından ele alınmıştır. Golub ve ark. [1] OCV ve GCV
istatistiklerini üzerinden incelemişlerdir. Montgomery ve Friedman [4] OCV istatistiğini
için uyarlamış
ve k’nın seçimi için minimum OCV ‘yi kullanmışlardır. Mallows [3] Cp istatistiğini minimum yapacak şekilde
k’nın seçimini ele almıştır.
2. Model
(1)
ile verilen çoklu lineer regresyon modeli ele alınsın. Burada, y: n x 1 tipinde rastgele
değişkenlerin gözlenen yanıt vektörü, Z = [ 1 X ] n x p tipinde matris, öyle ki; 1: n x 1
tipinde 1’lerden oluşan vektör, X = (x1,x2, ...,xr): n x r tipinde merkezileştirilmiş ve
standartlaştırılmış
bilinen açıklayıcı değişkenler matrisi,
tipinde sabit terim içeren bilinmeyen parameter vektörü ve
tipinde
hataların gözlenmeyen vektörüdür. (1) modelinde çoklu iç ilişki problemi olduğunda
Trenkler [5] ridge tahmin ediciyi
olarak ifade
etmiştir.
Bu çalışmada hatalar arasındaki ilişkinin
(2)
42
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
olduğu veri setinde otokorelasyon ve çoklu iç ilişki problemleri olduğunda model geçerlilik ölçümleri ele
alınmıştır. OCV, GCVve Cp istatistikleri (1) modeli altında otokorelasyonlu ridge tahmin edicisi üzerinden
elde edilmiş, özel durumları incelenerek genelleştirilmiş en küçük kareler, sıradan en küçük kareler ve sıradan
ridge tahmin edicileri için OCV, GCV ve Cp istatistikleri verilmiştir. Örneklem genişliği 20, çoklu iç ilişkinin
gücü y2= 0.99, 0.90, 0.70 ve 0.50, otokorelasyon katsayısı | | = 0.99,0.90,0.70,0.50 iken çoklu iç ilişki gücünün
ve otokorelasyonun OCV, GCV ve Cp istatistiklerini minimum yapan k’ya olan etkisi Monte Carlo simülasyon
ile incelenmiştir.
3. Sonuç
Çalışma göstermiştir ki; model geçerliliğini en iyi yapacak optimum k ile tahmin edilen otokorelasyonlu
ridge tahmin edicisi model geçerliliği açısından genelleştirilmiş en küçük karelerden daha iyidir. Optimum k,
otokorelasyon katsayısından ve hata teriminin varyansından etkilenmektedir öyle ki hata teriminin varyansı
arttıkça optimum k artmakta ve otokorelasyon katsayısı azaldıkça azalmaktadır. Çoklu iç ilişkinin gücünün
optimum k üzerinde önemli bir etkisinin olmadığı görülmüştür.
KAYNAKLAR
[1] Golub G. H., Heath M. and Wahba G. (1979), Generalized Cross-Validation as a Method
for Choosing a Good Ridge Parameter, Technometrics, 21(2):215-223.
[2] Hoerl A.E. and Kennard R.W. (1970), Ridge Regression: Biased Estimation for
NonorthogonalProblems, Technometrics, 12(1): 55-67.
[3] Mallows C. L. (1973), some comments on Cp, Technometrics, 15(4); 661-675.
[4] Montgomery D. C. and Friedman D. J. (1993), Prediction Using Regression Models with
Multicollinear Predictor Variables. IIE Trans 25(3), 73-85.
[5] Trenkler G. (1984), On the Performance of Biased Estimators in the Linear Regression
Model with Correlated or Heteroscedastic Errors, Commun. Statist.- Theor. Meth., A9(12):
1247-1259.
ABSTRACT THE DETERMINATION OF BEST RIDGE BIASING PARAMETER FOR
MODEL VALIDATION IN THE LINEAR REGRESSION MODELS WITH
AUTOCORRELATION
The model validation has an important role in the regression analysis. The validity of a
regression model is determined by ordinary cross-validation (OCV), generalized cross validation
(GCV) and conceptual prediction (Cp). Many authors discussed these statistics under the assumption
that the errors are uncorrelated and constant variance.
In this study, OCV, GCV and Cp measurement defined for autorocorrelated ridge regression
estimators with Ar(1) errors. The best autocorrelated ridge estimator has been determined by
optimum ridge biasing parameter so as minimized the OCV, GCV and Cp statistics. For this
purpose, a Monte Carlo simulation study is given following the paper.
Key Words: Multicollinearity, Cross-Validation, First Order Otoregressive Process, Ridge Estimator
43
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
SESSION 1
ÇEŞİTLİ KONULAR
44
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
YÖNSEL VERİLERDE UYUM İYİLİĞİ TESTİ
Orhan KESEMEN, Hilal BAYRAK*, Özge TEZEL
Karadeniz Teknik Üniversitesi, Fen Fakültesi,
İstatistik ve Bilgisayar Bilimleri Bölümü,61080, Trabzon, TÜRKİYE
[email protected], [email protected], [email protected]
1.
Giriş
İstatistik biliminde, örneklemin geldiği popülasyonun dağılımı örneklem dağılımını oluşturmaktadır. Örneklemin
geldiği yığındaki birimlerin nasıl dağıldığını bilmek istatistikte hangi testin kullanılacağının belirlenmesinde
oldukça önemlidir. Bu yüzden, örneklemin hangi dağılımdan geldiğinin test edilmesi gerekmektedir. Böyle
durumlarda önce örnek seçilir ve sonra bu örneğin sözü edilen dağılımdan gelip gelmediğine karar vermek için
istatistiksel testler yapılır. Bu testlerin amacı örnek verisinin öngörülen dağılıma uyup uymadığına karar
vermektir. Bu tür testlere uyum iyiliği testleri denir. Uyum iyiliği için birçok test önerilmiştir. Bu çalışmada
Kolmogorov-Smirnov uyum iyiliği testi kullanılmıştır.
Rastgele örneklenmiş verilerin istatistiksel analizinde, verilerin bir rastgele değişkenden geldiği kabul edilir. Bu
rastgele değişken değişik ölçü uzaylarında bulunabileceği gibi açısal bir uzayda da bulunabilmektedir. Tek
değişkenli açısal değişim gösteren veriler, dairesel veriler olarak isimlendirilmektedir ve birçok bilim dalı için,
yapılan herhangi bir araştırmada veri toplanması aşamasında ölçümler açısal olarak elde edilmektedir.
Rüzgârların yönleri, kuşların veya diğer hayvanların göç yönleri [1], salgın hastalıkların bir bölgede yayılım
yönleri, cisimlerin düzlemdeki yönelimleri dairesel verilere örnek olarak verilebilir. Bu gözlemlerin elde
edilmesinde kullanılan iki temel dairesel ölçüm aracı pusula ve saattir. Pusula kullanılarak yapılabilecek
gözlemlere örnek olarak göçmen kuşların göç esnasındaki yönelimleri gösterilebilir. Saatle yapılabilecek
gözlemlere örnek olarak da, bir hastanedeki acil servis birimine gelen hastaların 24 saat içerisindeki servise geliş
zamanlarının dağılımı verilebilir [2]. Dairesel bir gözlem, birim yarıçaplı bir daire üzerinde bir nokta ya da
düzlemde bir birim vektör olarak kabul edilebilir. Açısal değişimli veriler iki değişkenli olursa küresel, ikiden
fazla olursa hiperküresel olarak isimlendirilmektedir. Açı tabanlı veriler ise genel olarak yönsel veriler olarak
isimlendirilmektedir. Dairesel verilerin dağılımı ilk kez 1918’de Von Mises tarafından incelenmiştir [3]. Dairesel
verilerin istatistik uygulamaları yer bilimleri, meteoroloji, biyoloji, fizik, psikoloji, görüntü çözümleme, tıp,
astronomi gibi alanlarda kullanılmıştır [2] [4]. Açısal gözlemler, deneylerde farklı biçimlerde ortaya çıkmaktadır.
Örneğin biyolog, kaplumbağaların hareket yönünü incelerken, jeolog da fay hatlarına ilişkin bir araştırma
yapabilir. İlk örnekteki yönsel araştırma iki boyutlu olarak incelenirken, ikinci örnekteki araştırma dünya yüzeyi
yaklaşık olarak bir küre şeklinde olduğu için üç boyutta incelenmektedir.
Son yirmi yılda veri gösterimi, korelasyon, regresyon ve zamana ya da konuma bağlı yapıdaki verilerin analizi
üzerinde durulmaktadır. Yönsel veri çalışmaları, araştırmacılara çok geniş bir alanda ilerleme olanağı vermekte
ve yeni istatistiksel yöntemler geliştirmede çok verimli bir alan olduğu görülmektedir. Ayrıca doğal, fiziksel,
tıbbi ve de sosyal bilimlerde ortaya çıkan problemler için yeni ve farklı uygulamalar geliştirilebilmektedir.
2.
Önerilen Yöntem
Olasılık dağılımları istatistiksel veri analizinde önemli bir yer tutar. Doğrusal verilerdeki
dağılımlara karşılık olarak dairesel veriler için de çeşitli dağılımlar vardır. Dairesel dağılım,
bütün olasılıkları birim çemberin çevresinde yoğunlaşan bir olasılık dağılımıdır [5]. Bu
dağılımları tanımlamadan önce dairesel yoğunluk kavramı verilmelidir. Dairesel dağılımlar
genellikle dairesel bir yoğunluk olarak tanımlanırlar. Dairesel bir olasılık yoğunluk fonksiyonu
aşağıdaki temel özelliklere sahiptir.
1.
için
’dır.
45
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
2.
3.
fonksiyonu
için
periyoduna göre peryodiktir. Yani
’dir.
olmalıdır.
Birim çember üzerindeki en temel dağılım dairesel düzgün dağılımdır. Diğer önemli dağılımlar; “Von Mises
Dağılımı”, “Sarmal Normal Dağılım” ve “Üçgen Dağılım” dır. Von Mises dağılımı bilinen normal dağılıma
benzer olarak, dairesel veri analizi teorisinin oluşturulmasında önemli bir rol oynamaktadır [2]. Bu çalışmada
özel olarak yönsel verilerin hangi dağılımdan geldiği araştırılmıştır. Yönsel verilerin öngörülen dağılıma uyup
uymadığını test etmek için Kolmogorov-Smirnov uyum iyiliği testi kullanılmıştır.
KAYNAKLAR
[1]
[2]
[3]
[4]
[5]
S. J. Chang-Chien, M. S. Yang ve W. L. Hung, «Mean shift-based clustering for directional data,» %1
içinde Proceedings of third international workshop on advanced computational intelligence, 2010.
K. V. Mardia ve P. E. Jupp, Directional Statistics, New York: John Wiley & Sons, Inc., 2000.
R. Von Mises, «Uber die die "Ganzzahligkeit" der Atomgewicht und verwandte Fragen,,» Physikal, cilt
19, pp. 490-500, 1918.
N. I. Fisher, Statistical Analysis of Circular Data, Cambridge: Cambridge University Press, 1993.
S. R. Jammalamadaka ve A. S. Gupta, Topics in Circular Statistics, London: World Scientific Publishing
Co. Pte. Ltd., 2001.
ABSTRACT
GOODNESS-OF-FIT TEST FOR DIRECTIONAL DATA
The main purpose of this study, determine experimental directional data have come from a random variable with
a directional distribution (Von Mises Distribution, Wrapped Normal Distribution, Triangular Distribution,
Uniform Distribution). In this study, testing the goodness of fit we use Kolmogorov-Smirnov goodness of fit test
for directional data.
Key Words: Directional Data, Goodness-of-Fit Test, Angular Space, Angular Distance.
46
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
MEKÂNSAL REGRESYON ANALİZİNDE GEODA KULLANIMI
Hakan BAŞBOZKURT1*, Ayşe BASBOZKURT2, Adnan KARAİBRAHİMOĞLU3, Aşır GENÇ4
1*
Bingöl Ticaret ve Sanayi Odası, Bingöl, TÜRKİYE, [email protected]
Bingöl Üniversitesi, Fen Fakültesi, Coğrafya Bölümü, Bingöl, TÜRKİYE, [email protected],
3
Necmettin Erbakan Üniversitesi, Meram Tıp Fakültesi, TEBAD,42080, Konya, TÜRKİYE,
[email protected],
4
Selçuk Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Konya, TÜRKİYE, [email protected]
2
1.
GİRİŞ
Mekânsal regresyon analizinde, istatistiğe ait olan en temel varsayımlardan verilerin birbirleri ile bağımsız
olması varsayımı reddedilir. Tobler’in (1970) Coğrafya’nın birinci kuralı “herşey birbiri ile ilişkilidir, fakat
yakın olanlar uzak olanlara nispeten daha fazla ilişkilidir” olarak ifade edilir. Mekânsal regresyon analizinin
temel felsefesi olan bu kavramla mekânın gözlenen veriler üzerinde etkili olduğu kabul edilir ve yapılan
istatistikî analizlere mekân dâhil edilir (Basbozkurt, 2015). Dolayısıyla sosyal ve fiziksel kavramların mekânda
çoğu kez kümelendiklerinden bahsedilir (Suç, bölgesel oy verme deseni, ırk ayrılığı, yoksulluk sınırı, akciğer
kanseri, ev fiyatları, tarım bitkileri, orman yangınları, hayvan yaşam alanları, bitki türleri, toprak kimyası vb.).
2. AMAÇ
Bu çalışmanın amacı, mekânsal regresyon analizinde önemli bir yere sahip olan GeoDa Araştırma Merkezi’nin
(https://geodacenter.asu.edu/ ) geliştirmiş olduğu mekânsal regresyon analizlerinde kullanılabilecek ücretsiz
yazılım programı olan GeoDa programını uygulamalı olarak incelemektir.
3. MATERYAL VE METOT
Çalışmamızda GeoDa uygulaması olarak ABD Toplum Araştırma Sayım Bürosundan (www.census.org) alınan
(Stieve, 2012) veri kümesi kullanılmıştır. Dünyanın en kalabalık ve en pahalı şehirlerinden birisi olan
Manhattan’da eve sahip olmada mekânın önemi ve mekânın ev sahipliliğine olan etkisi mekânsal regresyon
modelleri kurularak incelenmiştir. Moran’ın I indeksi mekânsal otokorelasyonu (bağımlılığı) ölçer ve
ρ
(ro)
harfi ile ifade edilir. ρ değeri -1 ile +1 arasında değer alır. ρ değerinin beklenenden daha fazla pozitif değer
alması benzer değerlerin araştırma alanında kümelenmesine işaret eder. Mekânsal otokorelasyonun
hesaplamasında aşağıdaki notasyonlar kullanılmaktadır;
n
ilgilenilen örnekteki alanların sayısı,
i, j
herhangi iki alansal ünite,
zi i alanındaki ilgilenilen değişkene ait değer,
Wij
i ve j lokasyonlarındaki benzerlik, ayrıca her i değeri için Wii
 0,
Mij
i ve j gözlemlerine ait değişkenin benzerliği.
Moran’ın I indeksi aşağıdaki şekli ile formülüze edilir;
n
n
W ( z  z ).( z
n i 1
I
.
W0
ij
j 1
i
j
 z)
(1)
n
 (z  z )
i 1
i
2
j
Burada normalleştirme faktörü olan W0 aşağıdaki şekliyle ifade edilir;
n
n
W0  Wij
(2)
i 1 j 1
Mekânsal regresyon araştırmaya konu olan bağımlı değişkeni eldeki bağımsız değişkenlerden hareketle tahmin
etmede kullanılan modeldir. Klasik istatistikten farklı olarak mekânsal ağırlığı modele dâhil eder. Bu çalışmada
mekânsal regresyon modellerinden Mekânsal Adım (Spatial Lag) ve Mekânsal Hata (Spatial Error) modelleri
kullanılacaktır.
47
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
2.1 Mekânsal lag modelinin basit hali, mekânsal otoregressive (SAR) modeli olarak adlandırılıp, aşağıdaki şekli
ile ifade edilir ve iid özelliğine sahiptir ve bu model matris notasyonunda aşağıdaki gibi gösterilir;
y  Wy  X   
(3)
Burada skaler  değeri y ve Wy arasındaki mekânsal otoregressive güç ilişkisini gösterir ve genellikle (-1, 1)
arası değer alması beklenir (her zaman olmamaktadır). Ayrıca W satırlara göre standardize edilmiş ağırlık
matrisidir.
2.2 Mekânsal hata modelleri hata terimlerinin bağımlılığı üzerine kuruludur. Mekânsal hata bağımlılığı
gözlemlenememiş mekânsal olarak bağımlı gizli değişkenlerden kaynaklanabilir. Bu modeller ayrıca
komşulukları doğru bir şekilde belirlenememiş komşu alanlardan kaynaklanabilir. Bu modellerin tespiti zor
olduğu içinde sıkıntılı modeller olarak kabul edilirler (Fischer ve Wang, 2011). Mekânsal hata modeli matris
olaraktan ise aşağıdaki gibi ifade edilir;
  W   u
(4)
4. BULGULAR ve SONUÇ
Bu çalışmada mekânsal regresyon için kullanılan Moran’ın I indeksi ve mekânsal regresyon modelleri GeoDa
programı yardımı ile uygulamalı olarak incelenmiştir. Uygulama sonucu Manhattan’da ev sahipliliğinde
mekânın önemli bir unsur olduğu sonucuna varılmıştır. Araştırma sonucuna göre Manhattan’da ev sahipliliğinde
mekânın önemini en iyi mekânsal hata regresyon (spatial error) modelinin (R2=0,53; p=0,001) açıkladığı
görülmüştür.
KAYNAKLAR
[1] Anselin,L. (2005) Exploring Spatial Data with GeoDa: A Workbook. Center for Spatially Integrated Social
Science: Urbana-Champaign, IL.
[2] Basbozkurt, H., (2015) Toprağın Bazı Fiziksel ve Kimyasal Özelliklerinin Mekansal Regresyon Yöntemleri
Kullanımı ile Analizi, İstatistik, 2015. Selçuk Üniversitesi: Konya
[3] Fischer, M.M. and J. Wang, (2011), Spatial Data Analysis: Models, Methods and Techniques. Springer.
[4] Stieve, T. (2012) Moran’s I and Spatial Regression.
[5] Tobler, W.R., (1970) A Computer Movie Simulating Urban Growth in the Detroit Region. Economic
Geography, 46: p. 234-240.
ABSTRACT
USAGE OF GEODA FOR SPATIAL REGRESSION ANALYSIS
The aim of this study is to determine the importance of free and open-source GeoDa software
(https://geodacenter.asu.edu/) which have been designed to analyze the spatial events and to model spatial
regression. A data set belonging to USA Society Research Cencus Office was applied to model the effect of
owning a house in Manhattan using some demographic and household information by spatial regression.
According to the results, we found that the spatial dependence is an important component to own a house in
Manhattan.
Key Words: Spatial Regression, GeoDa, Moran’s I
48
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
YÜKSEK ÖĞRETİM KURUMLARINDA LİSANS VEYA DOKTORA
SINAVINA GİREN ÖĞRENCİLERİN ÖRNEKLEME METODU
KULLANILARAK YÖK DÖNÜŞÜM TABLOSU KULLANILDIĞINDA
MAĞDURİYETE UĞRAYIP/UĞRAMADIKLARININ BELİRLENMESİ
ÜZERİNE BİR ÇALIŞMA (SİNOP ÜNİVERSİTESİ ÖRNEĞİ)
Mücahit KURTULUŞ (1) , Egemen KURTULUŞ (2) , Bilal ERDOĞAN (3)
Bilindiği üzere bir ülkenin gelişmişlik göstergelerinden en önemlisi okuma-yazma oranının
yüksek olmasıdır. Okuma-yazma oranının yüksek olduğu ülkelerde de üniversite bitirmiş olanların oranı da aynı
doğrultuda yüksek oranlar da olmaktadır.
Ülkemizde de son dönemlerde üniversite bitirmiş (yüksek lisans ve doktora dahil) insanlarımızın sayısı belirgin
olarak artış göstermektedir.
Nüfusun artması nedeni bağlı olarak sayısal artış gayet doğaldır. Yapılan planlamalar doğrultusunda sayısal
olarak artıştan daha da önemli olan faktör yetişmiş (kalifiye) insan gücünün, nicelik (sayısal) olarak değil nitelik
(kalifiye) ve nüfustaki oranının yüksek olması, o ülkenin gelişmişlik göstergelerinden en önemli faktör olduğu
yadsınamaz.
Dünya ekonomisinde üst sıralarda yer almanın sadece ve sadece kuralı yetişmiş insan (kalifiye) gücümüzün
niteliğidir.
Lisan mezunu öğrencilerimiz, Yüksek Lisans veya Birleştirilmiş Doktora ve Doktora sınavlarına girdiklerinde,
üniversitelerimizin öğrencilerine verdikleri yüzlük sistemdeki notları harf sistemine dönüştürülmektedir.
Harf sistemindeki notlar ise YÖK (Yüksek Öğretim Kurumu)’ün belirlemiş olduğu Dönüşüm Tablosu
kullanılarak yüzlük not sistemine dönüştürülmektedir. Bu dönüşüm esnasında geçme notunun 60 (Altmış)
olduğu üniversitemizde; öğrencinin gerçek (yüzlük sistemdeki) notunun 62.06 (altmışiki, yüzde altı) olduğu
düşünelim…
Harf notu olarak karşılığı 2.06 (iki, yüzde altı) karşılık gelmektedir. Öğrencinin Transkript (Not Dökümü)’nde
sadece harf notu verilmektedir.
YÖK Dönüşüm tablosunda ise harf notu yüzlük sistemde 54.73’e karşılık gelmektedir
.
Geçme notunun 60 olduğu bir üniversite de gerçek yüzlük sistemdeki notu 62,06 olan öğrenci harf notu
karşılığından dolayı ((62,06 – 54.73) = - 7.33 puan) hak kaybına uğramaktadır. Yüzdesel olarak kaybı ise
(yüzde – 13,39)’dur.
Bundan dolayı öğrenci sınava girmesi gerekirken sırlamaya bile girememektedir.
Gözden kaçırılmamsı gereken en önemli unsur ise; geçme notu 60 iken öğrencinin Dönüşüm tablosunda ki
sorundan dolayı başarı puanının 60 (Altmış) puan altına ( 54.73) inmesi bir çelişkidir.
Gerçekten de bu durumun böyle olup/olmadığının belirlenebilmesi için Sinop Üniversitesi Rektörlüğü’nün
30.06.2015 tarihli oluru ile Öğrenci İşleri Daire Başkanlığı’ tüm mezun olan (2014-2015 bahar dönemi)
öğrencilerimizin harf notları ve yüzlük sistemdeki notları alınmıştır.Aftan dönen öğrencilerin tamamı kapsam
dışı bırakılmıştır. Çünkü harf ve yüzlük sistemdeki başarı notları sağlıklı olarak hesaplanamamaktadır (Önceki
dönemlerde geçme notunun 50 (elli) olması vb.). Yığınımızın çerçevesi belirlenmiştir. Çerçeve dışında kalan
öğrenci olup/olmadığı tekrar kontrol edilmiştir. Her bir fakülte(4 yıl), Yüksek okul(4 yıl) ve Meslek Yüksek
okulları (2 yıllık) olmak üzere not ortalamalarına göre sıralanmış listesi olması nedeniyle ‘Basit Rasgele
Örnekleme Yöntemi’ uygulanmıştır. Yığın da bulunan 6490 (Altıbindörtyüzdoksan) öğrenciden, hoşgörü miktarı
( 0.001) olmak üzere; yapılan hesaplama sonucuna göre 241 (İkiyüzkırkbir) öğrenci örnek çapını oluşturmuştur.
Örneğe çıkan 241 mezun öğrenci bilgisayar ortamında (Yerine koyarak yöntemi ile normal dağılımdan örnek
sıra numaraları çekildi) sıra numaraları belirlenmiştir. Elde edilen bilgiler yardımı ile; verilerin normallik testleri
49
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
yapılması ve normallik testi sonucuna göre hangi istatistiksel yöntemlerin uygulanacağı, modelin anlamlı olup
olmadığı, betimsel istatistikler, grafik ve tablolar ve diğeryapılamsı uygun olan tüm istatistiksel analizler
yapılması, yığın parametrelerinin tahmin edilmesi, güven aralıklarının oluşturulması planlanmaktadır.
x
.
1 n
 xi
n i 1
sx2 
(1)

1 n
 xi  x
n  1 i 1

2
(2)
N = 6490 , p = q , V = 0.001 , n = 241 (Yaklaşık olarak) olarak hesaplanmıştır.
Çizelge1. Öğrencinin Notları ve YÖK tablosu arasındaki farklılıklar
Öğrenci
Harf
Yüzlük
YÖK
Puan
Yüzde
YÖK
Sıra Nosu
Puanı
puanı
puanı
Kaybı
puan kaybı
Olması
gereken
0010
2.06
62.06
54.73
- 7.33
- 13.39
2.374
0046
2.10
63.13
55.60
- 7.53
- 13.54
2.420
0051
2.11
63.63
55.90
- 7.73
- 13.83
2.441
0088
2.12
63.47
56.13
- 7.34
- 13.08
2.435
0093
2.13
63.60
56.36
- 7.24
- 12.85
2.440
0137
2.14
64.24
56.60
- 7.64
- 13.50
2.467
0205
2.16
64.46
57.06
- 7.40
- 12.97
2.476
0244
2.17
63.90
57.30
- 6.60
- 11.52
2.455
0275
2.18
64.80
57.53
- 7.27
- 12.64
2.491
Harf
Notu
kaybı
- 0.314
- 0.320
- 0.331
- 0.315
- 0.310
- 0.327
- 0.316
- 0.285
- 0.311
Harf
Yüzde
kaybı
- 13.227
- 13.223
- 13.560
- 12.936
- 12.705
- 13.255
- 12.763
- 11.609
- 12.485
KAYNAKLAR
[1] Yamane T. (2009), Temel Örnekleme Yöntemleri, Çeviri İstanbul-Türkiye,
[1] Bakır M.A. ve Aydın C. (2013), İstatistik, Ankara-Türkiye, Nobel Yayınları..
[1] Ünver Ö. ve Gamgam H. (2006), Uygulamalı Temel İstatistik Yöntemler, Ankara-Türkiye, Seçkin
Yayıncılık.
HIGHER EDUCATION INSTITUTIONS EXAMINATION DEGREE OR DOCTORATE IN THE
SAMPLING METHOD WHEN NO CONVERSION TABLE IS USED/ A STUDY ON DETERMINING
THEY DAMAGES (SİNOP UNIVERSITY SAMPLE)
The most important indicator of a country's development, as it is known literacy rate
It is high. The rate of literacy in countries with a high proportion of university degree is also higher than
in the same direction.
In our country, in the last period he had finished university (including master's and PhD) are increasing
significantly the number of our people. Language graduate students when they enter the Master's or PhD and
PhD Combined exam grades given to university students in the upper system is converted into a letter system.
The system notes the letter YÖK (Higher Education Council) 's set by the system using the conversion
table is converted to upper grades.
Key Words: Simple random sampling, Higher Education, Sinop University.
50
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Kişilerin Refah Seviyesindeki Artış ile Havayolu Ulaşımı Tercihi
Arasındaki İlişkinin Araştırılması; Türkiye Örneği
Hülya ŞEN1
Hakkı POLAT2
1
Yrd.Doç. Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
Doktora Öğrencisi Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
1
[email protected]
2
[email protected]
2
Kişilerin Refah Seviyesindeki Artış ile Havayolu Ulaşımı Tercihi Arasındaki İlişkinin Araştırılması
Havayolu taşımacılığı son dönemlerde sağladığı avantajlar nedeniyle en çok tercih edilen ulaşım yöntemi olma
yolunda hızla ilerlemektedir. Havacılık sektörüne yapılan yatırımlar, teknolojik gelişmeler ve modern dünyada
giderek daha önemli hale gelen vakit kazandırma özelliği sayesinde popülerliğini giderek arttırmaktadır. Fakat
sağladığı imkanların yanında ulaşım ücretlerinin ve maliyetlerinin diğer ulaşım yöntemlerine göre fazla olması,
özellikle Türkiye gibi nüfusunun büyük çoğunluğunu düşük ve orta gelir grubundan insanların oluşturduğu
ülkelerde son dönemlere kadar pek tercih edilememesine sebep olmuştur. Ekonomik büyümenin vatandaşların
refah seviyesine pozitif katkısının havayolu ulaşımını tercih etmelerine neden olacağı ve refah seviyesi ile
tercihler arasında benzer hareketlilik olduğu bu çalışma sonucunda elde edilmiştir.
Havayolu taşımacılığının gelişiminin önündeki engellerin araştırılmasına yönelik çalışmalar genellikle birkaç
başlık altında toplanmaktadır. Bunların en başında ise devlet tekelinde olma durumu gelmektedir. Birçok ülkede
havaalanları ve sivil uçak işletmeciliğinin devlet tarafından yürütülmesi özel teşebbüslerin bu alana yönelik
yatırımlarının kanunlarla engellenmesi halen dünyanın birçok ülkesinde havayolu taşımacılığının en az tercih
edilen ulaşım sektörü olmasına neden olmaktadır. Hooper (2002), bu durumu Asya ülkelerini kapsayan
çalışmasında göstermiştir. Hooper, beklenen özelleştirme ve teşviklerin bir türlü yapılamamasının söz konusu
sektörün gelişmesinin önündeki en büyük problemlerden biri olarak göstermiştir.
Yukarıda anlatıldığı gibi birçok ülkede işletme haklarının halen devlet elinde bulunması, monopol bir piyasa
yapısının oluşmasına sebep olmakta, bu durum da rekabet ortamı oluşmasını engellemektedir. Ashworth ve
Forsyth (1984), bu durumu İngiltere’de ki havayolu sektörü ve üretim sektörünü kıyaslayan bir model
geliştirerek göstermiş ve bu monopol yapının havayolu sektörünün gelişmesinin önündeki en büyük engel olarak
göstermiştir. Bunun yanında Backx vd., (2002), havayolu taşımacılığının sadece devlet tekelinde bulunan
ülkelerle hem devlet hem de özel sektör teşebbüslerinin olduğu ülkelerdeki sektörel durumu karşılaştırmıştır ve
özel teşebbüslerin bulunduğu ülkelerdeki kalite ve memnuniyet düzeylerinin devlet eliyle işletilen işletmelere
göre çok daha yüksek olduğunu göstermiştir.
Ancak son dönemlerde özellikle Türkiye gibi gelişmekte olan ülkelerde yaşanan gelişmeler havayolu
taşımacılığının büyümesine sebep olmaktadır. Özellikle Türkiye’de yapılan kanuni düzenlemelerle özel sektör
teşebbüslerinin faaliyetlerine izin verilmesi rekabet ortamının oluşmasına bu ortamın da 2000’li yıllardan sonra
Türkiye’de söz konusu sektörün büyük gelişim göstermesine sebep olmuştur (Şen ve Polat, 2015). Aynı
zamanda kişilerin refah seviyelerinde meydana gelen artışında havayolu ulaşımına talebi arttırdığı da
söylenebilir Fernandes ve Pacheco, (2010), bu durumu Brezilya için kişi başına düşen milli gelir ile havayolu
sektör parametreleri arasındaki nedenselliği araştırarak ortaya koymuştur.
Şekil.1, Türkiye’nin 1970-2014 yılları arasında yıllık kişi başına milli geliri ve havayolu taşımacılığını tercih
eden kişilerin sayısını göstermektedir.
51
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Kişi Başına Düşen Gayri Safi Milli Hasıla
Havayolu Yolcu Sayısı
9,000
100,000,000
8,000
80,000,000
7,000
60,000,000
6,000
40,000,000
5,000
20,000,000
4,000
3,000
0
70
75
80
85
90
95
00
05
10
70
75
80
85
90
95
00
05
10
Şekil 1. 1970-2014 GSYMH ve Havayolu Yolcu Sayıları
Şekil incelendiğinde özellikle 2000’li yıllardan sonra havayolu yolcu sayısında belirgin bir artışın olduğu
görülmektedir. 2001 yılında yapılan kanuni düzenlemelerin havayolu yolcu sayısının trendi üzerinde yapısal bir
kırılmaya bile sebep olduğu söylenebilir (Şen ve Polat, 2015).
Bu aşamadan sonra Kişi başına düşen gayri safi yurt içi hasıla ile havayolu yolcu sayıları arasında Granger
nedensellik testi uygulanmış ve sonuçlar aşağıda verilmiştir.
Tablo 1.Granger Nedensellik Testi Sonuçları
Sıfır Hipotezi
DHAVA, DGDP’nin Granger Nedeni Değildir
DGDP, DHAVA’nın Granger Nedeni Değildir
Gözlem Sayısı
F-İstatistiği
P.
42
1.33541
0.2754
5.15711
0.0106*
*%95 güvenilirlikle reddedilen hipotezleri göstermektedir.
Tablo incelendiğinde, kişi başına düşen milli hasıla ile havayolu yolcu sayıları arasında tek yönlü bir
nedenselliğin olduğu görülecektir. Ayrıca uzun dönemli ilişkilerin incelenmesi için eşbütünleşme analizi
uygulanmış ve analizler sonucunda her iki değişken arasında eşbütünleşik bir yapının olduğu görülmüştür.
KAYNAKLAR
[1] Ashworth, M., & Forsyth, P. (1984). Civil aviation policy and the privatisation of British Airways.
Institute for Fiscal Studies.
[2] Backx, M., Carney, M., & Gedajlovic, E. (2002). Public, private and mixed ownership and the
performance of international airlines. Journal of Air Transport Management, 8(4), 213-220.
[3] Fernandes, E., & Pacheco, R. R. (2010). The causal relationship between GDP and domestic air
passenger traffic in Brazil. Transportation Planning and Technology, 33(7), 569-581.
[4] Hooper, P. (2002). Privatization of airports in Asia. Journal of Air Transport Management, 8(5), 289300.
[5] Şen H., & Polat, H. (2015). The Research Effects Of Law Changes At Air Transportation On Air
Passanger Carries For Turkey. Alphanumeric Journal, 3(1).
RESEARCHING RELATIONSHIP BETWEEN INCREASING PERSONEL INCOME AND AIR
PASSANGER CARRIES; AN AMPRICAL STUDY FOR TÜRKİYE
Recently, air transportation has become more important because of providing advantages. Investments,
technological developments and earning times, lead to be more popular this transportation sector. Despite of
have advantages, because of expensive ticket prices and other costs, don’t let to peoples prefer very much
especially huge amount of peoples has low income countries, like Turkey. In this study, shown that; Economic
growth and increasing personnel income can be effective for prefer air transportation.
Key Words: Air Passenger Carries, GDP Per Capita, Time Series, Granger Causality, Cointegration
52
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
SESSION 2
APPLIED STATISTICS 1
53
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
DEVELOPING A LIU-TYPE ESTIMATOR FOR THE POISSON
REGRESSION
Yasin ASAR1, Adnan KARAİBRAHİMOĞLU2 , Hakan BAŞBOZKURT3 and Aşır GENÇ4
1
1.
Necmettin Erbakan Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Konya, [email protected],
[email protected]
2
Necmettin Erbakan Üniversitesi, Tıp Fakültesi, Konya, [email protected]
3
Bingöl Ticaret ve Sanayi Odası, Bingöl, TÜRKİYE, [email protected]
4
Selçuk Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Konya, [email protected]
Introduction
The dependent variable is not always normally distributed as it is in least squares method. Sometimes, it
represents a count of a situation, accident or particulate matter etc. It is more proper to use Poisson regression
when dealing with count data.
The explanatory variables are sometimes correlated to each other especially in the field of economics
and health sciences. Maximum likelihood estimator (MLE) is usually used to estimate the parameters in Poisson
regression. However, the variance of MLE is inflated when there is multicollinearity. Thus, making statistical
inference using MLE becomes difficult due to its large mean squared error (MSE). The problem of
multicollinearity has not been discussed in the literature when Poisson regression model is used. Exceptionally,
in [2] the authors adopted and modified some existing ridge estimators to the Poisson regression model.
Moreover, Liu estimator is generalized to the Poisson regression in [3]. Finally, in [4] the authors proposed
several estimators for estimating the ridge parameter based on Poisson ridge regression model.
2.
Method and Theory
A reasonable probability model for count data is often the Poisson distribution having the following
pdf f
 yi  
e
 i
iyi
yi !
i  1,2,..., n
where y is the dependent variable,
and
function is the following log link function g  i   ln  i   xi  such that
i  0 .
One popular link
xi is the i th row of the design
matrix X of order n  p with p explanatory variables and  is the coefficient vector of order p  1 . The
most common method of estimating the coefficients is to use the maximum likelihood estimator (MLE) which
can be obtained by using the iteratively weighted least squares (IWLS) algorithm as follows:

ˆ
ˆMLE  X WX
is the

1
 
ˆ ˆ where Wˆ  diag Pˆ 1  Pˆ
X Wz
i
i

and
  
 
zˆi  log Pˆi  yi  Pˆi / Pˆi 1  Pˆi

i th element of the vector
ẑ .
In order to overcome the problem of multicollinearity, we generalize Liu-type estimator to the Poisson

ˆ  kI
regression as follows ˆPLT  X WX
PLT is MSE
 ˆ 
PLT
ˆ  dI  ˆ
  X WX
1
k
where
k  0,    d   . The MSE of
    d 2  p   d  k 2  2 
j
th
j 
  
where  j is the j
eigenvalue of
 
2
2

j 1      k  
j 1     k 
j
 j j



p
ˆ . We propose an iterative method to estimate k
X WX
respect to
MLE
and d as follows: Differentiating

MSE ˆPLT
 with
and equating the resultant function to zero, we get the individual parameters
54
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
kj 
 j  d 1   jˆ 2j 
 jˆ 2j


. Since each k j should be positive, the condition  j  d 1   jˆ 2j  0 should hold.
Thus, we propose the following shrinkage estimators of k : kˆAM which is the mean of k j , kˆGM which is the
geometric mean of k j and kˆMED which is the median of k j .
The results of the Monte Carlo simulation show that new proposed methods have better performance
than MLE. kˆAM and kˆGM have better performances in all situations considered in the simulation. Thus PLT is
recommended to the practitioners.
REFERENCES
[1] Liu, K. (2003), Using Liu-type estimator to combat collinearity. Communications in Statistics-Theory and
Methods, 32(5), 1009-1020.
[2] Månsson, K. and Shukur, G. (2011). A Poisson ridge regression estimator. Economic Modelling, 28(4),
1475-1481.
[3] Mansson, K., Kibria, B. G., Sjolander, P. and Shukur, G. (2012). Improved Liu Estimators for the Poisson
Regression Model. International Journal of Statistics and Probability, 1(1), p2.
[4] Kibria, B. M. G., Månsson, K. and Shukur, G. (2014). A Simulation Study of Some Biasing Parameters for
the Ridge Type Estimation of Poisson Regression. Communications in Statistics - Simulation and
Computation, 44(4), 943-957. doi: 10.1080/03610918.2013.796981
ABSTRACT
A new Liu-type estimator for the Poisson regression model is introduced in this study. This method is a
generalization of the Liu-type estimator defined in [1] for the linear model. Maximum likelihood estimator
(MLE) is generally used to estimate the parameters in Poisson regression. However, the variance of MLE is
inflated when there is multicollinearity. Therefore, we propose a new Poisson Liu-type estimator (PLT) as a
remedy to this problem. In order to investigate the performance of PLT and MLE, we design a Monte Carlo
simulation. Mean squared error is used to evaluate the estimators. According to simulation results, PLT
outperforms MLE.
Key Words: Liu-type estimator, Poisson regression, MSE, Monte Carlo simulation.
55
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
QUALITY CONTROL CHARTS BASED ON RANKED SET SAMPLING
Didem EGEMEN1, Barış SÜRÜCÜ2
1
George Washington University, Department of Statistics, Washington, DC, 20052, USA
[email protected]
Orta Doğu Teknik Üniversitesi, Department of Statistics, 06800, Ankara, Türkiye
[email protected]
2
1.
Quality Control Charts
There are many techniques to assess the quality of a product. One of these techniques is known to be statistical
quality control. Within this concept, quality control charts are pretty popular and are of great use in practice. The
method was first developed by Shewhart (1931) to conduct a research at Bell Telephone Laboratories. The aim
of the method is to monitor causes and undesirable shifts which lead to process out-of-control and take necessary
corrective actions.
The most popular control chart is X chart based on simple random sampling (SRS). It is a graphical display
technique for a quality characteristic. In this process, rational subgroups of small sizes are used to strengthen the
control limits. For a normally distributed random variable, the control limits (upper, central and lower) for
chart are given as
UCL  x 
X
3s
c4 n
CL  x
LCL  x 
3s
c4 n
where x and s are the means of subsample means and subsample standard deviations, respectively;
being a constant to correct the bias for s .
c4
For nonnormal distributions, the same approach is still valid and X chart is utilized very extensively. In general,
the desired type I error rate and average run length are 0.0027 and approximately 370, respectively. When these
values are achieved, the process is said to be under control. However, depending on the underlying distribution,
type I error rates and average run lengths may significantly differ from the desired values. That is why one needs
to use robust approaches for the estimation of unknown parameters; see Cetinyurek (2006) for details.
2.
Ranked Set Sampling
Ranked set sampling (RSS) is a sampling technique developed by McIntyre (1952) to obtain more efficient
estimators for unknown parameters of an underlying distribution. In this sampling methodology, a random
2
sample of size n is selected and these sample units are randomly allocated to n samples of size n. In the first
step of RSS, each of the n samples is ranked within itself by simply inspecting units visually. In the second step,
we only observe the ith order statistic (visually ordered) of the ith sample; see Figure 1.
56
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
 X 1(1) X 1( 2) X 1( 3)  X 1( n ) 
 X 1(1) 
X

X 
 2 (1) X 2 ( 2) X 2 ( 3)  X 2 ( n ) 
 2( 2) 
 X 3(1) X 3( 2) X 3( 3)  X 3( n )    X 3( 3) 







 
 
  
 X n (1) X n ( 2 ) X n (3)  X n ( n ) 
 X n(n) 



Step1
Step 2
Figure 1: Classical RSS Scheme for a sample of size n.
Bu using the sample obtained from the second step, it is possible to write the corresponding likelihood function
and obtain the maximum likelihood estimators for the unknown parameters.
In this study, we consider some location-scale symmetric families and obtain their estimators by using robust
estimation techniques (Egemen, 2013). Since the RSS leads to more efficient estimators than SRS, we use robust
estimators based on RSS in order to construct quality control chart limits. It should also be mentioned that this
approach needs more corrective actions during the construction of the chart limits. We conduct a simulation
study to show how much efficiency is gained compared to classical SRS approach. We also give a real life
example to explain a practical application of the subject.
REFERENCES
[1] Cetinyurek, A. (2006), Robust Control Charts, ODTÜ, Master Thesis.
[2] Egemen, D. (2013), Quality Control Charts Based on Ranked Set Sampling Under Various Symmetric
Distributions, ODTÜ, Master Thesis.
[3] McIntyre, G.A. (1952), A method for unbiased selective sampling, using ranked sets, Australian Journal of
Agricultural Research, 3(4), 385-390.
[4] Shewhart, W.A. (1931), Economic Control of Quality of Manufactured Product, D. Van Nostrand
Company Inc. Princeton, New Jersey.
57
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
COMPARISON OF THE ROBUST ESTIMATORS OF LOCATION AND
SCALE UNDER VARIOUS SITUATIONS VIA SIMULATION
Hakan Savaş SAZAK1*, Hülya YILMAZ2
1
Ege University, Faculty of Science, Department of Statistics, 35100, İzmir, Turkey, [email protected]
2
Eskişehir Osmangazi University, Faculty of Medicine, Department of Biostatistics and Medical Informatics,
26480, Eskişehir, Turkey, [email protected]
1.
Introduction
The most well-known estimators of location and scale are the sample mean and the sample standard
deviation, respectively. They have the optimal properties under normality but they do not possess robustness
which means they lose considerable amount of efficiency in the case of deviations from normality or in the
presence of outliers [1-3]. Many robust estimators have been proposed to alleviate this problem. Wilcox [3] gave
the definitions and properties of a variety of estimators in detail. In this study, we will compare the performance
of the most popular estimators of location and scale through a Monte Carlo simulation study under several
situations. In detail, two types of Huber’s M estimators (w24 and BS82), the modified maximum likelihood
(MML) estimators, and the sample median and the scaled median absolute deviation (MAD), will be compared
with the sample mean and the sample standard deviation under the normal and non-normal distributed data sets
for various sample sizes. Non-normal conditions are provided with different mixture and outlier models.
2.
Methodology
In this study, w24 and BS82 M estimators were used for comparison. Pairs of equations according to w24
and BS82, respectively, are shown below (see Andrews et al. [4] for details)
T0=median(yi), S0=median (
For
(1  i  n) .
) and,
w24,
where
(1)
and
h=2.4.
(2)
For BS82,
and
Here,
.
and
(3)
where h=8.2
(4)
Assuming long tailed symmetric (LTS) distribution gives the following MML estimators of location and
scale for a given value of p (see Tiku and Akkaya [1] for details).
and
where
(5)
and
and
,
,
where
.
In our study we used a calibration technique [5] to estimate p.
58
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Median
is one of the widely known robust estimators of the location parameter and Median absolute
deviation (MAD) is a simple way to calculate the variation of a data set which is
.
MAD was scaled by dividing it by 0.6745 to make it an unbiased estimator of  for normal distribution.
3.
Conclusion
In this study, the performance of various estimators of location and scale are investigated w.r.t the sample
mean and the sample standard deviation under standard normal distribution and under the mixture and outlier
models of normal distribution with various proportions and extremities of contamination through simulation and
it is found that in most of the situations the Huber’s M estimators of location are the best. The MML estimator of
scale is the best unless the sample size and the extremity of contamination are large where the sample standard
deviation should be preferred.
REFERENCES
[1] Tiku M.L. and Akkaya A.D. (2004), Robust Estimation and Hypothesis Testing, New Delhi.
[2] Huber P.J. (1981), Robust Statistics, Wiley, New York.
[3] Wilcox R.R. (2005), Introduction to Robust Estimation and Hypothesis Testing, Elsevier Academic Press,
Second Edition.
[4] Andrews D.F., Bickel P.J., Hampel F.R., Huber P.J., Rogers W.H. and Tukey J.W. (1972), Robust
Estimates of Location: Survey and Advances, Princeton, NJ: Princeton University Press.
[5] Yilmaz H. and Sazak H.S. (2014), Double-looped maximum likelihood estimation for the parameters of the
generalized gamma distribution, Mathematics and Computers in Simulation, 98, pp. 18-30.
ABSTRACT
COMPARISON OF THE ROBUST ESTIMATORS OF LOCATION AND SCALE UNDER VARIOUS
SITUATIONS VIA SIMULATION
In this study we compared the performance of two types of Huber’s M estimators (w24 and BS82), the
modified maximum likelihood (MML) estimators, and the sample median and the scaled median absolute
deviation (MAD) w.r.t. the sample mean and the sample standard deviation via simulation under various
situations. Depending on the simulation results, in most of the situations, the Huber’s M estimators of location
are the best. The MML estimator of scale is the best unless the sample size and the extremity of contamination
are large where the sample standard deviation should be preferred.
Key Words: Modified Maximum Likelihood; Robustness; M Estimators; Mixture Model; Outlier Model
59
International 9. Statistics Congress,
28th October-1st November 2015 ANTALYA/TURKEY
Robust Portfolio Selection using Risk Aversion Formula
Sibel AÇIK KEMALOĞLU Gültaç EROĞLU İNAN Ayşen APAYDIN
Ankara University Faculty of Science Department of Statistics
[email protected]
[email protected] [email protected]
1. Introduction
Markowitz mean-variance model have some difficulties in the practise since real data are uncertain. Robust
optimization has recently used to overcome this uncertainty. In this study, we handled the max-min robust
counterpart of risk aversion portfolio optimization problem. In the application, we have given a numerical
example of the model with real data set.
2. Markowitz Mean-Variance Portfolio Optimization Problem
Harry Markowitz’s study Portfolio Selection, is the first and important step of Modern Portfolio Theory. He
suggested that; investors should decide, between risk and expected return. In the model, risk measured by the
variance of returns. The Markowitz mean variance portfolio optimization problem is defined as two framework,
(2.1)
(2.2)
Returns are denoted as a vector,
Where
.
The average vector of returns over in m period is denoted as
and it can be written as
. The corresponding variance is given as
The proportion of total investment funds is denoted as
, i.e,
.
are constant, called level degree [3].
The another alternative formulation of these model, is risk aversion formulation. The risk aversion formulation
of the classical mean-variance optimization problem is defined as,
where
.
3. Robust Portfolio Optimization Problem
60
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
In spite of the theoretical success of the mean-variance model,practitioners have shied away from this model.
The solution of optimization problems are often very sensitive to perturbations in the parameters of the problem.
Since the estimates of the market parameters are subject to statistical errors, the results of the subsequent
optimization are not very reliable. Various aspects of this phenomenon have been extensively studied in the
literature on portfolio selection. The robust optimization have recently suggested technique in the portfolio
selection problems [2].
The optimal solutions of optimization problems, can be very sensitive to small fluctuations in the problem
inputs. Since the real world data are rarely certain, a number of optimization methods have been suggested for
treating parameter uncertainty. Robust optimization, is a recently developed technique, are in fact the worst case
formulation of the original optimization problem, called robust counterpart of the original problem.
The max-min robust counterpart of the risk aversion model is given as,
(3.1)
[1].
REFERENCES
[1] Fabozzi et al (2007), Robust Portfolio Optimization and Management. John Wiley.
[2] Goldfarb D., Iyengar G.(2003), Robust Portfolio Selection Problems, Mathematics of Operations Research,
Vol. 28.No 1, 1-38, U.S.A.
[3] Markowitz H.M.(1952), Portfolio Selection. The Journal of Finance.New York,77-91.
Key Words: mean-variance optimization, risk aversion formulation , robust optimization
2
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 2
FİNANS, AKTÜERYA VE RİSK YÖNETİMİ 1
3
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
STOKASTİK FAİZ ORANI VE MORTALİTE ETKİSİ ALTINDA
HAYAT SİGORTASI PRİM HESAPLAMASI
Bükre YILDIRIM*, A. Sevtap SELÇUK-KESTEL, N. Gülden COŞKUN-ERGÖKMEN
Orta Doğu Teknik Üniversitesi, Uygulamalı Matematik Enstitüsü, Aktüerya Bilimleri, 06800, Ankara, TÜRKİYE
* [email protected], [email protected]
Hazine Müsteşarlığı, Kamu Sermayeli Kuruluş ve İşletmeler Genel Müdürlüğü,06510, Ankara, TÜRKİYE
[email protected]
1. Giriş
Sigorta şirketlerinde risk yönetimi etkinliğinin en önemli unsurlarından olan risk priminin doğru
belirlenmesi oldukça önemlidir. Hayat sigortası primi hesaplanırken dikkate alınan temel faktörler faiz oranı ve
mortalitedir. Bu faktörler zamana ve içinde bulunulan ekonomik göstergelere göre rassallık göstermektedir.
Parametrelerin modellenmesinde son zamanlarda kullanılan en yaygın modeller Lee-Carter ve zaman serisi
modelleridir. Bu çalışmanın amacı faiz oranı ve mortalite için stokastik modeller kullanılarak, rassallığın hayat
sigortası net tek primi üzerindeki etkisinin incelenmesidir.
2. Lee-Carter Mortalite Modeli
Mortalite hızlarında 20. yüzyıldan itibaren önemli düşüşler gözlemlenmektedir. Süregelen bu düşüş prim
hesaplamalarında genellikle dikkate alınmamaktadır. Değişimin aktüeryal hesaplamalara katılabilmesi için LeeCarter mortalite modeli kullanılan en yaygın modellerden biridir ve aşağıdaki şekilde ifade edilir [1];
(1)
Burada;
merkezi ölüm hızını,
yılı mortalite seviyesini,
ise yaş ve
olan normal dağılıma sahiptir.
yaşa göre ölümlülüğü,
yaşa bağlı ölümlülük değişim hızını,
yılı için artığı ifade etmektedir. Ayrıca , ortalaması varyansı
Lee-Carter mortalite modeli ile bu çalışmada 1933-2013 yılları A.B.D hayat tablosu verileri kullanılarak
model parametreleri elde edilmiş ve 2030 yılına kadar mortalite projeksiyonu yapılmıştır.
3. Stokastik Faiz Oranı
Deterministik faiz oranı yaklaşımının özellikle Türkiye gibi sıklıkla geniş kapsamlı ekonomik
değişikliklere maruz kalan ülkeler için uygulanması gerçekçi olmamaktadır. Bu nedenle 2001-2011 yılları
arasında 6-ay vadeli hazine bonosu ve devlet tahvili faiz oranları enflasyon etkisi de dikkate alınarak aylık olarak
ARMA(1,1) zaman serisi modeli kullanılarak aşağıdaki şekilde modellenmiş ve bu modele dayanılarak
parametre tahminleri yapılmıştır [2];
(2)
(3)
Altı aylık faiz oranı
olmak üzere
uzun dönem ortalamayı,
AR(1) katsayısını,
MA(1)
katsayısını,
ise hata terimini göstermektedir. Elde edilen bulgulara göre modelin geçerliliği ACF, PACF ve
test istatistikleri yardımıyla incelenmiştir.
4. Hayat Sigortası Prim Değeri
Mortalite ve faiz modelleri daha sonra hayat sigortası net tek prim hesaplarına entegre edilerek iskonto
faktörü, , ve prim beklenen değeri,
’e, ait çıkarımlar yapılmıştır [3]. Buna göre;
(4)
(5)
4
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Prim beklen değeri, ’un moment çıkaran fonksiyonu
fonksiyonu olarak bulunmuştr.
Lee-Carter modeli tahminlerine göre elde edilen
şekilde yaş bazında net prim hesaplaması yapılmıştır.
ve
ve ARIMA(p,d,q)
parametrelerinin
değerleri kullanılarak Eşitlik 6’da gösterildiği
(6)
Sonuç olarak elde edilen bulgulara göre stokastik faiz oranı ve mortalitedeki değişimin hayat sigortası net
tek primi ve varyansı üzerindeki etkisinin çıkarımı yapılmıştır.
KAYNAKLAR
[1] Lee, Ronald D., and Lawrence R. Carter. "Modeling and forecasting US mortality." Journal of the
American statistical association 87.419 (1992): 659-671.
[2] Dhaene, Jan. "Stochastic interest rates and autoregressive integrated moving average
processes." ASTIN bulletin 19.S1 (1989): 43-50.
[3] Ergökmen, N. Gülden. "Stochastic modeling of random interest rates in life insurance. " Middle East
Technical University, Unpublished Master Thesis, August 2001.
ABSTRACT
NET PREMIUM VALUATION UNDER STOCHASTIC INTEREST AND MORTALITY RATE
In this study, we investigate the effect of stochastic interest rate and mortality on the actuarial present
value and life insurance premium. ARMA(1,1) time series model for interest rates and Lee-Carter mortality
model for mortality rates are utilized. The valuation of the parameters that effects the life insurance are
performed.
Keywords: Random Interest Rate, ARMA(1,1), Lee-Carter, Actuarial Present Value.
5
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÜSTEL-WEİBULL-PARETO BİLEŞİK DAĞILIMI
1.
Yasemin GENÇTÜRK
Canan HAMURKAROĞLU
Ayten YİĞİTER
Hacettepe Üniversitesi
Fen Fakültesi
Aktüerya Bilimleri Bölümü
[email protected]
Karabük Üniversitesi
İşletme Fakültesi
Aktüerya ve Risk Yönetimi Bölümü
[email protected]
Hacettepe Üniversitesi
Fen Fakültesi
İstatistik Bölümü
[email protected]
Giriş
Sigorta şirketleri prim hesabını yapabilmek, yükümlülüklerini karşılayabilmek için ayırması gereken rezervi
belirleyebilmek ve iflas olasılığını hesaplayabilmek gibi konularda hasar tutarlarının dağılımına ihtiyaç duyarlar.
Sigortacılıkta hasar tutarı verisi genellikle sağa çarpık ve uzun kuyruklu dağılıma sahiptir. Üstel, Gamma,
Lognormal, Pareto ve Weibull gibi bilinen parametrik modellerin hem düşük hem de yüksek tutarlı hasarların
yer aldığı veri kümesine yeterince iyi uyum sağlamadığı görülmüştür. Bu nedenle literatürde belirlenen bir eşik
değerine kadar olan hasarların bir dağılıma, eşik değeri aşan hasarların ise başka bir dağılıma sahip olduğu
düşünülerek yeni dağılımlar elde edilmiştir. Cooray ve Ananda (2005), Danimarka yangın hasar verisini
Lognormal-Pareto bileşik dağılımını kullanarak modellemişlerdir. Ciumara (2006) hasar verisinin
modellenmesinde Weibull-Pareto bileşik dağılımının önermesinin ardından, Preda ve Ciumara (2006)
Lognormal-Pareto ve Weibull-Pareto dağılımlarını karşılaştırmışlardır. Üstel dağılımın basit ve kullanışlı
özellikleri nedeniyle Vernic ve Teodorescu (2006) Üstel-Pareto bileşik dağılımını ele almış, 2009 yılında ise
farklı ağırlıklarla Üstel-Pareto bileşik dağılımı elde etmişlerdir. Scollnik (2007), Cooray ve Ananda (2005)’da
olduğu gibi her bir dağılıma eşit ağırlık vermek yerine farklı ağırlık vererek Lognormal-Pareto bileşik dağılımını
yeniden elde ederek modelleri karşılaştırmışlardır. Vernic, Teodorescu ve Pelican (2009) Lognormal-Lognormal
bileşik dağılımının temel özellikleri ele alınmıştır. Nadarajah ve Bakar (2014) Lognormal-Burr bileşik dağılımını
elde ederek, dağılımın Danimarka yangın hasar verisine uyumu incelenmiştir. Bakar, Hamzah, Maghsoudi ve
Nadarajah (2015) Weibull dağılımına dayalı farklı bileşik dağılımlar elde etmişlerdir.
Bu çalışmada hasar tutarları düşük, orta ve yüksek şiddetli olmak üzere üç gruba ayrılarak, Üstel, Weibull ve
Pareto dağılımlarının birleşiminden oluşan yeni bir model önerilmiştir. Önerilen modelin temel özellikleri
incelenmiştir.
KAYNAKLAR
[1] Cooray K. and Ananda M.M.A (2005), Modeling Actuarial Data with a Composite Lognormal-Pareto
Model, Scandinavian Actuarial Journal, Vol. 5, 321-334.
[2] Preda V. and Ciumara R. (2006), On Composite Models: Weibull-Pareto and Lognormal-Pareto. A
Comparative Study, Institute of Economic Forecasting, Vol.2, 32-46.
[3] Scollnik (2007), On Composite Lognormal-Pareto Models, Scandinavian Actuarial Journal, Vol.1, 20-33.
[4] Teodorescu S. And Vernic R. (2009), Some Composite Exponential-Pareto Models for Actuarial Prediction,
Romanian Journal of Economic Forecasting, Vol.4, 82-100.
[5] Abu Bakar, S.A., Hamzah, N.A., et all. (2015), Modeling Loss Data Using Composite Models, Insurance:
Mathematics and Economics, Vol.61, 146-154.
COMPOSITE EXPONENTIAL-WEIBULL-PARETO DISTRIBUTION
It is important for an insurance company to predict the future claims in order to evaluate premiums, to
determine the reserve necessary to meet its obligation and probabilities of ruin, etc. As claim data is highly
positively skewed and has heavy tail, no standard parametric model seems to provide an acceptable fit to both
small and large losses. Composite models that use one standard distribution up to a threshold and another
standard distribution thereafter are developed and it is seen that these composite models provide better fit than
the standard models.
6
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
In this study, we considered claims as low, middle and high. We use the Exponential distribution up to a
lower threshold, the Weibull distribution thereafter until a high threshold and the Pareto distribution thereafter.
The basic properties of this new Exponential-Weibull-Pareto composite model are provided.
Key Words: Exponential distribution, Weibull distribution, Pareto distribution, Composite models.
Ar-Ge Harcamaları Ve Ekonomik Büyüme Arasındaki İlişkinin
Araştırılması: Türkiye İçin Bir Uygulama
Özer ÖZAYDIN1
Fatih ÇEMREK2
Hakkı POLAT3
1
Yrd.Doç. Dr.Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
Table 1. 2Yrd.Doç. Dr.Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
3
Doktora Öğrencisi Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
Table 2. 1oozaaydı[email protected]
2
[email protected]
3
[email protected]
Ar-Ge Harcamaları Ve Ekonomik Büyüme Arasındaki İlişkinin Araştırılması: Türkiye İçin Bir
Uygulama
Bir ülkenin teknoloji seviyesi o ülkenin gelişmişlik düzeyi hakkında bilgi verir. Bu sebeple AR-GE bir
ülkenin teknoloji yeteneğini tanımlayan en önemli değişkenlerden biridir. Bu çalışmanın amacı AR-GE yatırım
harcamalarının ekonomik büyümeye olan etkisini incelemektir. Böylece ekonomik kalkınmayı hedefleyen bir
ülke, teknoloji seviyesini arttırmak için AR-GE’ye ne derece önem vermesi gerektiği düşünülmüştür. Çalışmada
AR-GE harcamaları (milyon dolar)1 ve ekonomik büyümeye ilişkin olarak Gayri Safi Yurt İçi Hasıla (GSYİH) 2
verileri 1990 – 2013 dönemini kapsayan analizlerde ADF, PP birim kök testleri ve nedensellik testleri
kullanılmıştır. AR-GE ve ekonomik büyüme rakamlarından derlenen veri setinin eşbütünleşme analizi ile analiz
edilmesi sonucunda, uzun dönemde AR-GE yatırım harcamalarıyla ekonomik büyüme arasında çift yönlü bir
ilişki tespit edilmiştir.
Ekonomik büyüme teorileri Frank Ramsey’in 1928 yılında yaptığı “A Mathematical Theory of Saving”
isimli çalışmasıyla başlamış; ekonomide yaşanan değişimlerle birlikte zamanla birçok büyüme teorisi ortaya
atılmıştır. Ramsey’in çalışmasını Harrod ve Domar tarafından ortaya atılan Harrod-Domar modeli izlemiş;
1950’li yıllarda ise Solow (1956) ve Swan (1956) tarafından geliştirilen büyüme modeliyle bu alana yeni katkılar
yapılmıştır. Solow ve Swan çalışmaları ile ortaya atılan Solow-Swan büyüme ya da Neoklasik büyüme modelleri
olarak adlandırılan toeriler, üretim fonksiyonun ölçeğe göre azalan getiriye sahip ve teknolojinin dışsal bir
değişken olduğundan hareketle, büyümenin nihayetinde durağan bir seyir izleyeceğini ileri sürmüşlerdir.
Büyüme sürecinin anlaşılmasında oldukça önemli bir rol oynayan ancak yetersiz kalan Neoklasik büyüme
modeli 1980’li yılların sonlarında yerini içsel büyüme teorisine bırakmıştır. İçsel büyüme modelleri ise ölçeğe
göre artan getirileri ve teknolojinin içsel bir değişken olduğunu vurgulayıp, durağan durum büyüme oranının
üzerinde bir büyümenin gerçekleşebileceğini ileri sürerek literatürde son dönemlerde yerini almıştır.
Teknolojinin dışsal olduğunu reddeden ve teknolojiyi AR-GE ve beşeri sermaye kanalıyla içselleştiren içsel
büyüme teorileri Romer (1990), Grossman and Helpman (1990), AR-GE Modeli, Romer (1986) Bilgi
Yayılmaları Modeli, Lucas (1988) Beşeri Sermaye modeli ve Barro (1990) Kamu Politikası Modeli olarak
kendini göstermiştir. AR-GE’ye dayalı içsel büyüme modellerinde büyümenin motoru AR-GE olarak kabul
edilmiş; böylece AR-GE harcamaları içsel büyüme modellerinde yerini alarak özellikle son yıllarda hem özel
sektörün, hem de kamu sektörünün üzerinde önemle durduğu yeni bir boyut kazanmıştır. Kazandığı bu yeni
boyutla AR-GE harcamalarının inovasyon, verimlilik ve özellikle de ekonomik büyüme üzerinde önemli bir rol
oynadığı yönünde geniş bir literatür oluşmuştur.
AR-GE faaliyetleri, ekonomik büyümenin önemli kaynağı olduğundan günümüz dünyasında AR-GE
harcamaları ile büyüme arasında güçlü bir ilişkinin olması kaçınılmazdır. Ancak AR-GE harcamaları ve büyüme
ilişkisinin yönü de önemlidir. Literatürde yapılan çalışmalar (OECD ülkeleri merkezli) AR-GE harcamalarından
1
2
Veriler OECD resmi istatistik veri tabanından alınmıştır
Veriler Dünya Bankası resmi istatistik veri tabanından alınmıştır
7
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
büyümeye doğru bir nedensellik ilişkisini göstermiştir. Yani bir ülkenin araştırma ve geliştirme faaliyetlerine
yaptığı harcamalar ekonomik büyümeye neden olmaktadır. Bu bağlamda Türkiye’nin AR-GE faaliyetleri ile
ekonomik büyümeye arasındaki nedensellik ilişkisini kurmak ve Türkiye’nin AR-GE faaliyetlerinin büyümeye
ne kadar katkı sağladığını araştırmak bu çalışmanın temel amacı olmaktadır.
Şekil.1 1990-2013 yılları arası Türkiye’de yapılan tüm araştırma geliştirme faaliyetlerinin harcamalarını
milyon dolar cinsinden göstermektedir. Veriler OECD’nin resmi istatistik veri tabanından elde edilmiştir.
Şekil 2.1970-2013 Yılları Arası Türkiye'de ki AR&GE Harcamaları (Milyon Dolar)
Grafik incelendiğinde özellikle 2000’li yıllardan sonra ar&ge harcamalarındaki trend artış hızının daha da
fazlalaştığı görülecektir.
KAYNAKLAR
(1)
[1] Barro, R. J. (1990). The stock market and investment. Review of Financial Studies, 3(1), 115-131.
[2] Grossman, G. M., & Helpman, E. (1990). Trade, innovation, and growth. The American economic
review, 86-91.
[3] Harrod, R. F. 1939. An Essay on Dynamic Theory. Economic Journal 49 (March):14 -33
[4] Lucas, R. E. (1988). On the mechanics of economic development. Journal of monetary
economics, 22(1), 3-42.
Ramsey, F. P. (1928). A mathematical theory of saving. The economic journal, 543-559.
[5] Romer, P. M. (1986). Increasing returns and long-run growth. The journal of political economy, 10021037.
[6] Romer, P. M. (1990). Human capital and growth: theory and evidence. InCarnegie-Rochester
Conference Series on Public Policy (Vol. 32, pp. 251-286). North-Holland.
[7] Solow, R. M. (1956). A contribution to the theory of economic growth. The quarterly journal of
economics, 65-94.
[8] Swan, T. (1956). Economic growth and capital accumulation.
THE RESEARCH OF RELATIONSHIP BETWEEN R&D EXPENDITURE AND ECONOMIC
GROWTH; AN AMPRICAL APPLICATION FOR TÜRKIYE
(2)
The country's development level of a country that gives information about the level of
technology. For this reason, R & D is one of the most important variables that define the ability of a country's
technology. The aim of this study was to investigate the effects of economic growth in R & D investment
expenditures. Thus, a country aspiring to economic development, technology R & D to increase the level
considered necessary to give importance to what degree. In this study, for the 1990 – 2013 period, fort he R & D
and economic growth variables, ADF, PP unit root tests and causality tests were used. In the results of study, for
the series of R & D and economic growth, in the long term, two direction relationship between investment in R
& D spending and economic growth have been identified
8
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Keywords: R & D spending, economic growth, unit root tests, Granger Causality Test.
9
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÜSTEL-UYARLANMIŞ KESİKLİ LİNDLEY DAĞILIMI
Mehmet YILMAZ1, Monireh HAMELDARBANDI2
1, 2
Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Ankara, Türkiye
[email protected], [email protected] ve 2Tübitak 2215 bursiyeri
1
1. Üstel-Uyarlanmış Kesikli Lindley Dağılımı ve Özellikleri
Bu çalışmada, parçaların yaşam zamanları
ortalamalı üstel olan rasgele
sayıda parçaların seri olarak
bağlandığı sistemin yaşam ömrünün dağılım özellikleri ve parametre tahmin yöntemleri incelenmiştir. Burada
, kesikli Lindley dağılımının parametresinde dönüşüm yapılarak elde edilen ve sıfır değerinden budanmış olan
uyarlanmış Lindley dağılımına sahiptir.
Tanım 1. Uyarlanmış kesikli Lindley dağılımı aşağıdaki şekilde tanımlanmıştır:
Tanım 2.
olsun ve
ler üstel dağılımından alınsın, burada
rasgele değişkeni de
kesikli uyarlanmış Lindley dağılımına sahiptir, şimdi
verilmişken
in koşullu olasılık yoğunluk
fonsiyonu aşağıdaki gibidir:
(1) ve (2) eşitliğinden
in marjinal olasılık yoğunluk fonksiyonu aşağıdaki gibidir:
2 Üstel-Uyarlanmış Kesikli Lindley (ÜUKL) Dağılımının

ve

Parametreleri için Tahminleri
2.1. Momentler yöntemi:
Lineer olmayan denklem sisteminin çözülmesi ile elde edilir. Fakat burada sonsuz toplam serisi olduğu için
yazılımda işlem hızı bakımından (5) ifadesindeki I toplamı için alt ve üst sınırlar bulunarak ve parametreleri
için yapay momentler tahmini elde edilmiştir.
2.2 En çok olabilirlik yöntemi:
gibi tam gözlemli veri seti göz önünde bulundurularak EM
algoritması uygulanmış ve ve için iteratif tahminler elde edilmiştir.
10
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
burada
ve
dir.
KAYNAKLAR
[1] Adamidis K. and Loukas S. (1998), A lifetime distribution with decreasing failure rate, Statistics
Probability Letters, 39, 35-42.
[2] Adamidis K., Dimitrakopoulou Th. and Sotirios L. (2005), On an extension of the exponential-geometric
distribution, Statistics Probability Letters, 73, 259-269.
[3] Ghitany M.E., Al-Mutairi D.K. and Nadarajah S. (2007), Zero-truncated poisson-Lindley distribution and
its application, Journal of Mathematics and Computer Science Research, 79, 279-287.
[4] M. Ristic, M. and Balakrishnan N., (2012), The gamma-exponentiated exponential distribution, Journal of
Statistical Computation and Simulation, Vol. 82, No. 8, 1191-1206.
[5] Shanker R. and Mishra A., (2013), A quasi Lindley distribution, African Journal of Mathematics and
Computer Science Research, Vol. 6(4), pp. 64-71.
ABSTRACT
EXPONENTIAL-MODIFIED DISCRETE LINDLEY DISTRIBUTION
In this study, we consider a series system composed of stochastically independent M-component where M
is a random variable having the zero truncated modified discrete Lindley distribution. This distribution is newly
introduced by transforming on original parameter.
We examine the properties of the distribution of the lifetime of above system under the given
circumstances and also parameters of this new lifetime distribution are estimated by using moments and EMalgorithm.
Key Words: Modified Discrete Lindley Distribution, Exponential-Modified Discrete Lindley Distribution,
Moments Method, Maximum likelihood estimation method, EM-Algorithm.
11
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 2
BULANIK TEORİ 1
12
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AĞIRLIKLI BULANIK DESTEK VEKTÖR SINIFLANDIRMASI
Furkan BAŞER1, Ayşen APAYDIN2
1
Gazi Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, Uluslararası Ticaret Bölümü 06500-Beşevler, Ankara
E-mail: [email protected]
2
Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü 06100-Tandoğan, Ankara
E-mail: [email protected]
1. Giriş
İstatistiksel öğrenme teorisinin Vapnik [1] tarafından ortaya atıldığı 1960’lardan bu yana, örüntü tanıma,
sınıflandırma ve regresyon gibi birçok problemin çözümlenmesi için iyi makine öğrenmesi tekniğinin
geliştirilmesi önemli bir araştırma alanı haline gelmiştir. Destek vektör makineleri (DVM) de fonksiyon tahmini
ve sınıflandırma problemlerinin çözümü için önerilmiş olan bir istatistiksel öğrenme algoritmasıdır [2]. DVM,
sınırlı sayıda öğrenme örüntüsü üzerinden iyi bir genelleme düzeyi sunması nedeniyle oldukça geniş uygulama
alanına sahiptir [3, 4].
Mevcut bilginin belirsiz ya da bulanık olduğu bazı sistemlerin modellenmesinde, sistemin bir bulanık yapısı
mutlaka göz önüne alınmalı ve çözümlenmelidir [5]. Bu yapılar, parametreleri, girdi veya çıktı değişkenleri
bulanık kümelerle tanımlı bir bulanık fonksiyon ile temsil edilirler. Bu çalışmada, ağırlıklı bulanık destek vektör
sınıflandırması olarak adlandırılan yeni bir bulanık sınıflandırma yöntemi önerilmiştir. Ele alınan sınıflandırma
modelinde, sabit (yan) terim ve eğitim örneklerinde girdi – çıktı değerleri, asimetrik (simetrik) üçgensel bulanık
sayılar olarak tanımlanmıştır. Önerilen ağırlıklı bulanık destek vektör algoritmasına göre parametre tahminleri,
DVM’nin temelini oluşturan düşünceler kullanılarak gerçekleştirilmiştir. Önerilen yöntemin bir özelliği de
oluşturulan karesel programlama problemine ilişkin bulanık işlemlerde, ağırlıklı bulanık aritmetikten
faydalanılmasıdır.
2. Yöntem
,
asimetrik
;
üçgensel
bulanık
sayısı
için
bulanık girdi vektörü göz önüne alınsın. Burada
ile asimetrik üçgensel
bulanık sayıların
boyutlu vektörlerinin bir kümesi gösterilmektedir. Ayrıca gözlenen bulanık girdilerden
yararlanarak merkez için
, sol genişlik için
ve sağ genişlik
için
vektörleri oluşturulsun.
Sınıflandırma problemlerinde,
kümesi için hiperdüzlem karar fonksiyonu,
,
olmak üzere
,
,
bulanık eğitim örneklerinin bir
(1)
biçiminde tanımlanır. Başarılı bir eğitim süreci sonunda, ve katsayı tahminleri kullanılarak, yeni gözlenen
örüntüleri için
işaret fonksiyonuna göre çıktı üretilir. Burada
kesin
(crisp) regresyon katsayıları ve
asimetrik üçgensel bulanık sayı olarak tanımlanan sabit
terimdir. Özel bir değerleme yönteminin kullanımına dayanan ağırlıklı bulanık aritmetik, bulanık küme işlem
sonuçlarını, kesin reel sayılara dönüştürmek üzere durulaştırma (defuzzification) yaklaşımından yararlanır.
ile tanımlanan kesin sayı işlem sonuçları, bulanık aritmetik işlemlerinin ortalama değeri şeklinde
yorumlanabilir.
13
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Optimum ayırma hiperdüzleminin bulunması, doğrusal kısıtlar ile tanımlı bir karesel optimizasyon problemidir.
eğitim verisi mevcut olmak üzere önerilen yönteme göre programlama
problemi,
Amaç fonksiyonu:
Kısıtlar:
(2)
biçiminde oluşturulur. Bu modelde kullanıcı tarafından belirlenmesi gereken
katsayısı, hiperdüzlem karar
fonksiyonunun karmaşıklığı ile deneysel risk arasındaki arasındaki değişimi kontrol eder. (2) ile verilen
optimizasyon problemi, yüksek boyutlu girdi uzayları için çözümlenecekse dual formuna dönüştürülmesine
ihtiyaç duyulur [2].
KAYNAKLAR
[1] Vapnik, V. and Chervonenkis, A. (1971). On the uniform convergence of relative frequencies of events to
their probabilities, Theory of Probability and its Applications, 16, 264–280.
[2] Vapnik, V. (1995). The Nature of Statistical Learning Theory, Springer, Newyork.
[3] Cherkassky, V. and Mulier, F. (2007), Learning From Data: Concepts, Theory, and Methods, New Jersey,
John Wiley & Sons.
[4] Vapnik, V. (1998). Statistical Learning Theory, John Wiley & Sons, Newyork.
[5] Baser, F. and Apaydin, A. (2015). Hybrid fuzzy support vector regression analysis, Journal of Intelligent &
Fuzzy Systems, 28 (5), 2037–2045.
ABSTRACT
WEIGHTED FUZZY SUPPORT VECTOR CLASSIFICATION
Support vector machines (SVM) was originally developed to solve pattern recognition and regression function
estimation problems for crisp data. However, in many system modeling applications, the observed input data
cannot be measured precisely, so it becomes meaningful to utilize fuzzy theory. In this paper, we propose a new
fuzzy support vector machine algorithm for solving two-class problems. Proposed method is complete and
meaningful, and could generalize the traditional non-fuzzy SVM to a fuzzy one.
Key Words: Classification, support vector machines, weighted fuzzy arithmetic.
14
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ANFIS YÖNTEMİ İLE HAVA SICAKLIK TAHMİNİNİN
MODELLENMESİ
Cemil ÇELİK*
Kasım BAYNAL*
*Kocaeli Üniversitesi/Mühendislik Fakültesi, Endüstri Mühendisliği Bölümü, 41380, Kocaeli,
TÜRKİYE, [email protected], [email protected]
Hava sıcaklık tahmini karar destek yöntemlerinden biridir. Özellikle sıcaklığın doğruya yakın tahmin
edilmesi başta tarım, hayvancılık, turizm ve birçok sektörün önünü görebilmesi açısından son derece önemlidir.
Bu sayede birçok sektör stratejilerini bu tahmine göre belirleyebilirler. Stratejilerini ve amaçlarını uygun
belirleyen sektördeki işletmeler pazardaki diğer rakiplerine üstünlük sağlayabilirler. Bu çalışmada sıcaklık
tahmin modelinin ilk bölümünde; sıcaklık tahmin modeli için literatür araştırması yapılmış ve sıcaklığı etkileyen
en önemli sekiz parametre belirlenmiştir. Bu parametreler hava basıcı, su buhar basıncı, bağıl nem, rüzgâr hızı,
yükseklik, bitki örtüsü, kara ve denizlerin dağılımı ve bakı olarak belirlenmiştir. Bu kriterler uzman görüşleri
doğrultusunda çok kriterli karar verme yöntemlerinden AHP ve kriterlerin birbirleri ile olan ilişkilerin önemini
belirlemede yardımcı olan DEMATEL yöntemleri kullanılarak sıcaklığa etki eden sekiz ana kriterlerin etkinlik
sıralaması belirlenmiş ve sıcaklığa en çok etki eden dört kritere düşürülmüştür.
Tablo 1. AHP ve DEMATEL yöntemleri ile kriterlerin belirlenmesi
AHP-W
DEMATEL-W
0
1. Hava Basıncı
1. Su Buhar Basıncı
,31
0
2. Su Buhar Basıncı
2. Rüzgâr Hızı
,25
0
3. Bağıl Nem
3. Bağıl Nem
,16
0
4. Rüzgâr Hızı
4. Hava Basıncı
,08
0
,143
0
,143
0
,142
0
,142
Sıcaklığa etki eden sekiz ana kritere iki farklı yöntem uygulanarak Tablo 1’de etkin dört kriter ve
ağırlıkları belirlenmiştir. AHP yöntemi ile dört etkin kriterin ağırlıkları toplandığında % 80’lik bir gücünün
olduğu görülmüştür. DEMATEL yönteminde ise bu ağırlıkların gücünün % 57 olduğu görülmüştür. Bu sonuçlar
tahmin değerinin % 80 ile AHP ve %57 ile DEMATEL ile açıklanabilirliğini göstermektedir.
Sıcaklık tahmin modelinin ikinci bölümü; dört aşamalı bir çalışmadan oluşmuştur. İlk aşamada ANFIS girdi
seçimi ile çıktıyı en çok etkileyen girdilerin seçimi gerçekleştirilmiş ve en önemli üç girdiye indirilerek eğitim
yaptırılmıştır. İkinci aşamada seçilen dört girdi normalize edilerek sistemde eğitime tabi tutulmuştur. Üçüncü
aşamada dört girdi ve Sub.Clustering yöntemi ile de eğitime tabi tutulmuştur. Bu eğitimler sonucunda en az
hataya sahip üyelik fonksiyonu seçilmiştir.
Tablo 2 dikkate alındığında en düşük eğitim hata değerinin başlangıç veri setinin kullanıldığında elde
edildiği görülmüştür. Başlangıç eğitim setinde her bir girdiye ait beş üyelik fonksiyonunu verilmesi ile trimf
(Üçgen üyelik fonksiyonu) üyelik fonksiyonun sıcaklık tahmininde en iyi üyelik fonksiyonu olduğu
belirlenmiştir. Dördüncü aşamada uygun üyelik fonksiyonunu ve adedi belirlenerek ANFIS modeli kurulmuştur.
Kurulan modelin etkinliğini gösterme adına Kocaeli ili için farklı veri seti kullanarak hata kareleri ortalamasının
karekökü ve mutlak hata yüzdeleri ortalaması hesaplanmıştır.
Çalışmada %75 eğitim ve %25 test verileri (hiç görmediği) ile oluşturulan modelin hiç görmediği veriler
ile de test edip MAPE değeri hesaplandığında modelin %93,5 doğrulukta bir tahmin gerçekleştirdiği
görülmüştür. Bu oran Cho’nun sınıflandırmasına göre çok iyi olarak tespit edilmiştir. Bu oran Tablo 3’de
yapılmış diğer çalışmalar ile karşılaştırıldığında tutarlı ve etkin olduğu tespit edilmiştir. Ulaşılan sonuçlar diğer
çalışmalara göre ANFIS modelinin çok daha tutarlı olduğu ve eldeki girdi-çıktı setine uygun bir yapı sunduğu
sonucuna varılmıştır. Bu çalışmada; ANFIS ile sıcaklık tahmininin modellemesinde AHP ve DEMATEL tabanlı
bir yaklaşım sunulmuştur.
15
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Tablo 2. Farklı Eğitim biçimlerinde hata değerleri
Çev
Eğitim Biçimi
rim Sayısı
Üyelik Fonksiyon/Kısıt
3 Kriterli Eğitim
40
trimf
Normalizasyon Eğitim
40
gbellmf
Başlangıç Veri Eğitim
40
trimf
80
RI=0,5 SF=1,25 AR=0,5
RR=0,15
Başlangıç Veri Sub Clustering
Eğitim
Tablo 3. Sıcaklık tahmin sonuçları
Y
AD
IL
2
Parkaj Kumar
012
Mehmet Tektaş
Nafiz
Berber/Aslı Boru
2
010
2
013
Hata
Değeri
0,415
56
0,499
05
0,361
08
0,404
38
TEST SONUCU
%91,63 DOĞRU
Training; MAE:1,25 ve
RMSE:1,63
Testing; MAE: 1,32 ve
RMSE: 1,71
%89 DOĞRU
KAYNAKLAR
[1] Cho V., A Comparison of Three Different Approaches to Tourist Arrival Forecasting, Tourism
Managment, 2003, 24(3), 323-330.
[2] Saaty T.L., (1990), How to make a decision: the analytic hierarchy process”, European Journal of
Operational Research, 48, p.9-26.
[3] Shieh J. I., Wu, H. H., Huang, K. K. (2010). A dematel metot in identifying key success factors of
hospital service quality.”, Knowledge-Based Systems, 23(3), 277-282.
[4] Hocaoglu, F., Oysal, Y., Kurban, M., Missing wind data forecasting with adaptive neuro fuzzy
inference system, Neural Computation & Application 18: 207-212 (2009).
THE MODELING OF WEATHER TEMPERATURE FORECAST WITH ANFIS
In this study, the first part of the temperature forecasting models; literature searching is made and eight active
criterion is determined. These criteria are reduced to the most efficient four criteria according to expert opinion
with applying of AHP and DEMATEL methods. The second part of the temperature forecasting models; it
consists of a four-stage operation. In the first stage the choice of input has been performed most affecting output
with choosing inputs of ANFIS and it was built training the three most important input to reduced. In the second
stage the selected four entries is normalized and it has been trained on the system. The third stage four entries
have been trained. As a result of this training membership function of having at least one error is selected. In the
fourth stage ANFIS model is established with determining the appropriate membership functions and number of
membership functions. RMSE and MAPE is calculated to show the effectiveness of the established model also
using the different data set. Reached results show that more consistently of ANFIS model according to other
studies and it concluded has been reached offered by a structure according to available input output set. In this
study, AHP and DEMATEL based approach is presented in the temperature forecasting modeling with ANFIS.
Keywords:
AHP,
ANFIS,
DEMATEL,
Temperature
Forecasting.
16
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BULANIK AĞIRLIKLI ORTALAMA YÖNTEMİ İLE TEDARİKÇİ
SEÇİMİNDE KANAAT UZAYI DEĞERLENDİRMESİ
M. Bahar BAŞKIR
Bartın Üniversitesi Fen Fakültesi İstatistik Bölümü 74100 Merkez-Bartın
[email protected]
1.
Bulanık Ağırlıklı Ortalama ile Tedarikçi Seçim Memnuniyeti
1.1. Kanaat Uzayı Temelli Tedarikçi Seçim Memnuniyeti
Müşteri-İşletme-Tedarikçi (M-İ-T)’nin karar verme sürecindeki davranışları memnuniyetin belirlenmesinde
önemlidir. Prasad [1], ürün/servis süreçlerinde karar vericilerin kanaatini göz önüne alan kuramsal model
diyagramından bahsetmektedir. Kuramsal karar modellerindeki Kanaat uzayının karar verme süreçlerinde önemli
bir etkisi bulunmaktadır. Bu çalışmada, tedarikçi seçimi kapsamında karar vericilerin her bir tedarikçi
karakteristiğinin müşteri beklentilerini sağlaması konusundaki deneyim bilgisine (DB) ve güvenine (G) dayalı
ortak kanaati (K) (1)’ de verilen eşitlik ile elde edilmektedir:
K ij 
  G
p
  G
p
ij

ij


 DBij   G ij  DB ij 
p


 

 DBij   G ij  DB ij    p  Gij  DB ij  G ij  DBij 
p

p
,
p  1,..., P
(1)
burada, G ij  1 Gij ve DBij  1 DBij , P: karar verici sayısı, n: müşteri beklentisi sayısı (i=1,2,…,n), m:
tedarikçi karakteristiği sayısı ( j=1,2,…,m) dir.
Kanaat uzayının iki önemli bileşeni (Deneyim Bilgisi ve Güven) ile yapılan çalışmalarda karar verici
değerlendirme sisteminin arka planında yer alan düşünce yapısı kaynaklı belirsizlikler irdelenebilmektedir.
Ancak, deneyim bilgisi ve güven değerlendirmelerin öznel niteliği kaynaklı belirsizlik problemi
çözümlenememektedir.
1.2. Bulanık Ağırlıklı Ortalama
Gerçek yaşama dair bir olgunun seçim ve değerlendirme çalışmalarında karar verici düşünce yapısı (algısı) ve
farklılıkları etkili olmaktadır. Karar vericilerin ortak karar yapılarını belirlemede kesin ve bulanık birçok yöntem
geliştirilmiştir. Bu yöntemler içerisinde klasik ağırlıklı ortalama yönteminin kullanımı yaygındır. Bu yöntem,
karar verici algısı kaynaklı belirsizliklerin çözümlenmesinde yetersiz kalmaktadır. Belirsizlik çözümlemesinde
Zadeh [2] tarafından literatüre mal edilen bulanık mantık ve üyelik dereceleri önemli bir araçtır. Günümüz
mühendislik tasarımları, tedarikçi seçim ve değerlendirmeleri gibi alanlardaki karar verme problemleri
çalışmalarında bulanık bir yaklaşım olan Bulanık Ağırlıklı Ortalama (BAO) yöntemi kullanılmaktadır (örnek
olarak bkz. [3]-[5]). Bu çalışmada, Vanegas ve Labib [3]’in Zadeh’in genişleme prensibine dayalı olarak önerdiği
BAO yöntemi kullanılmaktadır. Vanegas ve Labib’in [3] önerdiği Bulanık Ağırlıklı Ortalama (kısaca BAOVL)
yöntemi, mühendislik tasarımlarında öznel değerlendirmelere dayalı olarak karar vericilerin ortak memnuniyetini
ortaya koymada bulanık sayıların kullanımı ile daha güvenilir ve kavramsal belirsizliği azaltıcı niteliktedir.
Ayrıca, BAOVL yöntemi hesaplamada kolaylık sağlamaktadır. Bu çalışmada, her bir tedarikçi karakteristiğinin
müşteri beklentilerini karşılamada karar vericilerin Tedarikçi seçimine ilişkin kanaat uzayı temelli toplam
memnuniyeti BAOVL ile hesaplanmaktadır. Tedarikçi seçimi için güncellenmiş BAOVL Tanım 1’de verilmektedir.
Tanım 1. n: müşteri beklentisi sayısı olmak üzere her i=1,2,…,n için,
gösteren bulanık sayı,
Kij :
Wi : i. müşteri beklentisinin önemini
karar vericilerin j. tedarikçi karakteristiğinin i. müşteri beklentisini
sağlanmasındaki kanaat temelli memnuniyeti gösteren bulanık sayı olsun. Toplam Memnuniyet ve i. Müşteri
17
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
beklentisi ortak önemi için α-kesit aralıklar sırasıyla
gösterilsin. Buna göre,
K j a
K j   K j a , K j b 
 n a
  Kij wi
 i 1 n
 min
wi Wi a ,Wi b  


  wi
 i
K j   K j a , K j b 
ve
Wi  Wi a ,Wi b  ile
alt ve üst limitleri (2)’deki gibi hesaplanır:

 n b

  Kij wi
b
 ve K j  maks  i 1 n
wi Wi a ,Wi b  




  wi

 i
Vanegas ve Labib [3]-[4], Min ve Maks operatörlerini






(2)
wi  Wi a ,Wi b  olarak tanımlı wi’nin tüm olabilir
kombinasyonları için minimum ve maksimum değerleri olarak ele almaktadır.
KAYNAKLAR
[1] Prasad B. (1997), Concurrent engineering fundamentals volume II integrated product development,
Prentice Hall PTR, New Jersey.
[2] Zadeh L.A. (1965), Fuzzy sets, Information Control, 8, 338-353.
[3] Vanegas L.V. and Labib A.W. (2001a), Application of new fuzzy-weighted average (NFWA) method to
engineering design evaluation, International Journal of Production Research, 39(6),1147-1162.
[4] Vanegas L.V. and Labib A.W. (2001b), A fuzzy quality function deployment model for deriving optimum
targets, International Journal of Production Research, 39(1), 99–120.
[5] Dursun M. and Karsak E.E. (2013), A QFD-based fuzzy MCDM approach for supplier selection, Applied
Mathematical Modelling, 37, 5864–5875.
ABSTRACT
EVALUATION OF BELIEF SPACE IN SUPPLIER SELECTION USING FUZZY WEIGHTED
AVERAGE METHOD
In this study, the overall belief-based desirability of decision makers in supplier selection is evaluated
using a fuzzy weighted average method. As a result, the fuzzy approach yields more sensitive evaluations
compared to the classical weighted average method.
Key Words: Supplier selection, Belief space, Fuzzy weighted average.
18
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BULANIK BAYESCİ AĞLAR ve BİR UYGULAMA
Duygu İÇEN
Hacettepe Üniversitesi, İstatistik Bölümü, 06800, Beytepe, Ankara
[email protected]
Derya ERSEL
Hacettepe Üniversitesi, İstatistik Bölümü, 06800, Beytepe, Ankara
[email protected]
1.
Giriş
Bayesci ağlar, raslantı değişkenlerinin çok değişkenli olasılık dağılımını temsil eden ve bu değişkenler
arasındaki olasılıksal ilişkilerin anlaşılmasını sağlayan grafiksel modellerdir. Bayesci ağlarda belirsiz tanım
kümesini temsil etmek için, veri ve uzman görüşü beraber kullanılabilir. Bazı durumlarda veri ve uzman
bilgisindeki yetersizlikler nedeniyle Bayesci ağlarda bilgiyi temsil etmek zordur. Bu zorluğu aşmak için Bayesci
ağlarda olasılıklar, Buckley’ nin önerdiği güven aralığı yaklaşımı ile bulanık olarak hesaplanabilir. Dolayısıyla,
olasılıkların hesaplanmasında veri ve uzman bilgisi beraber kullanılarak gerçek hayata daha yakın ve
yorumlanması daha kolay sonuçlar bulanık Bayesci ağlar ile elde edilir.
2.
Bulanık Bayesci Ağlar
Bir Bayesci ağ, V  X1 ,
, X n  raslantı değişkenleri kümesine ilişkin çok değişkenli olasılık dağılımını
temsil eden yönlü dönüşsüz grafiktir. Bayesci ağlar iki bileşenden oluşur. Birinci bileşen, düğümlerin raslantı
değişkenlerini, düğümler arasındaki bağların ise bu değişkenler arasındaki doğrudan bağımlılıkları gösterdiği bir
grafik yapısıdır. Bu yapı, koşullu bağımsızlık varsayımlarını içerir. Bayesci ağların ikinci bileşeni, ağdaki
parametrelerin kümesini gösterir. Bu parametreler, Bayesci ağdaki her bir
X i raslantı değişkenine ilişkin
koşullu olasılık dağılımlarıdır. Bir X i raslantı değişkeni için koşullu olasılık dağılımı, X i ’nin ebeveynlerinin
kümesi
i olmak üzere, xi i  PBN  Xi i  biçiminde tanımlanır. Bayesci ağ yapısından ve koşullu
olasılıklardan yararlanarak, V için çok değişkenli olasılık dağılımı aşağıdaki eşitlikten yararlanılarak elde edilir.
Çok değişkenli olasılık dağılımının bu eşitlikten elde edilmesi “zincir kuralı (chain rule)” olarak adlandırılır
(Jensen 2001, Boettcher ve Dethlefsen 2003).
P  X1 ,
n
n
i 1
i 1
, X n    P  Xi i    Xi i
(1)
Bu çalışmada Bayesci ağlardaki koşullu olasılıkların bulanık olarak hesaplanmasında Buckley’nin yaklaşımı
kullanılacaktır (Buckley 2003, 2004, 2006). A  x1 ,
, x m  1   k  m  n 
x   a 1  i  n  olarak tanımlansın. B değişkeni
olasılığı  P  A B      aşağıdaki eşitlikten yararlanılarak
ayrık kümeler olmak üzere bulanık olasılık P
verildiğinde A değişkeninin koşullu bulanık
, x k  ve B  x l ,
i
i
hesaplanır (Buckley 2006).
 k
  a i
P  A B       iml
  ai
 i l
n
a i  a î    , 1  i  n,  a i  1
i 1
19
(2)
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Eşt. (2)’deki bulanık olasılıklar uzman bilgisinden veya koşullu olasılıklardan yararlanılarak hesaplanabilir.
3.
Sonuç
Bu çalışmada, UCI Machine Learning Repository’ den alınan veri kullanılarak, araç sigortası için araçların risk
faktörlerinin belirlenmesinde bulanık Bayesci Ağlar kullanılmıştır. Ele edilen sonuçlar klasik Bayesci ağlardan
elde edilen sonuçlarla karşılaştırılmıştır.
KAYNAKLAR
[1] Buckley J.J. (2003), Fuzzy Probabilities: New Approach and Applications, vol 164. Physica, Heidelberg.
[2] Buckley J.J. (2004), Fuzzy statistics, vol 167. Springer, Germany.
[3] Buckley J.J. (2006), Fuzzy Probability and statistics, vol 270. Springer, Netherlands.
[4] Jensen, F.V. (2001), Bayesian Networks and Decision Graphs, Springer-Verlag, New York, 268p.
[5] Boettcher S.G and Dethlefsen C. (2003), deal: A package for learning Bayesian networks. Journal of
Statistical Software. 8(20), pp.1-40.
ABSTRACT
FUZZY BAYESIAN NETWORKS AND AN APPLICATION
Bayesian Networks are graphical models encoding the joint probability distributions of random variables and
representing probabilistic relationships among these variables. Data and expert opinion can be used together to
represent uncertain domain in Bayesian networks. It is sometimes hard to represent uncertain domain because
of the ambiguity in data or expert opinion. To overcome this problem fuzzy probabilities are calculated by
Buckley’s confidence interval approach in Bayesian networks.
In this study, fuzzy Bayesian networks are used to determine the risk factors for automobile insurance by using
the data acquired from UCI Machine Learning Repository.
Key Words: Bayesian Networks, Fuzzy Probability, Fuzzy Bayesian Networks.
20
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 2
ÇOK DEĞİŞKENLİ İSTATİSTİKSEL ANALİZ 1
21
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MEME KANSERİ HASTALARINDA POZİTİF LENF NODU SAYISINA
İLİŞKİN SIFIR AĞIRLIKLI POİSSON VE NEGATİF BİNOM POİSSON
MODELLERİNİN KARŞILAŞTIRILMASI
Adnan KARAİBRAHİMOĞLU1*, Yasin ASAR2, Hakan BAŞBOZKURT3, Aşır GENÇ4
1
*Necmettin Erbakan Üniversitesi, Meram Tıp Fakültesi, TEBAD,42080, Konya, TÜRKİYE,
[email protected]
2
Necmettin Erbakan Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Konya, TÜRKİYE, [email protected],
[email protected]
3
Bingöl Sanayi ve Ticaret Odası Bingöl, TÜRKİYE, [email protected]
4
Selçuk Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Konya, TÜRKİYE, [email protected]
1.
GİRİŞ
Sayma verisine dayalı kesikli değişkenlerde klasik regresyon modellemesi uygun sonuçlar vermemektedir. Bu
tür verilerin regresyon analizi için Poisson regresyon yöntemi geliştirilmiştir. Sayıma dayalı kesikli verilerde
dağılım sorunları genellikle sıfır değerinin fazla olması, aşırı yayılım (overdispersion) göstermesi ve karma
dağılımlara sahip olması şeklinde karşımıza çıkmaktadır. Sayma değerlerinin ağırlıklı olarak sıfır (0) olduğu
durumlar için Sıfır Ağırlıklı Poisson (Zero-Inflated Poisson); aşırı yayılım gösteren dağılımlar içinse Negatif
Binom (Negative Binomial Poisson) modelleri geliştirilmiştir. Poisson dağılımı gereği serinin ortalaması
varyansına eşit olmalıdır. Ancak aşırı yayılım durumunda bu şart sağlanmaz ve klasik Poisson regresyon modeli
anlamlı
tahminler
vermez.
Poisson
regresyon
modeli
için
E(Y)=λ
iken
log( )  X     exp( X  ) dönüşümü
üzere P( yi  0)    (1   )e  ve
yapılır. Sıfır ağırlıklı model için π, fazla sıfır olasılığı olmak
P( yi  h)  (1   )
 h e 
h!
, h  1 olasılıkları ve ̂ için iterasyon
yöntemi ile en çok olabilirlik (maximum likelihood) tahmin edicisi kullanılarak sıfır ağırlıklı model elde edilir.
Aşırı yayılım durumunda ise negatif binom dağılımının kullanılması daha iyi sonuç vermektedir. Aynı şekilde
E(Y)=λ ve r>0 parametreleri için π, fazla sıfır olasılığı olmak üzere


r 
dönüşümü ile negatif binom
Poisson modeli elde edilir [1],[2],[3].
Meme kanseri tüm kanser türleri içerisinde ikinci, kadınlarda ise birinci sırada ölümcül bir kanser çeşididir.
Meme içerisinde gelişen tümör lenf bezlerine yayılırsa bu duruma pozitif lenf nodu denilmektedir. Lenf nodu
(bezi), lenfatik sistemin bir parçası olup kol altında yer alırlar ve kollarda, göğüslerde biriken lenf sıvısının
boşaltılmasını sağlarlar.
2. AMAÇ
Bu çalışmanın amacı, pozitif lenf nodu sayısını modellemek üzere oluşturulan sıfır ağırlıklı Poisson modeli,
negatif binom modeli ve sıfır ağırlıklı negatif binom modellerini karşılaştırmaktır.
3. YÖNTEM ve GEREÇ
Çalışmanın evrenini Meram Tıp Fakültesi Tıbbi Onkoloji kliniğine başvuran 1371 meme kanseri hastası
oluşturmuştur. Retrospektif olarak 2002-2013 yılları arasında hasta dosyaları taranarak veri kümesi oluşturulmuş
ve etik onayı alındıktan sonra analizlerin yapılmasına geçilmiştir. Pozitif lenf nodu sayısı bağımsız değişken
olarak; çocuk sayısı, vücut kütle indeksi gibi sayısal değişkenlerin yanı sıra menopoz durumu, tümör evresi,
kalsifikasyon, ek hastalık, metastaz, mikrokalsifikasyon ve kemik metastazı gibi nominal ve sıralı değişkenler ise
bağımsız değişken olarak kabul edilmiştir. Logit modeller oluşturularak log likelihood (LL) ve enformasyon
kriter değerleri ile karşılaştırmalar yapılmıştır.
4. TARTIŞMA ve SONUÇ
Sıfır ağırlıklı Poisson modelinde anlamlı değişken sayısının fazla olmasına karşın sıfır ağırlıklı negatif binom
modeli daha uyumlu bulunmuştur. LL değerinin daha büyük, dolayısıyla AIC ve BIC değerlerinin daha küçük
olması nedeniyle ZINB modeli pozitif lenf nodu sayısını açıklamada daha kullanılabilir bir modeldir (Çizelge.1)
[4], [5].
22
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çizelge1. Modellere ilişkin karşılaştırmalar
LL
AIC
Sıfır ağırlıklı Poisson -3296,05
6616,11
(ZIP)
Negatif binom Poisson
(NB)
Sıfır ağırlıklı negatif
binom (ZINB)
BIC
6678,72
-2950,29
5922,58
5979,97
-2112,03
4250,07
4317,89
Bağımsız değişken (p<0,05)
Menopoz, tümör evresi,
kalsifikasyon, ek hastalık,
metastaz, kemik metastaz
Tümör evresi, metastaz, kemik
metastaz
Tümör evresi, kemik metastaz
Anahtar Kelimeler: Model uyumu, negatif binom, Poisson regresyon, , sıfır ağırlıklı Poisson
.
KAYNAKLAR
[1] Hilbe, J. M., (2011), Negative Binomial Regression, Cambridge University Press, UK
[2] Cameron, A. C. & Trivedi, P. K. (1998), Regression Analysis of Count Data, Cambridge University Press,
USA
[3] Lawles, J. F., (1987), Negative Binomial and Mixed Poisson Regression. The Canadian Journal of Statistics,
15 (3): 209-225
[4] Hall, D. B. (2000), Zero-Inflated Poisson and Binomial Regression with Random Effects: A case study.
Biometrics. 56: 1030-1039
[5] Yeşilova, A. (2009), Sıfır Değer Ağırlıklı Sayıma Dayalı Verilerin Analizinde Hurdle Modelin Kullanılması.
Anadolu Üniversitesi Bilim ve Teknoloji Dergisi. 10(2): 467-475
COMPARISON OF ZERO-INFLATED AND NEGATIVE BINOMIAL REGRESSION MODELS OF
NUMBER OF POSITIVE LYMPH NODES ON BREAST CANCER PATIENTS
When the dependent variable is a count data, Poisson regression is used in modeling. However there are many
types of Poisson-based regression models according to the nature of data. The difference is sourced from,
generally, the number of zero counts, overdispersion and having mixture distribution. The aim of this study is to
compare zero-inflated Poisson, negative binomial and zero-inflated negative binomial Poisson regression results
to model the number of lymph nodes, which is very important in prognosis, on breast cancer patients. According
to the results, we found that zero-inflated negative binomial model fits best the data.
Key Words: Model fit, negative binomial regression, Poisson regression, zero-inflated Poisson regression
23
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SAĞLAMLIK ÖZELLİĞİNE DAYALI TAHMİN EDİCİLERLE
DİSKRİMİNANT ANALİZİ
Gamze ŞAHİN* ve Necla GÜNDÜZ
Gazi Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06500, Ankara, Türkiye,
[email protected], [email protected]
1. Özet
Diskriminant analizi gözetimli sınıflandırma için yaygın kullanılan bir istatistiksel yöntemdir. Ancak bu
yöntem veride aykırı gözlem olması durumunda güvenilir olmayan sonuçlar verebilmektedir. Böyle bir durumda
aykırı gözlemlerin tahmin ediciler üzerindeki etkisini azaltarak güvenilir sonuçlar elde etmek için sağlam tahmin
yöntemlerine başvurulabilir.
2. Giriş
Gözlemleri sınıflandırmak, gruplara atamak için kullanılan çeşitli istatistiksel analiz yöntemleri vardır.
Ancak bu yöntemleri uygularken karşılaşılan en önemli sorunlardan biri veride aykırı gözlemlerin bulunması
durumudur. Aykırı gözlemlerin varlığı istatistiksel analiz yöntemlerinin hatalı sonuçlar vermesine neden olabilir.
Gözlemleri gruplara atamada kullanılan istatistiksel analiz yöntemlerinden birisi de diskriminant analizidir.
Diskriminant analizi hangi gruptan geldiği belli olmayan bir gözlemin hangi gruba dâhil edileceğini belirlemek
için kullanılır. Ancak diskriminant analizinin önemli bir kısıtlayıcısı olan aykırı gözlemlerin var olmaması
durumu sağlanmadığında hatalı grup atamaları gerçekleştirilebilir. Aykırı gözlemlerin var olması durumunda
aykırı gözlemlerin tahmin ediciler üzerindeki etkisini azaltarak güvenilir sonuçlar elde etmek, etkili bir grup
ataması yapabilmek için sağlam tahmin yöntemlerine başvurulabilir.
Sağlam tahmin yöntemlerinin temeli Simon Newcomb ile 19. Yüzyılın sonlarına dayanmaktadır (Stigler,
1973). Fakat 1960’lar ve 1970’lerin başında John Tukey (1960) ve Peter Huber (1964) tarafından ilk büyük adım
atılmıştır. Son kırk yılda sağlam istatistiklerin çalışma alanı, bir araştırma alanı olarak önemli derecede büyüme
sağlamıştır.
Sağlam tahmin yöntemlerinde temel amaç, modelde yer alan hata terimleri için varsayılan dağılımların
yanlış olması veya aykırı gözlemlerin bulunması durumunda parametre tahminleri için güvenilir sonuçlar
verebilmektir. Bu çalışmada, diskriminant analizi uygulamalarında veride hatalı sonuçlar elde edilmesine yol
açan aykırı gözlemler olması durumunda, tahmin sonuçlarını aykırı gözlemlerin etkisinden kurtarabilen, kırılma
noktası değeri yüksek olan sağlam tahmin ediciler ele alınmıştır.
Bu amaçla öncelikle diskriminant analizi, amaçları, varsayımları ve kısıtlayıcıları, diskriminant
fonksiyonlarının bulunması, aykırı gözlemler, ortaya çıkış nedenleri ve belirlenme yolları gibi konular ele
alınmıştır. Daha sonra sağlamlık, sağlamlık ölçüleri ve veride aykırı gözlem olması durumunda sınıflandırmada
önemli rol oynayan sağlamlık özelliğine bağlı olarak elde edilen en küçük kovaryans determinantlı (MCD) ile
ilgilig tahmin ediciler açıklanmaktadır. Ve gerçek veri seti üzerinde bir uygulama yapılmıştır.
KAYNAKLAR
[1] Stigler, S.M., (1973), Simon Newcomb, Percy Daniell, and the History of Robust Estimation 1885–
1920, 68 (344), 872-879.
[2] Tukey, J.W., (1960), A survey of sampling from contaminated distributions, Contributions to
Probability and Statistics.
[3] Huber, P.J., (1964), Robust Estimation of a Location Parameter, 35 (1), 73-101.
[4] Maronna, R.A., Martin, R. D., Yohai, V. J., (2006), Robust Statistics: Theory and Methods.
[5] Hubert, M. and Rousseeuw, P.J. and Van Aelst, S., (2008), High-Breakdown Robust Multivariate
Methods, 23 (1), 92-119.
ABSTRACT
DISCRIMINANT METHOD WITH ROBUST BASE ESTIMATORS
Discriminant analysis is a well known classification technique, which is used in the situations where the
clusters are known a priori. The aim of discriminant analysis is to classify an observation, or several
observations, into these known groups. However, when the data set involves outliers, the outliers affects
estimators excessively. So that, it provides incorrect group assignmenst. In order to avoid incorrect group
assignment and obtaining reliable results, robust parameter estimation methods have been developed. In this
study robust parameter estimators, which have high breakdown point and eliminate outliers effect, are explained
for discriminant anlysis.
24
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Key
Words:
Robustness,
Outliers,
25
Discriminant
analysis
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SAĞLAMLIK ÖZELLİĞİNE SAHİP EN KÜÇÜK KOVARYANS
DETERMİNANTINA İLİŞKİN TAHMİN EDİCİLER
Sercan SEZER* ve Necla GÜNDÜZ
Gazi Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06500, Ankara, Türkiye,
[email protected], [email protected]
1. Özet
Mevcut klasik metotlar, veride aykırı gözlem ya da başka bir dağılımdan karışan gözlemlerin varlığından
çok fazla etkilenebilirler. Ayrıca, özünde klasik metotlar sonucu aykırı gözlem niteliği kazanmayan gözlemler,
deneye ilişkin bilgiyi hatasız yansıtmasına rağmen aykırı gözlem olarak tespit edilmiş olabilir. Böyle bir
durumda, klasik metotlar aykırı gözlemlerin tespitine izin vermez hale gelebilir. İşte tam bu noktada “sağlam
istatistik” elde etmenin amacı ortaya çıkmaktadır. Sağlam istatistiklerle, başka bir dağılımdan karışan gözlem ya
da gözlem grubunu barındıran eldeki mevcut veri setinden hareketle, aykırı gözlemlerin bulunmadığı ya da
etkisinin az tutulduğu duruma yakın tahmin ediciler elde edilebilir. Bunun sonucu olarakta, elde edilen tahmin
ediciler ile sağlıklı olasılık cümleleri ve güven aralıkları kurulabilir.
2. Giriş
Diğer tüm istatistiksel yöntemlerde olduğu gibi çok değişkenli istatistiksel yöntemlerde aykırı değerlere
karşı oldukça duyarlıdır. Çok değişkenli analiz yöntemlerden biri olan ve yaygın olarak kullanılan diskriminant
analizide, her birinde p tane değişken bulunan k sayıda gruptan (k>2) elde edilecek doğrusal kombinasyonların
yardımıyla, p tane değişkene sahip yeni bir gözlem birimini, bu gruplardan herhangi birine atamak istediğimizde
kullanılan bir yöntemdir. Örneğin; mevcut gruplardan biri örnek ortalaması istatistiğini etkileyecek düzeyde
aykırı değere sahipse, bu gözlemler aynı zamanda değişkenliğin bir ölçüsü olarak kullanılan varyans
istatistiğinin değerini de arttıracaktır. Bunun sonucu olarak; Fisher ve Kanonik Diskriminant yaklaşımı ile elde
edilen katsayılar, bu katsayıların oluşturduğu fonksiyonlar, fonksiyonlardan hareketle oluşturulan doğrusal
diskriminant skorları, Bayesci yaklaşım sonucu elde edilen gözlem birimlerinin gruplara atanma sonsal
olasılıkları, dolayısıyla gözlem birimlerinin ilgili gruplara atanma işleminin kestirilmesi, hatalı olacaktır.
Görüldüğü üzere art arda gerçekleşen bu işlemler silsilesi, aykırı gözlem ya da gözlemlerin varlığından olumsuz
etkilenecek ve zincirleme bir kestirim hatası meydana getirecektir. Çok değişkenli yapı içerisinde bu hatanın
miktarı ve de boyutu “sınıflama haritaları” ya da “sınıflama tutarlılığı tablosu” yardımıyla incelenebilir.
Bu çalışmada ilk olarak; tek değişkenli konum ve ölçek parametre tahminleri için sağlamlık özelliği
tartışılmıştır. Ardından çok değişkenli yapıya ilişkin konum ve yayılım parametre tahminleri için sağlamlık
özelliği taşıyan bazı yöntemler ve bu yöntemler sonucu elde edilen sağlam tahmin ediciler ele alınmıştır. Çok
değişkenli sağlam tahmin ediciler elde etme sürecinde, n gözlem biriminden h çaplı alt kümeler seçilerek,
varyans-kovaryans matrisinin determinantının minimum (MCD) olmasına dayalı MCD metodu incelenerek,
lokasyon ve yayılım parametrelerinin sağlamlık özelliğine sahip tahmin edicileri elde edilmiştir. Genel olarak, n
gözlem biriminden h çaplı alt kümelerin araştırılması çok yoğun iş hacmi gerektirir. Bu nedenle, Rousseeuw ve
Driessen (Rousseeuw (1999)) tarafından geliştirilen FAST-MCD isimli, oldukça hızlı işleyen bir algoritmanın
işlerliği de incelenmiştir. Varyans-kovaryans matrisinin elde edilmesine dayalı bazı klasik MCD metotları ve bu
metotlar yardımıyla elde edilen tahmin edicilere de bu çalışma kapsamında yer verilmiştir.
Bu çalışmada, Doğrusal Diskriminant Analizi için kullanılacak sağlam tahmin ediciler ve elde edilme
süreçleri gerçek bir veri seti üzerinde R paket programı kullanılarak uygulanmıştır. Amaç; Çok Değişkenli yapı
içerisinde elde edilen Lokasyon ve Ölçek parametrelerinin sağlamlık vasfının ortaya koymuş olduğu avantaj ve
dezavantajları gözlemlemektir.
KAYNAKLAR
[1] Alpar, R. (2011). Uygulamalı Çok değişkenli İstatistiksel Yöntemler. Ankara, Türkiye: Detay
yayıncılık.
[2] Rousseeuw, K. V. D. (1999). A Fast Algorithm For The Mininmum Covariance Determinant
Estimator. (Belgium). Technometrics 41 (3), 212-223
[3] Rousseeuw, P., H. P. (2011). Robust statistics for outlier detection. (England). Wiley 1(1), 73-79.
[4] Valentin Todorov, A. M. P. (2007). Comparative Performance Of Several Robust Linear
Disciriminant Analysis methods. (Vienna, Austria). Revstat Journal 5 (1), 63-83.
26
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
[5] Peter Filzmoser, V. T. (2012). Robust Tools fort he Imperfect World. (Vienna, Austria). Elsevier
Volume 245, 4-20
ABSTRACT
PROPERTIES OF ROBUST MINIMUM COVARIANCE DETERMINANT ESTIMATORS
Data outliers or other data inhomogeneities lead to a violation of the assumptions of traditional
statistical estimators and methods. Robust statistics offers tools that can reliably work with contaminated data.
Here, outlier detection methods in low and high dimension, as well as important robust estimators and methods
for multivariate data are reviewed, and the most important references to the corresponding literatüre are
provided. Algorithms are discussed, and routines in R provided, allowing for a straightforward application of
the robust methods to real data.
Keywords: robustness, robust estimators, MCD, outliers, high breakdown, discriminant analysis
27
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SIRALAYICI ÖLÇME DÜZEYİ İÇİN POLİKORİK KORELASYON
KATSAYISININ KULLANIMI VE BİR UYGULAMA ÇALIŞMASI
Mehmet SANDAL*, Zeki YILDIZ
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26000, Eskişehir,
TÜRKİYE, [email protected], [email protected]
Bireysel tutumlara ve davranışlara yönelik ifadelerin araştırıldığı birçok bilimsel alanda, bazı analiz
teknikleri kullanılarak incelenen bu ifadeler hakkında çeşitli değerlendirmeler yapılabilmektedir. Ancak
araştırma konusuna yönelik yapılan analizlerden güvenilir ve geçerli sonuçlar elde edilmesinde, kullanılan
tekniğin doğru belirlenmesi ve gereken varsayımların yerine getirilmesi oldukça önemlidir. Sosyal bilimler,
davranış bilimleri, ekonomi, psikoloji vb. alanlarda yapılan çalışmalarda çoğunlukla kullanılan tekniklerden biri
de Likert ölçeklerdir. Tutum ve davranış gibi kişisel özellikleri ölçülmesi amacıyla gerçekleştirilen çalışmalarda
çoğu zaman Likert ölçek verilerinden faydalanılmaktadır. (Li, 2014). Genellikle Likert ölçeklerden elde edilen
veriler için en az eşit aralıklı ölçme düzeyine göre analizler gerçekleştirilmesine rağmen bu tür ölçeklerden elde
edilen veriler sıralayıcı (ordinal) ölçme düzeyine sahip olmakta ve bu veriler için uygun istatistiksel tekniklerin
kullanılması gerekmektedir (Jamieson, 2004). Ordinal değişkenler söz konusu olduğunda bu değişkenler
arasındaki ilişkinin tahmin edilmesinde ise polikorik korelasyon katsayıları kullanılmaktadır. Polikorik
korelasyonlar, gözlenemeyen değişkenler arasındaki ilişkileri açıklamak için tahmin edilen korelasyon olarak
adlandırılmaktadır (Choi vd., 2011; Basto ve Pereira, 2012).
ve ,
ve
kategorilerine sahip iki ordinal değişken olmak üzere her bir ordinal değişken için, bu
ordinal değişkenlere verilen cevapların alt tutumlarını ifade eden ve
’dan
aralığına sahip olan bir alt
ve
sürekli değişkenleri olduğu varsayılmaktadır. İncelenen veri seti için  i, j  hücresine düşen bir gözlemin
olasılığı
2  u, v  

1
2
1   
e

1
2 1  2

u
2
 2  uv  v 2

(
1)
2
olmak üzere
i
    u, v  dudv
 ij  Pr  X m  i, X m  j  
i
j
2
j
i 1
(
2)
j 1
şeklinde ifade edilmektedir (Olsson, 1979, Li, 2014). Dolayısıyla
mi
ln L  
i 1
mj
n
j 1
ij
log  ij
(
3)
şeklinde verilen çok terimli dağılımın log-olabilirlik fonksiyonu maksimize edilerek eşik parametreleri ve
polikorik korelasyon değeri eş zamanlı olarak tahmin edilebilmektedir.
Bu çalışmanın amacı da; ordinal ölçme düzeyinde elde edilen veriler için polikorik korelasyon
katsayılarını dikkate alarak, ordinal veriler ile birlikte faktör analizinin kullanımına ilişkin uygun çözümleme
yaklaşımı ortaya koymaktır. Bu amaçla Eskişehir Osmangazi Üniversite’sinde eğitim gören öğrenciler ile görev
yapan akademik ve idari personelin, üniversite yemekhanesine karşı memnuniyet düzeylerinin ve hizmet
kalitesinin değerlendirilmesine ilişkin bir uygulama çalışması ile açıklayıcı ve doğrulayıcı faktör analizi
gerçekleştirilmiştir.
Yemekhane memnuniyeti ve hizmet kalitesine ilişkin Likert tipi ölçeklerden elde edilen verilerin faktör
analizi için uygulanabilir olduğu belirlenerek, açıklayıcı faktör analizi için polikorik korelasyon matrisi
hesaplanmıştır. İlgilenilen değişkenleri temsil eden uygun faktör sayısı, özdeğerler ve toplam varyans yüzde
kriterinin yanı sıra Paralel analiz ve Velicer MAP kriterleri de dikkate alınarak değerlendirilmiş ve incelenen
değişkenlerin dört faktör altında toplanmasının uygun olacağı belirlenmiştir.
Açıklayıcı faktör analizi ile belirlenen bu faktör yapısının doğruluğunu test etmek için uygulanan
doğrulayıcı faktör analizi sonuçları, hem t değerlerine hem de uyum kriterlerine göre bu yapının geçerli bir
28
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
model olduğunu göstermiştir. Ayrıca doğrulayıcı faktör analizi için “En Çok Olabilirlik (ML)”,
“Ağırlıklandırılmış En Küçük Kareler (WLS)”, “Ağırlıklandırılmamış En Küçük Kareler (ULS)” ve “Diyagonal
Olarak Ağırlıklandırılmış En Küçük Kareler (DWLS)” olmak üzere değerlendirilen dört tahmin yöntemi,
polikorik korelasyonlar söz konusu olduğunda bazı uyum fonksiyonları da dikkate alınarak uygulanmış ve
incelenen bu yöntemlere göre elde edilen sonuçlar karşılaştırılmıştır. En düşük ki-kare değeri DWLS yöntemine
göre elde edilirken; ULS, WLS ve DWLS için RMSEA değerlerinin ise yaklaşık olarak aynı olduğu
belirlenmiştir. Bu üç teknik için uyum indeksleri sonuçları da benzer şekilde iyi uyum düzeyine sahip olduğunu
göstermiştir. Ayrıca örneklem büyüklüğünün yeterince fazla olması, WLS yöntemi ile elde edilen parametre
tahminlerinin de diğer tekniklere göre yakın sonuçlar ortaya koyduğunu göstermiştir.
[1]
[2]
[3]
[4]
[5]
KAYNAKLAR
Basto, M., Pereira, J.M., 2012, An SPSS R-Menu for ordinal factor analysis, Journal of Statistical
Software, 46,4, 1-29.
Choi, J., Kim, S., Chen, J., Dannels, S., 2011, A comparison of maximum likelihood and bayesian
estimation for polychoric correlation using Monte Carlo simulation, Journal of Educational and Behavioral
Statistics, 36,4, 523-549.
Jamieson, S., 2004, Likert scales: how to (ab) use them, Medical Education, 38,12, 1217-1218.
Li, Y., 2014, Confirmatory factor analysis with continuous and ordinal data: An empirical study of stress
Level, Independent thesis Advanced level, Uppsala University, 34 p.
Olsson, U., 1979, Maximum likelihood estimation of the Polychoric Correlation Coefficient,
Psychometrika, 44,4, 443-460.
ABSTRACT
FACTOR ANALYSİS FOR LEVEL OF ORDİNAL MEASUREMENT AND AN APPLİCATİON
In this study, how to apply factor analysis was researched using polychoric correlation matrix when the
ordinal data are in the question. For this purpose, an explanatory and confirmatory factor analysis was
achieved with an implementation study regarding to refectory service quality and satisfaction level. Results of
explanatory factor analysis were attained by using polychoric correlation matrix. Also, results of confirmatory
factor analysis showed that determined factor structure was appropriate. Furthermore, prediction methods
which were evaluated for confirmatory factor analysis were applied considering some conformity functions
when polychoric correlations were in the question and results attained according to four prediction methods
were compared.
Key Words: Ordinal Data, Polychoric Correlation, Explanatory Factor Analysis, Confirmatory Factor
Analysis
29
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 3
STATISTICS THEORY
30
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Copula modelling for financial risk estimation
TOMÁŠ TICHÝ
Department of Finance, Faculty of Economics, Technical University of Ostrava
[email protected]
1.
Introduction
The main objective of this research is to examine how suitable are particular Lévy based subordinated models for
the estimation of the future distribution of portfolio returns and subsequent calculation of risk measures (eg. VaR
or CVaR) and the impact on the fair price. While several Lévy models are used for marginal distribution, in
order to obtain the dependency structure of the portfolio the theory of copula functions are utilized. In order to
assess the suitability of particular models and the soundness of the whole procedure, we utilize mainly the
historical approach (backtesting procedure).
In order to asses the risk of a portfolio, i.e. unexpected changes in its value, a joint probability distribution of all
relevant drivers of random evolution should be estimated, though marginal distributions and a suitable tool (a
copula function) to express the dependency among particular factors can be estimated separately.
Actually, such a decomposition can be of great value since joint probability distribution generally presumes
identical margins, at least at elementary levels. By contrast, choosing e.g. copula functions to rebuild
independent marginal distributions into dependent structure gives us a great portion of freedom when estimating
the marginal probability distribution.
Marginal distribution by subordinated Lévy processes
The major task of financial model building is to allow one to fit also extreme evolution of market prices. It is a
matter of fact that returns at financial markets are neither symmetrically distributed nor without exceed peeks (or
heavy tails) over time, which is in contradiction of Gaussian distribution. A very feasible way to fit both
skewness (non-symmetry) and kurtosis (heavy tails) is to apply a subordinated Lévy model, a rather nonstandard definition of Lévy models as time changed Brownian motions, which goes back to Mandelbrot and
Taylor (1967) and Clark (1973).
Generally, a Lévy process is a stochastic process, which is zero at origin, its path in time is right-continuous with
left limits and its main property is that it is of independent and stationary increments. Another common feature is
a so called stochastic continuity. Moreover, the related probability distribution must be infinitely divisible. The
crucial theorem is the Lévy-Khintchine formula consisting of three terms (deterministic drift, diffusion, and
jumps):
In finance we often use subordinated Lévy processes, obtained by replacing standard time t in
Brownian motion X with suitable parameters of diffusion and drift by its function l(t):
3. Dependency modeling by copula approach
31
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
A useful tool of dependency modelling are the copula functions, i.e. the projection of the dependency among
particular distribution functions into [0,1],
Actually, any copula function can be regarded as a multidimensional distribution function with marginals in the
form of standardized uniform distribution.
For simplicity assume two potentially dependent random variables with marginal distribution functions FX,FY
and joint distribution function FX,Y. Then, following the Sklar's theorem:
If both FX, FY are continuous a copula function C is unique. Sklar's theorem implies also an inverse relation.
Formulation above should be understood such that the joint distribution function gives us two distinct
information: (i) marginal distribution of random variables, (ii) dependency function of distributions. Hence,
while the former is given by FX(x) and FY(y), a copula function specifies the dependency, nothing less, nothing
more. That is, only when we put both information together, we have sufficient knowledge about the pair of
random variables X,Y.
The only difficulty arises if the Lévy copulas, ie. the dependency specified by the Lévy measure of the LévyKhintchine formula, are ignored. In the statistical study we document the impact of the assumption of standard
copulas versus Lévy copulas.
REFERENCES
[1] Barndorff-Nielsen, O.E., Mikosch, T., Resnick, S.I. (eds.) (2001): Lévy processes. Theory and
Applications. Boston: Birkhauser. 2001.
[2] Clark, P. K. (1973): A subordinated stochastic process model with fixed variance for spekulative prices.
Econometrica 41, pp. 135-156, 1973.
[3] Mandelbrot, B.H., Taylor, H.M. (1967): On the distribution of stock price differences. Operations
Research 15, 1057-1062, 1967.
[4] Nelsen, R.B. (2006): An Introduction to Copulas. 2nd ed. Springer, 2006.
Key Words: Copula, Lévy copula, financial risk estimation
32
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TRANSMUTED TWO -PARAMETER LINDLEY DISTRIBUTION
Sibel AÇIK KEMALOĞLU,
Mehmet YILMAZ
Ankara University, Faculty of Science, Department of Statistics, Tandoğan, ANKARA
[email protected] , [email protected]
1.
Introduction
In this study, it is proposed a new distribution using the quadratic rank transmutation map named as transmuted
two parameter Lindley distribution (TTLD). This distribution is more flexible than two parameter Lindley
distribution. The properties of the transmuted two parameter Lindley distribution are examined and estimation
methods for the parameters of this distribution are discussed. The usefulness of the TTLD is demonstrated on
real data.
2.
Two-Parameter Lindley Distribution
The cumulative distribution function (cdf) of two parameter Lindley distribution is given by
(1)
and the corresponding probability density function (pdf) is given by
3.
Quadratic Rank Transmutation Map
Let
and
be two distribution functions with a common sample space. The general rank transmutation as
given in Shaw and Buckley (2007) is defined as
where
A quadratic rank transmutation map is defined as
From this transmutation it follows that
and
satisfy the relationship
(2)
or
This latter equation generates a transmuted distribution
of . If and
both are continuous distributions
then a transmuted probability density function is obtained by differentiating (3) as follows
33
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
4.
Transmuted Two-Parameter Lindley Distribution
We use (1) in (3) to obtain the cdf of TTLD, then
where
.
Since TTLD has an one more parameter, it becomes more flexible than TLD.
REFERENCES
[1] Elbatal, I. and Elgarhy, M. (2013). Transmuted Quasi Lindley Distribution: A Generalization of The Quasi
Lindley Distribution. International Journal of Pure Applied Science and Technology 18(2), 59-70.
[2] Mansour, M.M and Mohamed S.M. (2015). A New Generalized of Transmuted Lindley Distribution,
Applied Mathematical Sciences, Vol. 9, 2015, no. 55, 2729 – 2748.
[3] Shahzad, M.N and Asghar, Z. (2015). Transmuted Dagum Distribution: A more flexible and broad shaped
hazard function model. Hacettepe University, Journal of Mathematics and Statistics.
[4] Shanker R., Sharma S. and Shanker, R. (2013). A two-parameter Lindley distribution for modeling waiting
and survival times data. Appl Math. 4 (2), 363–368.
[5] Shaw W. and Buckley, I. (2007). The Alchemy of Probability Distributions: Beyond Gram- Charlier
Expansions and A Skew- Kurtotic- Normal Distribution from a Rank Transmutation Map.
Research Report.
Key words: Lindley distribution, quadratic rank transmutation, hazard rate, moments
34
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
THE IMPORTANCE OF SERVICE DISCIPLINES IN QUEUEING SYSTEMS AND A
GENERAL STUDY ON RECENT SERVICE DISCIPLINES
Erdinç YÜCESOY
Ondokuz Mayıs Üniversitesi Fen-Edebiyat Fakültesi İstatistik Bölümü
[email protected]
Queueing systems consist of six basic elements which are: arrival stream, service time, service discipline,
the number of service channels, queue capacity, and the capacity of arrivals source. One of these six elements,
the arrival stream, is depends on the customer. The capacity of arrival source also depends on customer partially.
The remaining four elements are dependent on the service facility and service facility can change these four
elements considering the conditions and situations. New service disciplines are constructed regarding the
developments in computer and telecommunication technologies. Sometimes these new service disciplines
simplify the analysis of system and sometimes these service disciplines are more realistic for today’s queueing
models. In this study we consider one of these changeable elements: the service discipline. We investigate the
importance of service discipline and the relations with other service elements. One of other purpose of this paper
is to investigate the benefits of analysis of the system if the service discipline is changed.
Keywords: Queueing theory, service discipline, homogeneous channel, heterogeneous channel, Queueing
systems.
35
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
STATISTICAL METHODS IN SIGNAL PROCESSING: THEORY AND
APPLICATIONS
Hani Kabajah
Birzeit University
Mr´azek et al. [1] proposed a unified approach to curve estimation which combines localization and
regularization. Franke et al. [2] used that approach to discuss the case of the regularized local least-squares
(RLLS) estimate. In this work we will use the unified approach of Mr´azek et al. to elaborate the asymptotic
theory of local smoothers with regularization. In particular, we shall discuss the Robust Huber M-estimate and
its connections to the L2 and the L1 cases. For the regularization part, we will use a general class of convex
functions. We will introduce sigma filters as in Chu et al. [3] to the approach. The statistical theory elaborated
will be used as quality measures to the estimates. Finally, we perform a simulation study to compare different
types of estimates.
References:
[1] P. Mr´azek, J. Weickert, and A. Bruhn. On robust estimation and smoothing with spatial and tonal
kernels. In R. Klette, R. Kozera, L. Noakes, and J. Weickert, editors, Geometric Properties from Incomplete
Data. Springer, Dordrecht, 2006.
[2] J. Franke, J. Tadjuidje Kamgaing, S. Didas, and J. Weickert. Some asymptotics for local least-squares
regression with regularization. Report in Wirtschaftsmathematik, No. 107, Department of Mathematics,
University of Kaiserslautern, 2008.
[3] C. K. Chu, I. K. Glad, F. Godtliebsen, and J. S. Marron. Edge preserving smoothers for image
processing (with discussion). Journal of the American Statistical Association, 93(442):526–556, 1998.
36
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Verification of the Probability Default Estimation of Selected
Companies via Merton Model
Petr GURNÝ
Estimation of default probability is very important part of the company risk management. Especially
nowadays, when there are a lot of crises and issues that are rehearsing stability of the companies all around the
world. In this paper the Merton model is applied on real data of selected companies from four different countries.
Two issues are solved in the paper. First, optimization problem for the estimation of the appropriate portion of
the liabilities for practical utilization of the Merton model for a different branches is outlined, while utility
function is designed as variation between modelled and agency’s ratings. Second, prediction of the probability of
default via Merton model is examined, while two different stochastic processes are used; Geometric Brownian
motion and Variance Gamma process, respectively. It is shown, that utilization of the more sophisticated
processes, which enable to model also higher moments of the probability distribution, can capture empirical
distribution (particularly in the fat tails of the probability distributions) much better, compared with the usual
Gaussian distribution.
Key words
Probability of default; Merton model; Geometric Brownian motion, Variance Gamma process.
37
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 3
FİNANS, AKTÜERYA VE RİSK YÖNETİMİ 2
38
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AKTÜERYADA REGRESYON MODELLEMESİNE ALTERNATİF BİR
ANALİTİK YAKLAŞIM
Fatma Feyza GÜNDÜZ - Ali İhsan GENÇ
Mustafa Kemal Üniversitesi Fen-Edebiyat Fakültesi Matematik Bölümü Hatay-Türkiye
Çukurova Üniversitesi Fen-Edebiyat Fakültesi İstatistik Bölümü Adana-Türkiye
[email protected][email protected]
1. Risk Tanımı ve Temel Kavramlar
Risk, kişi ya da kurumların her türlü maddi, manevi kayıp ve zararının oluşumuna ilişkin belirsizlik
hallerinde ortaya çıkan ve tehlikenin ciddiyetine verilen isimdir. Bu durumda riske bir rastgele değişken gözüyle
bakılabilir çünkü gerçek sonucunu önceden bilmek mümkün olmayabilir. Risklerin ortaya çıkması halinde
karşılaşılabilecek olumsuz durumları bilerek bunlara karşı önceden hazırlıklı olmak amacıyla riskleri ölçme ve
kontrol altına alma yolları aranmıştır. Genellikle riskler gerçekleşmeden sigortayla güvence altına alınabilirler.
Bu sebeple riski sigortacılık açısından tanımlamak gerekirse, bir kimsenin para ile ölçülebilir bir menfaatini
zarara uğratan tehlike olarak ifade edilebilir. (Olivieri, A. and Pitacco, E. (2011))
Bir rastgele değişken olarak riskin modellenmesinde normalden daha kalın kuyruklu ve sağa çarpık
dağılımların kullanıldığı bilinmektedir. Özellikle sigorta şirketlerinin yükümlülüklerini karşılayabilmesi ve
devamlılığını sağlayabilmesi açısından incelenmesi gereken en önemli konulardan birisi, hasar tutarı
dağılımlarının modellenmesidir.
2. Aktüeryal Regresyon Modellemesinde Üslendirilmiş Frechet Yöntemi
Dağılımın olasılık yoğunluk
olmak üzere,
fonksiyonu
ve
kümülatif
dağılım
fonksiyonu
sırasıyla;
(1)
(2)
olarak ifade edilir (Nadarajah, S. and Kotz, S. (2006)). Burada ve λ şekil parametresi,
ölçek
parametresidir. Dağılımın yoğunluk fonksiyonunda =1 alınırsa sıradan Frechet dağılımı elde edilir.
α küçüldükçe üslendirilmiş Frechet dağılımının kuyruk kalınlığı artar ki bu da büyük kayıpların
modellenmesine olanak sağlar.
Aktüeryal istatistikte regresyon çözümlemesinde bağımlı değişkenler çoğunlukla normalden daha kalın
kuyruklu dağılıma sahip olarak karşımıza çıkmaktadır. Bu nedenle gerçekçi bir model olarak üslendirilmiş
Frechet modeli önerilecektir. Regresyon modeli kurulduktan sonra parametre tahminlerine geçilecek ve
yöntemin kullanışlılığını görmek amacıyla önerilen yöntem bir otomobil sigortası verisine (De Jong, P. And
Heller, G. Z.(2008), s.15) uygulanıp diğer yöntemlerle karşılaştırmaları yapılacaktır.
KAYNAKLAR
[1] De Jong, P. And Heller, G. Z.(2008). Generalized Linear Models for Insurance Data,
Cambridge University Press.
[2] Olivieri, A. and Pitacco, E. (2011). Introduction to Insurance Mathematics, Verlag
Berlin Heidelberg: Springer.
[3] Nadarajah, S. and Kotz, S. (2006). The Exponentiated Type Distributions, Acta Appl
Math, 97 111.
AN ALTERNATIVE ANALYTICAL APPROACH TO REGRESSION MODELING IN
ACTUARIAL STATISTICS
In this work, we introduce an analytical approach for modeling loss data in a regression structure. We
consider the exponentiated Frechet distribution which is a long tailed distribution for modeling insurance data.
After deriving theoretical results, we demonstrate the proposed model to some real insurance data.
39
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Key Words: exponentiated frechet distribution, maximum likelihood estimation, loss modeling long tailed
distribution
40
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
GENELLEŞTİRİLMİŞ DOĞRUSAL MODELLERDE MODEL
DEĞERLENDİRMESİ VE SEÇİMİ: KASKO SİGORTASI ÖRNEĞİ
Övgücan KARADAĞ ERDEMİR*, Meral SUCU
Hacettepe Üniversitesi, Fen Fakültesi, Aktüerya Bilimleri Bölümü, 06800, Ankara, TÜRKİYE
[email protected], [email protected]
Bu çalışmada özel bir sigorta şirketinin bir yıllık kasko hasar sayısı verisinin genelleştirilmiş doğrusal
model yardımıyla modelleme aşamaları verilmiştir. Grafiksel inceleme ile başlayan model değerlendirmesi belli
testler ile devam etmiş, model seçimi için AIC ve BIC kriterlerinden yararlanılmıştır. Elde edilen sonuçlar
tablolar yardımıyla verilmiş ve yorumlanmıştır.
Anahtar Kelimeler: Genelleştirilmiş Doğrusal Model, Poisson Regresyon, Kolmogorow-Smirnov Test, AIC,
BIC, Log-Olabilirlik Değeri
1.
Genelleştirilmiş Doğrusal Model
Uygulamalı istatistik ve aktüerya biliminde genelleştirilmiş doğrusal model tahmin ve fiyatlama amacıyla
sıklıkla kullanılmaktadır. Genelleştirilmiş doğrusal modeller üç temel bileşenden oluşmaktadırlar. Bunlar;
 Üstel Dağılım Ailesinden Yanıt Değişkeninin Olasılık Yoğunluk Fonksiyonu
 Doğrusal Bileşen
 Bağ Fonksiyonu
biçimindedir. Poisson, binom, negatif binom, normal, gamma, ters Gauss gibi dağılımları içeren üstel dağılım
ailesi genelleştirilmiş doğrusal modellerin oluşturulmasında bir ön koşuldur [2]. Doğrusal bileşen i. gözlem için
β i  (i1 ,..., ip ) ve X i  ( xi1 ,..., xip ) olmak üzere,
p
i   xij ij  X iβ i
,
i  1,..., n , j  1,..., p
(1)
j 1
şeklindedir. Yanıt değişkenin beklenen değeri ile doğrusal tahmin edici arasında bağ kuran g bağ fonksiyonu,
g ( i )  i , i  1,..., n
(2)
şeklindedir. Yanıt değişkenin dağılımına göre bağ fonksiyonları birim, logaritmik, üstel, kakekök ve logit
olabilir [1].
2.
Model Değerlendirmesi
Eldeki veriye uygun olduğu düşünülen model kurulduktan sonra bir değerlendirme aşamasından geçirilir. Bu
aşamada ilk olarak grafiksel inceleme yapılır daha sonra Kolmogorow-Simirnov Testi, Anderson-Darling Testi,
Ki-Kare Testi gibi uyum iyiliği testleri ile model değerlendirilir [4].
3.
Model Seçimi
Model değerlendirmesi aşamasından sonra uygun olduğu düşünülen birden çok model olabilir. Bu modeller belli
bilgi kriterleri yardımıyla ile karşılaştırılılabilir. Bu kriterlerin başında Akaike Bilgi Kriteri (AIC) ve Bayesci
Bilgi Kriteri (BIC) gelmektedir. Log-olabilirlik değerleri de karşılaştırma kriteri olarak kullanılmaktadır.
4.
Uygulama: Kasko Sigortası Örneği
Özel bir sigorta şirketinden alınmış bir yıllık kasko sigortası hasar sayısı verisi öncelikle grafiksel olarak
incelenmiş, dağılımı hakkında ön inceleme yapılmıştır. Grafiksel inceleme sonrasında verinin dağılım
grafiğinden ve sigortacılıkta hasar sayılarının Poisson dağılımına uyduğu varsayımından hareketle verinin
Poisson dağılıma uyumu araştırılmıştır. Verinin teorik dağılıma uyumu Kolmogorov-Smirnov testi ile analiz
edilmiştir. Kolmogorov-Smirnov testi sonucunda
p  0,802    0,05
Poisson dağılım arasında fark olmadığını öne süren
olduğundan verinin dağılımı ile
H 0 yokluk hipotezi kabul edilmiştir. Yanıt değişkenin,
Poisson dağılımlı hasar sayısı olması nedeniyle modellemede kullanılacak bağ fonksiyonu loagaritmik bağ
fonksiyonu olarak alınmıştır. Logaritmik bağ fonksiyonu kullanılarak Poisson dağılımlı yanıt değişkenler için
oluşturulan genelleştirilmiş doğrusal modeller Poisson Regresyon olarak adlandırılırlar [3]. Böylece kullanılacak
41
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
model tipi belirlenmiş ve model değerlendirme aşaması tamamlanmıştır. Çalışmada risk faktörleri (değişkenler);
cinsiyet (kadın-erkek), şehir (büyük şehir-küçük şehir), yaş (genç, orta, yaşlı), motor hacmi (küçük, orta, büyük)
olarak belirlenmiştir [2]. Dört, üç, iki ve bir açıklayıcı değişken kullanılarak toplam 15 model elde edilmiştir.
Modelin hangi risk faktörlerine göre oluşturulacağı ise AIC ve BIC bilgi kriterleri yardımı ile analiz edilmiştir.
Her bir model için AIC ve BIC değerleri ile log-olabilirlik değerleri hesaplanmış, dört modele ilişkin değerler
Çizelde 1’de verilmiştir. En uygun model, en küçük AIC, BIC ve en büyük log-olabilirlik değerine sahiptir.
Çizelge1. Modeller için Akaike Bilgi Kriteri, Bayesci Bilgi Kriteri, Log-Olabilirlik Değeri
AIC Bilgi Kriteri
BIC Bilgi Kriteri
Log-Olabilirlik Değeri
Model-1
AIC: 464,8009
BIC: 475,8855
Log-Olabilirlik: -225,4005 (df=7)
Model-3
AIC: 265,3366
BIC: 270,6788
Log-Olabilirlik: -126,6683 (df=6)
Model-11
AIC: 101,5892
BIC: 100,7562
Log-Olabilirlik: -46,79459 (df=4)
Model-15
AIC: 38,93817
BIC: 36,23401
Log-Olabilirlik: -16,46909 (df=3)
KAYNAKLAR
[1] Haberman, S. and Renshaw A. E. (1996), Generalized Linear Models and Actuarial Science, Statistician,
45(4) , 407–436.
[2] Karadağ, Ö. (2013), Genelleştirilmiş Doğrusal Modeller için Sınırlı Dalgalanmalı Kredibilite Yaklaşımı,
Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi.
[3] McCullagh, P. and Nelder, J.A. (1989), Generalized Linear Models, Chapman and Hall, London.
[4] Tse Y. K. (2009), Non-Life Actuarial Models Theory, Methods and Evaluation, Cambridge University
Press.
ABSTRACT
MODEL EVALUATION AND SELECTION IN GENERALIZED LINEAR MODELS: AN EXAMPLE
OF MOTOR OWN DAMAGE İNSURANCE
In this paper, stages of modelling of one-yaer motor own damage insurance claim frequency data of
special insurance company by generalized linear model is given. Model evaluation started graphical analysis
continue with certain tests, AIC and BIC criterias are used for model selection. Results obtained are given by
charts and interpreted.
Key Words: Generalized Linear Model, Poisson Regression, Kolmogorow-Smirnov Test, AIC, BIC, LogLikelihood
42
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KESİLMİŞ LOMAX DAĞILIM VE BİR UYGULAMA
Betül Zehra KARAGÜL* ,
Aktüerya Bilimleri Bölümü,Hacettepe Üniversitesi, 06800 Beytepe, Ankara,
*
[email protected]
Gamze ÖZEL
İstatistik Bölümü,Hacettepe Üniversitesi, 06800 Beytepe, Ankara,
[email protected]
1.
Giriş
İstatistiksel dağılımlar gerçek dünya fenomenlerinin tahmini ve tanımlanması için oldukça
kullanışlıdırlar.
Geçmiş yıllarda pek çok alanda veri modellemesi için sayısız klasik dağılım kapsamlı olarak
kullanılmıştır.. Son gelişmeler iyi bilinen dağılımların genişlemesini sağlayan ve aynı zamanda uygulamada veri
modellemesine oldukça esneklik kazandıran dağılımların kesimi üzerine odaklanmıştır. Pareto dağılım mal ve
kaza sigortalarını modellemek için uygundur. Ağır kuyruk dağılım özelliğine sahiptir ve bu durum hasar fazlası
fiyatlaması gibi büyük olayların yer aldığı uygulamalarda Pareto dağılım kullanımını uygun kılar. Pareto 2. tip
dağılım aynı zamanda Lomax dağılım olarak bilinir ve olasılık yoğunluk fonksiyonu (oyf) eşitlik (1)‘deki gibidir
1 
f  x    /   1 x /  
,
x,  ,   0
(1)
eşitlikte α biçim parametresi, λ ise ölçek parametresidir. Böylece ilgili kümülatif dağılım fonksiyonu
(kdf) elde edilir.
x

F  x   1 1 
 

,
x,  ,   0
(2)
Pek çok pratik çözümde kesilmiş dağılımlar doğal olarak ortaya çıkar. Örneğin sigorta, finans gibi rasgele
bir değişkenin belirli bir aralıkta gözlemlenecek biçimde sınırlandırıldığı durumlarda oldukça etkili bir biçimde
kullanılırlar. Bu çalışmada, kesilmiş Lomax dağılım elde edilmiş, istatistiksel özellikleri araştırılmış ve sigorta
verisi üzerinde uygulaması yapılmıştır.
2. Kesilmiş Lomax Dağılım
α, λ, a, ve b parametreleriyle elde edilen keskli lomax dağılımın oyf’si şu biçimdedir,
1 
x
  
   1  

f  x    
,

a
b


 1      1  




x, , ,a,b  0
(3)
Böylece kesilmiş Lomax dağılımın kdf’u da şekil (4)’te verildiği gibidir,


a
x


 1     1  



F  x  


a
b


1


1

 
 




3. Bazı İstatistiksel Özellikler
43
x, , ,a,b  0
(4)
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
a. Momentler
Dağılımların bir çok önemli karakteristik özellikleri momentlerine bakılarak öğrenilebilir. Kesilmiş
Lomax dağılımın rinci momenti aşağıdaki gibi yazılabilir;
1 
x
  
1 



b


E( X r )  x r   
dx

a
a
b




 1     1  





(5)
b. Quantile (Yüzdelik) Fonksiyon
Quantile fonksiyonlar genel istatistikte geniş kullanıma sahiptirler. Lomax dağılımın quantile fonksiyonu
Q  u  , 0  u  1, şöyle bulunmuştur;
1/ 



 





b





Q  u   x   
 1

1 u   u 

   
.
   
 

(6)
KAYNAKLAR
[1] Cramer, E. & Schmiedt, A. B. (2011). Progressively type-II censored competing risks data from Lomax
distributions, Computational Statistics and Data Analysis, 55, 3, 1285–1303.
[2] Kleiber, C. & Kotz, S. (2003), Statistical Size Distributions in Economics and Actuarial Sciences, Wiley
Series in Probability and Statistics 470, John Wiley & Sons.
ABSTRACT
TRUNCATED LOMAX DISTRIBUTION AND AN APPLICATION
Heavy-tail probability distributions are very common in insurance with an upper truncation and/or a
threshold. In this study we introduce a truncated version of the Lomax distribution which is one of the heavy-tail
distributions and describe the characteristics of this distribution. The statistical properties such as moments,
quantile function and order statistics are also obtained. Its probability density function for the selected
parameters has been shown graphically. Then, the maximum likelihood estimators are constructed for
estimating the unknown parameters of the truncated Lomax distribution.
Key Words: Truncated Lomax Distribution, Moments, Quantile function, Order statistics, Maximum
likelihood estimation.
44
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÖLÜM SAYILARININ DAĞILIMININ ÖLÜMLÜLÜK
MODELLEMESİNE ETKİSİ
Funda KUL
Hacettepe Üniversitesi
Aktüerya Bilimleri Bölümü
[email protected]
1.
Meral SUCU
Hacettepe Üniversitesi
Aktüerya Bilimleri Bölümü
[email protected]
Giriş
Ölümlülük modelleri, Demografi alanında nüfus projeksiyonlarının yapılmasında ve Aktüerya Bilimleri
alanında ise sosyal güvenlik kurumları, emeklilik ve hayat sigortası şirketlerinin yükümlülüklerine ilişkin
sermaye gereksiniminin belirlenmesi ve değerleme çalışmalarında kullanılmaktadır. Ayrıca ülkelerin geleceğe
ilişkin planlamaları açısından da önemlidir.
Ölümlülük modelleri, deterministik ve stokastik ölümlülük modelleri olarak ikiye ayrılmaktadır:
Deterministik ölümlülük modellerinde, ölüm hızları veya ölüm oranları yaşın bir fonksiyonu olarak
tanımlanmaktadır[4]. Bu modellerde, gelecekteki ölüm hızlarının değişimin de aynı şekilde devam edeceği
varsayımı altında ölümlülük modellenmektedir. Deterministik ölümlülük modellerinde zaman içinde ölüm
hızlarındaki değişim dikkate alınmamakta ve popülasyon içindeki tüm bireylerin ölümlülüklerinin aynı olduğu
düşünülmektedir. Bu modellerde, ölüm hızı veya oranının zamana ve farklı yaşlara göre değişimi dikkate
alınmadığından, ölümlülük projeksiyonlarında önemli ölçüde sapmalar gözlenmiştir. Bu nedenle stokastik
modeller geliştirilmiştir [1].
Zaman etkisini dikkate alan ilk stokastik ölümlülük modeli, 1992 yılında Ronald Lee ve Lawrance Carter
tarafından oluşturulmuştur [3]. Bu modelde tek bir zaman indeksi fonksiyonu ile ölümlülükteki uzun dönem
değişimleri tanımlanmaya çalışılmıştır.
2.
Lee ve Carter Modeli
Takvim yılı t ve en son tam yaş x ile gösterilmiştir. Yaş ve takvim yılına göre merkezi ölüm hızları şu
şekilde elde edilmiştir:
m x,t 
D x,t
(1)
E x,t
Burada;
D x , t : t. takvim yılında x yaşında ölen kişi sayısını,
E x , t : t. takvim yılı ortasında x yaşındaki kişi sayısını
göstermektedir.Ölümlülük modellemesinin daha basit olarak yapılabilmesi amacıyla kesirli yaşlar için
ölümlülüğün sabit olduğu varsayılmıştır. Lee ve Carter (1992) modelinde, merkezi ölüm hızındaki takvim yılı
etkisinin tanımlamak için ARIMA zaman serisi modeli kullanılmaktadır. Bu modelde, yaş ve takvim yılına göre
merkezi ölüm hızı,
(2)
(2)
(2)
log mx, t = (1)
  x ,t
x + x  t


eşitliği ile gösterilir. Burada;
: (x) yaşı için merkezi ölüm hızının doğal logaritmasının ortalamasını,
 (1)
x
(2)
 t : zamana göre ölüm hızındaki değişimi,
 (2)
x : yıllar itibariyle ölüm hızının genel düzeyindeki değişim hızını,
 x ,t : ortalaması sıfır ve sabit varyanslı Normal dağılıma sahip hata terimini
göstermektedir.
3.
Çalışmanın Amacı
Literatürde yapılan çalışmalarda yaş ve takvim yılına göre ölüm sayılarının Poisson dağılımına uyduğu
varsayılarak En Çok Olabilirlik Yöntemi'ne göre parametre tahmini yapılmaktadır. Bu çalışmada yaş ve takvim
45
(
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
yılına göre ölüm sayılarının Poisson dağılımının yanında Binom ve Negatif Binom dağılımına uyduğu varsayımı
altında Lee ve Carter (1992) ölümlülük modeli için En Çok Olabilirlik Yöntemi'ne göre parametre tahminleri
R programlama dili kullanılarak elde edilmiştir [2].
4.
Uygulama ve Sonuçlar
Çalışmada Türkiye için 1980-2012 yılları arası için cinsiyet ayrımında beşerli yaş gruplarında ölüm
sayıları ve riske maruz kalan birim sayıları kullanılmıştır. Literatürde sıklıkla kullanılan karşılaştırma kriterleri
yardımıyla elde edilen sonuçlar yorumlanmıştır.
KAYNAKLAR
[1] Koissi, M.C., Shapiro, A.F., (2008), The Lee-Carter Model Under The Condition of Variables Age-Specific
Parameters, Actuarial Research Conference, Regina, Canada, 2.
[2] Kul, F. , 2014, Ölümlülük Yapısındaki Değişimin Modellenmesi ve Projeksiyonu, Hacettepe Üniversitesi,
Fen Bilimleri Enstitüsü, Aktüerya Bilimleri AnaBilim Dalı, Doktora Tezi (Devam ediyor).
[3] Lee, R.D. , Carter, L., (1992), Modeling and Forecasting U.S. Mortality, Journal of the American Statistical
Association, 87, 419.
[4] Tabeau, E., Van Den Berg Jeths, A. , Heathcote, C., (2001), Forecasting Mortality in Developed Countries
Insights From A Statistical, Demographic, and Epidemiological Perspective, Demographic and
Epidemiological Perspective, Kluwer Academic Publishers, London, 3,5,7.
ABSTRACT
EFFECT OF DEATH NUMBER DISTRIBUTION ON MORTALITY MODELING
Mortality forecasts are playing an important role for Demography and Actuarial Science. Early attempts
to model mortality did not take account of potential future improvements in mortality rates. Many stochastic
mortality modelling methodologies are developed in time.
The aim of this paper is to investigate effect of death number distribution on mortality modeling. Deaths
and exposures to risk of Turkish male and female population are modelled seperately.
Key Words: Death Distribution, Lee-Carter, Mortality Modeling.
46
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SABİT VE DEĞİŞKEN KATKILI BİREYSEL EMEKLİLİK
PLANLARI
Murat KIRKAĞAÇ*, Yasemin GENÇTÜRK
Hacettepe Üniversitesi, Fen Fakültesi, Aktüerya Bilimleri Bölümü, 06800, Ankara/TÜRKİYE
*[email protected]
[email protected]
1. Giriş
Bireysel Emeklilik Sistemi (BES), kişilerin aktif çalışma yaşamları süresince yaptıkları tasarrufları uzun
vadeli yatırıma yönlendirerek emeklilik dönemlerinde, yaşam standartlarını koruyabilecekleri bir gelir elde
etmelerini sağlayan özel bir emeklilik sistemidir [1].
Temelde katkısı belirli emeklilik planları, faydası belirli emeklilik planları ve karma emeklilik planları
olmak üzere üçe ayrılan emeklilik planlarında, bireysel emeklilik planları katkısı belirli emeklilik planları olup
bu planlarda katkılar sabit veya değişken olabilir. Bu çalışmada sabit katkılı geleneksel planların yanı sıra
değişken katkılı, esnek bireysel emeklilik planları da ele alınmıştır.
2. Sabit Katkılı Bireysel Emeklilik Planları
Sabit katkılı bireysel emeklilik planları Türkiye de dahil olmak üzere birçok ülkede çoğunlukla kullanılan
geleneksel emeklilik planları olup bu planlarda emeklilik hesabına düzenli aralıklarla, sabit katkılar
yapılmaktadır. Bu katkılar genellikle maaşın belirli bir oranı olmakla birlikte önceden belirlenen sabit bir miktar
da olabilir.
iA, finansal danışman tarafından yapılan getiri tahminini, FT, dönem sonunda hedeflenen fon büyüklüğünü
göstermek üzere, katılımcı tarafından her dönem başında yapılacak sabit katkı miktarı (C) aşağıdaki eşitlikten
hesaplanmaktadır:
C 
FT
..
s T %i A

FT
(1  i A )T  1
i A / (1  i A )
(1)
3. Değişken Katkılı Bireysel Emeklilik Planları
Önerilen bu plan Box ve Luceno [2] tarafından yapılan sanayideki süreç kontrolünde kullanılan yönteme
dayanmaktadır. Değişken katkılı bireysel emeklilik planları; katılımcı tarafından fona yapılacak katkı miktarının,
gerçekleşen fon büyüklüğü ile hedeflenen fon büyüklüğü arasındaki fark göz önünde bulundurularak, sabit
miktarda katkı yerine hedef fona ulaşılması için sistematik olarak belirlenen değişken miktarlarda katkının
yapıldığı birikim planlarıdır. Ct (t,t+1) zaman aralığında fona yapılacak katkıyı, Dt, t anında fondaki açığı
göstermek üzere, değişken katkı miktarı (Ct);
t
Ct  C  1Dt  2  Dt  j
(2)
j 0
biçimindedir. Gerçekleşen fon büyüklüğü hedeflenen fondan saptıkça açık veya fazlalık oluşur. t anındaki
farkın
1
katı katkıya eklenir.
1 ’
in uygulama değeri düşük olduğu için bu farkın tamamı o anda katkıya
eklenmiş olmaz. Bu nedenle sadece t anında değil, t anından önceki zamanlarda ortaya çıkan açıkların da göz
önünde bulundurularak bu açıkların kümülatif toplamının
2
katı kadarının daha ilave edilmesi gerekmektedir.
Bu sayede açıkların, açık oluştuğu anda tek seferde katkıya eklenmesi yerine bu açıkların tüm döneme yayılması
sağlanmış ve katılımcının yüksek miktarlarda katkı yapmasının önüne geçilmiş olur [3]. Faydası belirli emeklilik
planlarında fonlanmamış yükümlülüğün amortismanında yaygın olarak kullanılan, fonlanmamış yükümlülüğün
47
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
belirli bir döneme yayılarak amortize edildiği yöntem (Spread Period Method) kullanılarak da değişken katkılar
belirlenebilir.
Yatırım getirisinin tahmin edilenden farklı olması nedeniyle fonun vade sonu değerini gösteren fT, hedef
fon büyüklüğü FT’den farklı olacaktır. Dolayısıyla vade sonunda bir açık meydana gelecektir. Bu açık miktarı;
hedeflenen fon büyüklüğü ile T zamanında gerçekleşen fon büyüklüğü arasındaki farka eşittir:
DT = FT – fT
(3)
Katılımcı için risk, bu açığın yüksek olmasıdır. Bu açığın negatif olması ise fazlalık olarak adlandırılır.
Fonda açık da fazlalık da istenmeyen durumlardır.
4. Uygulama
Bu çalışmada, 10.000 tekrarlı bir benzetim çalışması ile sabit ve değişken katkılı bireysel emeklilik
planlarında dönem sonu açık miktarları karşılaştırılarak; değişken katkılı bireysel emeklilik planlarında dönem
sonu açık miktarının sabit katkılı bireysel emeklilik planlarına göre daha düşük olduğu, hedeflenen fon
büyüklüğüne daha çok yaklaşıldığı ve değişken katkılı planların daha az riskli olduğu sonucuna varılmıştır. Aynı
zamanda vade değişimi, hedeflenen fon büyüklüğündeki değişim ile lamda katsayılarındaki değişimin sonuçlara
etkisi de incelenmiştir.
KAYNAKLAR
[1]
E.G.M Emeklilik Gözetim Merkezi A.Ş., http://www.egm.org.tr/?pid=480 (Aralık, 2014).
[2]
Box, G.E.P., Luceño, A., Discrete Proportional Integral Control with Constrained Adjustment, The
Statistician, 44(4), 479-495, 1995.
[3]
Owadally, I., Haberman, S., Hernández, D.G., A Savings Plan with Targeted Contributions, The
Journal of Risk and Insurance, 79(1), 1-26, 2012.
ABSTRACT
INDIVIDUAL PENSION PLANS WITH FIXED AND TARGETED CONTRIBUTION
In individual pension plans, the saver usually determines a particular fund target and contributes in
order to reach this fund target. There are two methods to be used in order that this fund target to be reached.
One of these methods is individual pension plans with fixed contribution, which is commonly used in individual
pension plans, while the other one is individual pension plans with targeted contribution.
In this study, a simulation with 10.000 iterations is carried out in order to examine in which method fund
target is approached more and which one is more risky. It was found out that final fund deficit is lower in the
pension plans with targeted contribution than that of the pension plans with fixed contribution, fund target was
approached more in the pension plans with targeted contributions, and pension plans with targeted
contributions were less risky.
Key Words: Individual Pension Sysyem, Individual Pension Plans With Fixed Contribution, Individual Pension
Plans With Targeted Contribution, Fund Target, Simulation.
48
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 3
İSTATİSTİKSEL KALİTE KONTROL
49
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÇOK DEĞİŞKENLİ OTOKORELASYONLU SÜREÇLER İÇİN
KONTROL GRAFİKLERİ
Bülent ALTUNKAYNAK*
Oğuzhan Fırat ALTUN
Gazi Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06500, Ankara, TÜRKİYE
[email protected]
[email protected]
1. Giriş
Geleneksel çok değişkenli kontrol grafikleri, bir ürüne ya da sürece ait değişkenleri eş zamanlı inceleyen ve
verinin zaman boyunca bağımsız olduğunu varsayan kalite kontrol yaklaşımlarıdır. Ancak birçok süreçte veri
otokorelasyona sahiptir. Çok değişkenli otokorelasyonlu süreçler kısaca VAR(p) veya MAR(p) olarak
adlandırılır. Buradaki p otokorelasyonun derecesini göstermektedir. Otokorelasyonlu süreçlerin kontrol
grafikleriyle takip edilmesinde genelde iki temel yaklaşım ileri sürülmektedir. Bunlardan birincisi geleneksel
kontrol sınırlarını süreç standart sapmasının tahmininden elde edilen otokorelasyonu dikkate alarak düzeltmek,
ikincisi ise zaman serisi modellerine dayalı kontrol grafiklerini kullanmaktır. Bu çalışmada, çok değişkenli
otokorelasyonlu süreçler için Z, Hotelling T2, MEWMA ve MCUSUM kontrol grafiklerinin etkinlikleri
simülasyon verisi kullanılarak karşılaştırılmıştır.
2. VAR Süreçleri İçin Kontrol Grafikleri
Z kontrol grafiği, çok değişkenli otokorelasyonlu veriler için Kalgonda ve Kulkarni tarafından geliştirilmiştir [1].
Süreç kontrol altında iken test istatistiği
Zit 
yit  i 0
 ii (0)
, i  1, 2,..., p
(1)
şeklinde verilebilir. Süreç kontrol altında iken Zt  max[| Zit |]  C (0), yazılabilir.
Hotelling T2 grafiği, sürecin ortalama vektörü ve varyans-kovaryans matrisi biliniyorken grafikteki kontrol
noktaları
χ 02 = n(Χ - μ)' -1 (Χ - μ)
(2)
değerlerinin hesaplanması ile elde edilir. Üst kontrol sınırı
 p2 , olur.
MEWMA kontrol grafiği ise aşağıdaki gibi verilebilir [2].
Zi  RX i  (  R)Zi 1 , i  1, 2,...
(3)
i2  Zi'Z1i Zi  H olduğunda süreç kontrol dışı sinyal verir.
MCUSUM grafiği, çok değişkenli birikimli toplam grafiği olarak bilinir. Çok değişkenli CUSUM metodu,
Cn   Sn 1  n  0  1  Sn 1  n  0 


'
1
2
(4)
şeklinde ifade edilebilir [3].
50
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
3. Uygulama
Uygulama için ortalama vektörüne ait 4 farklı durum için veri setleri üretilmiştir. Ortalama vektöründe herhangi
bir farklılaşmanın olmadığı durum A veri seti ile gösterilmiştir. Bu durumda ortalama vektörü
(1 , 2 )  (0,0) olarak alınmıştır. B veri seti ikinci değişkene ait ortalamada 1 birimlik sağa doğru kaymanın
olduğu duruma karşılık gelmektedir. C ve D veri setleri birinci değişkene ait ortalamada sırasıyla sağa ve sola 2
birimlik kaymaları temsil etmektedir. Her bir veri seti için n  1 olmak üzere 15 örneklem seçilmiştir. Bu
verilerin türetilmesinde  otoregressif parametre matrisi ve  kovaryans matrisi aşağıdaki gibi alınmıştır.
 1 0.5


0.5 1 
  diag (0.5,0.7)
Elde edilen sonuçlarda sürecin kontrol altında olduğu durumda Z grafiğinin diğerlerine göre daha etkin olduğu
ve yanlış sinyal vermediği görülmüştür. Ancak kontrol dışı durumlarda özellikle süreçteki küçük değişimleri
yakalamakta Z grafiği iyi sonuçlar vermemiştir. Birinci değişkendeki farklılaşma T 2 grafiği tarafından da tespit
edilememiştir. Kontrol dışı durumlar tespit etmede MEWMA grafiği daha etkin görülürken kaymanın hangi veri
noktasında başladığını belirlemede yeterince etkili görülmemiştir.
KAYNAKLAR
[1] Kalgonda A.A. and Kulkarni S. R. (2004), Multivariate Quality Control Chart for Autocorrelated
Processes, Kolhapur-India, Taylor & Francis.
[2] Lowry C.A., Woodall W.H. Champ and Rigdon S.E. (1992), A Multivariate Exponentially Weighted
Moving Average Chart, USA, Taylor & Francis.
[3] Crosier R.B. (1988), Multivariate Generalizations of Cumulative Sum Quality-Control Schemes,
United States of America, Taylor & Francis.
ABSTRACT
CONTROL CHARTS FOR MONITORING MULTIVARIATE AUTOCORRELATED PROCESS
Statistical process control provides an important toolbox for improving the process performance and
maintaining an efficient manufacturing process. One of the basic assumptions for traditional multivariate
control charts is that the data are independent in time. On the other hand, in many cases, the data are serially
dependent and cross-correlated. In this study, the performance of the multivariate control charts for different
shift sizes are compared using simulated data. To limit the complexity, we use a first-order vector autoregressive
process and focus mainly on bivariate data.
Key Words: Multivariate Data, Autocorrelation, Z chart, MEWMA, MCUSUM, Hotelling T2
51
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HİZMET KALİTESİNİN ÖLÇÜLMESİ: BANKACILIK SEKTÖRÜNDE
BİR UYGULAMA
BURÇİN GÜL*, PELİN TOKTAŞ**
*Başkent Üniversitesi, Bağlıca Kampüsü, Eskişehir Yolu 20. km, Fen Bilimleri Enstitüsü, Kalite Mühendisliği
Anabilim Dalı, 06810 ANKARA
[email protected]
**Başkent Üniversitesi, Bağlıca Kampüsü, Eskişehir Yolu 20. km, Mühendislik Fakültesi, Endüstri Mühendisliği
Bölümü, 06810 ANKARA
[email protected]
1. Giriş
Bir işletmenin rekabet avantajı sağlayabilmesi, rakiplerinden daha kaliteli ürün ve ya hizmet
sunması müşterilerin isteklerini karşılayabilmesi ile mümkün olabilir. Son dönemlerde hizmet
sektörünün ekonomi içindeki payını da göz önünde bulundurursak, önemi giderek artan
hizmet sektöründe başarılı olabilmek için sunulan hizmetin kalitesinin ölçülmesi
gerekmektedir. Hizmetin sahip olduğu özelliklerden ötürü kalitesinin ölçülmesi ürün
kalitesinin ölçülmesine kıyasla çok daha zor ve karmaşıktır. Hizmet kalitesi ölçümü üzerine
literatürde birçok çalışma mevcuttur [1], [2], [3]. Bu çalışmalar gözden geçirildiğinde hizmet
kalitesi kavramının açıklanması ve ölçümü için birçok modelin oluşturulduğu sektörlere göre
yöntemlerin geliştirildiği görülmektedir. SERVQUAL yönteminin ise incelenen çalışmalarda
en sık kullanılan yöntem olduğu görülmüştür [4], [5]. Söz konusu bu yöntemin çok farklı
alanlarda kullanıldığı görülmüştür. Hizmet kalitesinin ölçümü için kullanılan SERVQUAL
yöntemi, bankaların sunduğu hizmeti ölçmek için de kullanılmaktadır.
2. Uygulama
X Bank müşterilerinin bankalarına ilişkin algılanan ve beklenen hizmet kalitesi düzeyini SERVQUAL
yöntemiyle ölçmeyi amaçlayan bu çalışma için X Bank’ın Rüzgarlı ve Yıldız Şube’leri müşterilerinden basit
tesadüfi örnekleme yöntemi ile toplam 392 kişiye uygulanmıştır. Çalışmada tek bir ilin sadece iki şubesinin bir
dönemlik kesiti ele alınarak yapılmıştır.
Elde edilen veriler analiz edilerek müşterilerin beklenti ve algılama düzeyleri karşılaştırılmıştır. Araştırma
sonuçlarına göre algılama düzeyleri yüksek çıkmasına rağmen beklentilerin de yüksekliği, SERVQUAL
skorlarını negatif büyüklüğe taşımıştır. Ayrıca, X Bank’ın hizmet kalitesini ölçmeyi amaçlayan çalışmanın bu
bölümünde SERVQUAL Yöntemiyle elde edilen ölçüm sonuçlarını görselleştirerek bilgi türetmek için
çalışmaya “Quadrant Analizi” eklenmiştir. Elde edilen sonuçlar doğrultusunda, X Bank yetkililerine önerilerde
bulunulmuştur.
KAYNAKLAR
[1] Ghobadian, A. Speller, S. ve Jones, M. (1994), Service Quality Consepts And Models, International Journal
Of Quality And Reliability Management, 11(9), s. 51.
[2] Grönross C. (1984), A Service Quality Model and its Marketing Implications, 18(4), s. 36-43.
[3] Mei, A.W.O., Dean, A.M., ve White, C.J. (1999), Analyzing Service Quality in the Hospitality Industry,
Managing Service Quality 9, s.136-143.
[4] Parasuraman, A. Zeithaml, V.A. ve Berry, L.L. (1985), A Conceptual Model of Service Quality and its
Implications for Future Research, Journal of Marketing, 49, s. 41-50.
52
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
[5] Parasuraman, A. Zeithaml, V.A. ve Berry, L.L. (1980), SERVQUAL: A Multipleitem Scale for Measuring
Customer Perceptions of Service Quality, Journal of Retailing, 64, s. 12-40.
ABSTRACT
THE MEASUREMENT OF SERVICE QUALITY: AN APPLICATION OF BANKING SECTOR
Service quality is one of the important factors that affect the success of firms operating in service sector. Service
is an intangible concept, so control and evaluation of service quality causes many problems. Many methods have
been developed to analyze service quality in literature. Researchers mostly prefer SERVQUAL method to
examine the difference between perceptions and expectations of customers. In this study, service quality is
measured and compared by using SERVQUAL method in two branches of Bank X in Ankara. In conclusion,
some advices have been given to Bank X to improve their service quality.
Key Words: SERVQUAL method, banking, service quality, quadrant analysis.
53
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HODGES-LEHMANN TAHMİN EDİCİSİNE DAYALI
PARAMETRİK OLMAYAN KONTROL KARTI
Sema ALTIN* Senem ŞAHAN VAHAPLAR
Dokuz Eylül Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 35370, İzmir, TÜRKİYE
* [email protected] - [email protected]
1. Giriş
İstatistiksel süreç kontrolünün temel hedefi süreci değiştiren özel nedenleri olabildiğince hızlı bir şekilde
belirlemek ve süreci kontrol altında tutup düzeltici önlemler alabilmektir. Kontrol kartları, bu amacı yerine
getirmek için en çok kullanılan tekniktir. Kontrol kartı, ilk olarak 1920 yıllarında Walter A. Shewhart tarafından
“Bell Labs” adına çalışmaları sırasında geliştirilmiştir. Shewhart kontrol kartları, sürecin normal dağılım
gösterdiği varsayımı altında kullanılmış ve oldukça iyi sonuçlar vermiştir.
Ancak, bazı uygulamalarda araştırmacı, süreç dağılımı hakkında yeterli bilgiye sahip değildir ya da süreç
normal dağılım göstermemektedir. Yaygın olarak kullanılan Shewhart kontrol kartları, Cusum ve Ewma kontrol
kartları, süreç dağılımı normal olmadığında güvenilir sonuçlar vermezler. Daha iyi sonuçlar elde edebilmek için
yeni kontrol kartları geliştirilmiştir ve bu yeni kontrol kartları, normallik varsayımına ya da genel bir ifade ile
herhangi belirli bir parametrik dağılımın varsayımlarına bağlı değildir. Bu kartlar, “Dağılımdan bağımsız
(Distribution-free)” ya da “Parametrik olmayan (Nonparametric)” kontrol kartları olarak adlandırılır.
Bu çalışmada, Hodges-Lehmann tahmin edicisinden yararlanılarak elde edilen parametrik olmayan
kontrol kartı (HL kontrol kartı) üzerinde durulacak ve normallik varsayımı olmadan, HL kontrol kartının diğer
parametrik kartlara göre etkinliği incelenecektir.
2.Hodges-Lehmann Tahmin Edicisi
Her biri n örneklem genişliğinden oluşan m tane alt grup ele alınırsa;
X1,X2,…,Xn seçilen rasgele örneklemdir.
1.
HL tahmin edicisini hesaplama adımları:
değeri hesaplanır.
, r =1,2,…,M, i ≤ j, i=1,2,…,n, j=1,2,…,n değerleri hesaplanır.
2.
3.
Hodges-Lehmann tahmin edicisi ( )
=
k=
KAYNAKLAR
[1] Chakraborti,S., Van Der Laan,P., Bakır S.T.(2001). Nonparametric Control Charts: An Overview
and Some Results. Journal of Quality Technology. Sayı 3. 304-315
[2] Pongpullponsak,A., Jayathavaj,V.(2014). The New Hodges-Lehmann Estimator Control Charting Technique
for the Known Process Distributions. International Conference on Applied Statistics 2014, Thailand. 47-58
[3] Ch’ng,C.K., Quah,S.H., Low,H.C.(2004). The Use of Hodges-Lehmann Estimator in Multiple Response
Optimization with Replication. Matematıca. 20(2). 101-110.
[4] Laha,K.A.,Gupta,D.,Choubey,A.(2005). Performance of Nonparametric Control Charts. Indian Institute of
Management.
54
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ABSTRACT
NONPARAMETRIC CONTROL CHART BASED ON HODGES-LEHMANN ESTİMATOR
Nonparametric or distribution-free charts can be useful in statistical process control problems when there
is limited or lack of knowledge about the underlying process distribution. The purpose of this study is introduce
the Hodges-Lehmann control chart which based on Hodges-Lehmann estimator and examine the efficiency of
the chart.
Key Words: Nonparametric control chart, Hodges-Lehmann estimator, Walsh average, Statistical
process control.
55
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İSTATİSTİKSEL SÜREÇ KONTROLÜ: BİR ÖRNEK UYGULAMA
1
Ozan ALTUNAY, 2Hakan ALTUNAY
1
Fırat Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Elazığ, [email protected]
2
Fırat Üniversitesi, Mühendislik Fakültesi, Endüstri Mühendisliği Bölümü, Elazığ, [email protected].
İstatistiksel Süreç Kontrolü, incelenen herhangi bir üretim veya hizmet sürecinde beklenmeyen bir değişkenlik
söz konusu olduğunda, bu değişkenliği neden olan sorunun tespit edilerek çözüm aranması ve sürecin
planlandığı gibi ilerlemesini sağlamak amacıyla çeşitli istatistiksel yöntem ve tekniklerin kullanılması olarak
tanımlanmaktadır [1], [2]. Bu teknikler süreçlerde; üretim kalitesinin kontrol edilmesi, sürdürülmesi ve
iyileştirilmesi için kullanılmaktadır. Söz konusu istatistiksel süre kontrolü tekniklerinden en yaygın olanı kontrol
şemalarıdır. Kontrol grafikleri, öncelikle süreç hatalarının tespit edilmesi ve önlenmesi, sonrasında ise süreç
kalitesinin iyileştirilmesini sağlar [3]. İstatistiksel Süreç Kontrolü şemaları doğal bir değişkenliği ifade eden
dağılımdan sapma olduğu hipotezinin alınan her yeni örnek grubu ile devamlı olarak test edilmesi şeklinde ifade
edilmektedir [4]. İlk aşamada, bir kontrol grafiğinin süreci en iyi şekilde temsil edebilmesi için kontrol sınırları
doğru belirlenmelidir. Sonraki aşamada ise süreçler belirli bir süre gözlenerek numuneler alınmaktadır. Alınan
numunelerden elde edilen değerler ise kontrol şemalarına işlenerek sürecin kontrol altında olup olmadığını
belirlemektedir. Örneğin; alınan numunelere ilişkin değerler belirlenen sınır değerlerinin dışında kalıyorsa süreç
kontrol dışındadır.
Bu çalışmada bir mermer işleme fabrikasında karşılaşılan en önemli kalite problemlerinin belirlenmesi, üretim
süreçlerindeki değişkenliğin analiz edilmesi ve bu değişkenliğin azaltılması amacıyla İstatistiksel Süreç Kontrolü
tekniklerinden yararlanılmıştır. Süreçlerin kontrolünün ve sürekliliğinin sağlanması için kontrol
şemaları(grafikleri) kullanılmıştır. Süreçlerden alınan örnekler ile grafiklere ait sınır değerleri elde edilmiştir.
Oluşturulan kontrol grafikleri yardımıyla işletme içerisindeki üretim süreçlerine ait değişkenlikler takip
edilmiştir. Bu değişkenliklere sebep olan nedenler ortaya konularak kontrol grafikleri revize edilmiştir.
KAYNAKLAR
[1] Anagün A.S. (1997), “Düşük Hacimli Üretimde İstatistiksel Proses Kontrolü: Kontrol Grafikleri”, III.
Ulusal Ekonometri ve İstatistik Sempozyumu, 271-281, Bursa, 29-30 Mayıs.
[2] Burmak, N. (1996), Toplam Kalite Yönetimi-İstatistiksel Süreç Kontrolü, Osmangazi Üniversitesi, Endüstri
Mühendisliği Bölümü, Yayınlanmış Ders Notları, Ekim.
[3] Koçer B. Birgören B. (2004), “Approaches for Problem Diagnosis via Statistical Process Control Charts”,
G. U. Journal of Science, 17(4), 59-69, 2004.
[4] Montgomery, D.C. (2001), Introduction to Statistical Quality Control 4th ed., Wiley & Sons, New York.
ABSTRACT
STATISTICAL PROCESS CONTROL: A CASE STUDY
Statistical process control is one of the most commonly used quality control techniques in all industries.
Statistical process control contains various statistical techniques that are used to provide, continue and improve
quality in manufacturing or service processes, the most highly used of these techniques are control charts.
Control charts are used to detect and prevent the process problems primarily and also to improve the process
quality eventually. In this study, we used statistical process control methods to determination of the quality
problems and control them in a marble factory.
Key Words: Statistical Process Control, Control Charts, Fault Detection, Quality Control.
56
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
NİCEL KALİTE KONTROL GRAFİKLERİNİN SİMÜLASYON VERİLERİ İLE
KARŞILAŞTIRILMASI
Aytaç PEKMEZCİ, Atilla GÖKTAŞ, Yunus Emre MERAL
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Kötekli, MUĞLA
[email protected] , [email protected] , [email protected]
1. ÖZET
Gelişen dünyamızda üretici ve tüketicilerin konuştuğu ortak dillerden biri kalitedir. Ekonomideki
gelişmeler ve küreselleşme sonucu artan rekabet işletmelerin yurt içi ve yurt dışında pazar bulma çabalarını
hızlandırmıştır. Günümüzde işletmeler arasında yaşanan katı rekabet şartları, üreticileri minimum maliyetle
yüksek kalitede ürün üretmeye zorlamaktadır. Üretimdeki temel amaç satılabilir nitelikteki ürünler olduğundan
ürün kalitesinin tüketicinin kararını etkilediği söylenir. Ürün kalitesinde sürekli iyileştirmeyi hedefleyen
işletmeler tüketicilerin beklentilerini, isteklerini, tepkilerini, tatmin derecelerini dikkate alarak daha iyi bir ürün
veya hizmetin sunulmasını sağlamaya başlamıştır.
Kalite Kontrol (KK) üretimin normal koşullar altında yürütülmesini sağlamada çok önemli rol oynayan,
sistematik ve tesadüfî sebeplerin sonucu üretimin kontrol dışına çıkmasını hemen bildiren ve gerekli tedbirlerin
zamanında alınmasına sağlayan metottur. Ayrıca en ekonomik, en kullanışlı ve tüketiciyi her zaman memnun
eden bir ürün geliştirmek, tasarlamak, üretmek ve bakımını yapmaktır. KK ürünleri muayene ederek hataları
önlemez ve süreci kontrol etmez. KK basit problemlere hızlı ve güvenilir çözümler getirir, karmaşık problemlere
değişik seviyelerde çözüm gösterir.
Kalite Kontrolde temel amaç özel nedenleri ve proses kaymalarını ortaya çıkarmaktır. Kontrol grafikleri
bu amaç için kullanılan proses kontrol yöntemidir. Üretimden alınan örneklerden elde edilen ölçüm değerlerinin
zaman içerisindeki değişimlerinin gösterildiği grafiklerdir. En önemli yararı üretim prosesinin geliştirilmesini
sağlar. Üretim esnasında meydana gelebilecek özel bir sebebin üretimi etkilemeye başladığı en kısa zamanda ve
en az zararlı bir yanılma ile yetkiliye haber verir ama hatayı tespit edip ortadan kaldıramaz.
Günümüzde üretim kapasitelerinin büyümesi, hızlı ve yoğun üretim sistemlerinin gelişmesi, %100
muayene yerine ana kitleden rastgele alınan örnek gruba KK’nın yapılması istatistik sayesinde olmuştur. KK
gelecekteki üretime önem verir. Bunu sağlamanın en önemli metodu istatistiktir. Büyük miktarda üretimin en az
malzeme ve işçilik ile en yüksek kalite de gerçekleşmesiyle istatistik KK’da geniş uygulama alanı bulmuştur.
Bu konuda yapılmış ilk çalışmalarda Shewhart, üretimden alınan örneklem genişliğinin n  10
olduğunda X grafiği ile birlikte hesaplanma kolaylığından dolayı R grafiğinin kullanılmasını, ancak örneklem
genişliğinin n  10 olduğunda σ’nın tahmin edicisi olarak R’nin etkinliği s’ye göre hızla azaldığından s kontrol
grafiğinin kullanılmasını önermiştir. Yapılan sonraki çalışmalarda ise örneklem genişliğinin 2  n  5 olması
halinde X  R , n  6 olması halinde X  s kontrol grafiğinin kullanılmasının yeterli sonuç vereceği iddia
edilmiştir.
Bu çalışmada simülasyon programı yardımıyla sürecin kontrol altında olduğu varsayılan örneklem
hacmi (n) 5 ile 25 arasında değişen, örneklem büyüklüğü (k) 50 olan 1000 seri rasgele üretilmiştir. Potansiyel
Yeterlilik (Cp) İndeksine göre proses spesifikasyonlarını karşılayan her bir seri için X , R , s hesaplanmıştır.
Hesaplanan bu değerler kullanılarak X  R kontrol grafiği için Eşitlik 1 ve X  s kontrol grafiği için Eşitlik
2’ye göre Üst Kontrol Sınırları (ÜKS) ile Alt Kontrol Sınırları (AKS) belirlenmiştir.
57
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÜKS  X  3
ÜKS  R  3d3
ÜKS = X  3
R / d2
 X  A2 R
n
AKS = X  3
3d
R
 R(1  3 )  D4 R
d2
d2

n
X
3s
c4 n
 X  A3 s
3
ÜKS  s  3ˆ s  s(1 
1  c42 )  B4 s
c4
AKS  R  3d3
AKS = X  3

n
R / d2
 X  A2 R
n
(1)
3d
R
 R(1  3 )  D3 R
d2
d2
X
3s
c4 n
 X  A3 s
(2)
3
AKS  s  3ˆ s  s(1 
1  c42 )  B3 s
c4
Bu sınırlara göre sürecin kontrol altında olup olmadığı belirlenerek kontrol grafiklerinin performansları
çeşitli kriterlere ve durumlara göre karşılaştırılmıştır. Aynı işlemler sürecin kontrol altında olmadığı varsayılan
1000 seri içinde yapılarak grafiklerin I. tip hataları çeşitli kriterlere ve durumlara göre karşılaştırılmıştır. Her iki
işlem sonucunda örneklem hacmine göre hangi kontrol grafiğinin daha tutarlı sonuçlar vereceği belirlenmiştir.
KAYNAKLAR
[1] Montgomery, D.C., (2001) “Introduction to Statistical Quality Control”, 4.th Edition, Arizona
State University, USA.
[2] Birgören, B., (2015) “İstatistiksel Kalite Kontrolü”, Nobel Yayın, Ankara, 195s.
[3] Pekmezci, A., (2005), ”İstatistiksel Kalite Kontrol Yöntemleri ve Uygulaması”, Muğla
Üniversitesi Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi.
[4] Gitlow, H.S., Oppenheim, A., Oppenheim, R., (1995) “Quality Management: Tools and Methods
for Improvement”, 2. Edition, Irwin Inc., USA.
[5] Firuzan, A.R., (1995) “Shewhart Kontrol Kartlarında Kontrol Tarifelerinin Belirlenmesi”, DEÜ,
Fen Bilimleri Enstitüsü, Doktora Tezi.
COMPARISON QUANTATIVE QUALITY CONTROL CHARTS BY
USING SIMULATION DATA.
ABSTRACT
In this study, a simulation study is carried out evaluate the performance of quality control charts. For this
aim, firstly, 1000 different series are randomly generated from a process assumed under control. The sample
size for each of these series is fixed to be 50 and their sample volume varies from 5 to 25. Then the values of
X , R , s are calculated for each series and whether a process is under control or not has been checked.
Secondly, the study repeated with new generated data for a process that is not under control. The objective in
this is to determine which control charts present more consistent result for both cases.
Key Words: Quantative Quality Control Charts, Simulation
58
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 3
ÇOK DEĞİŞKENLİ İSTATİSTİKSEL ANALİZ 2
59
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AYKIRI DEĞERLERİN VARLIĞINDA FARKLI DAYANIKLI
KOVARYANS MATRİS TAHMİNLERİNİ TEMEL ALAN LİNEER
DİSKRİMİNANT ANALİZİ SONUÇLARININ İNCELENMESİ
B. Barış ALKAN1
Cemal ATAKAN2
1
Sinop Üniversitesi, Fen-Edebiyat Fakültesi, İstatistik Bölümü, Sinop
E-mail:[email protected]
2
Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Ankara
Email:[email protected]
Lineer Diskriminant Analizi (Fisher, 1936), p tane özelliği bilinen gözlemleri doğal ortamdaki gerçek
gruplarına (sınıflarına) hatalı sınıflandırma olasılığını minimize ederek ayırmayı amaçlayan çok değişkenli
istatistiksel bir yöntemdir. Diskriminant analizinde, diskriminant (sınıflandırma, atama) fonksiyonu kitleler
üzerine konan bazı varsayımlara göre elde edilir. Örneklemlerin alındığı kitlelerin kovayans matrislerinin eşit ya
da eşit olmaması durumlarına göre farklı diskriminant fonksiyonları elde etmek mümkündür. Kitlelerin kovayans
matrislerinin eşit olması durumunda lineer diskriminant fonksiyonu, farklı olması durumunda karesel
diskriminant fonksiyonu elde edilir.
, k tane farklı kitle olsun.
bireyin sırasıyla
gelir.
p-boyutlu bir gözlem vektörü
yoğunluğu ile
kitlesinden
kitlelerine ait olması olasılıkları olsun. Burada
lara önsel olasılıklar denmektedir ve
olduğu
dir. Genellikle,
varsayılır.Tüm grupların kovaryans matrisleri eşit (
olduğunda
gözleminin hatalı sınıflandırma olasılığı minimize edilir. Bu durumda
,
kitlesine yeni bir
sınıflandırma fonksiyonu,
(1)
maksimize edilmiş olur (Todorov and Filzmoser 2009).
(1) eşitliği ile verilen
fonksiyonu,
’de doğrusal olduğu için lineer diskriminant analizi (LDA)
olarak ifade edilir.
LDA’da örneklem grup ortalaması ve örneklem kovaryans matrisi
’yı tahmin etmek için
kullanılır. LDA aykırı değerlere karşı dayanıklı değildir. Aykırı değerlerin varlığında klasik lineer diskriminant
analizi kullanımında elde edilecek sonuçlar gerçeği yansıtmaktan uzak olacaktır. Bu nedenle aykırı değerlerin
varlığında lineer diskriminant analizinin dayanıklı versiyonunun kullanılması uygundur. LDA’nin dayanıklı
versiyonu
parametrelerinin dayanıklı tahminleriyle yer değiştirilmesi ile elde edilebilir (Todorov and
Filzmoser 2009).
Diskriminant analizinin dayanıklı versiyonlarının elde edilmesinde R istatistiksel yazılım paketinde yer
alan robustbase, rrcov ve stats kütüphaneleri kullanılmıştır (R Development Core Team 2009).
Bu çalışmada, yapay bir veri kümesi üzerinden farklı dayanıklı kovaryans matrislerini temel alan
diskriminant analizi sonuçlarının performansları incelenmiştir.
60
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Fisher, R. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7,
179– 188.
[2] R Development Core Team (2009). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http: //www.R-project.org/.
[3] Todorov, V. and Filzmoser, P. (2009). An Object-Oriented Framework for Robust Multivariate Analysis.
Journal of Statistical Software, 32(3).
ABSTRACT
EXAMINATION OF RESULTS OF LINEAR DISCRIMINANT ANALYSIS BASED ON
DIFFERENT ROBUST COVARIANCE MATRIX ESTIMATES IN THE PRESENCE OF OUTLIERS
Linear Discriminant Analysis (LDA) is not resistant to outliers. The results which will be achieved in the
use of classical LDA will be far from the truth in the presence of outliers. Therefore ,in the presence of outliers,
using robust version of LDA is suitable. In this study, we examined the performances of linear discriminant
analysis based on different robust cavariance matrix estimates on the artificial data sets.
Key Words: linear discriminant analysis, robustness, outliers
61
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BÜYÜK VERİ BÜYÜK PROBLEM: SİNGÜLER KOVARYANS
YAPISI
Esra PAMUKÇUa
a
Fırat Üniversitesi Fen Fakültesi İstatistik Bölümü,23119,Elazığ
e-mail: [email protected]
1.
Giriş
X ; ( pxp) boyutlu bir veri matrisi olsun. Veri, Gauss veya diğer eliptik konturlu olan çok değişkenli-t,
çok değişkenli üstel, çok değişkenli Cauchy, çok değişkenli Laplace gibi dağılımlar ile olasılıksal olarak
modellendiği zaman,  kovaryans matrisi tahmin edilmelidir. Örnek boyutu n , değişkenlerin boyutu p ’den
ˆ
küçük olduğu zaman ( n  p ),  ’nın klasik örnek maksimum olabilirlik tahmin edicisi 
durağan
MLE
olmayan, kötü şartlandırılmış, pozitif tanımlı olmayan ve hatta singüler bir yapıya sahiptir. Böyle bir durumda,
pratik olarak tüm çok değişkenli analizlerde ihtiyaç duyulan ve hassas matris (precision matrix) olarak da ifade
edilen kovaryans matrisinin tersi hesaplanamaz.
Gerçek kovaryansın doğru bir tahminine dayanan çok değişkenli teknikler için, son zamanlarda küçük
örneklem boyutu altında yüksek boyutlu bir pxp kovaryans matrisi tahmin etmek önemli bir problem haline
gelmiştir. Büyük p, küçük n (Big p, Small n) probleminin olduğu yerlerde, klasik örnek kovaryans matrisi
sistematik olarak bozulan bir öz-yapıya sahip olduğu için bunun üstesinden gelecek farklı tahmin ediciler
geliştirmek gereklidir.
Stein (1956)’da çok öncelerden de rapor edildiği gibi Σ kovaryans yapılı ve sıfır ortalamalı normal
ˆ
dağılan bir anakütleden gelen n boyutlu bir örneğin kovaryans matrisinin maksimum olabilirlik tahmini 
,
MLE
p/n büyük olduğu zaman yansız ve pozitif tanımlı olmasına rağmen, kovaryans matrisinin doğru bir tahmin
edicisi değildir. Bu durumda kovaryans matrisinin yapısı, en büyük özdeğerlerin yukarı yönde yanlı, en küçük
özdeğerlerin aşağı yönde yanlı olması şeklinde bir bozulmaya uğrar. Bu durumu gösterebilmek amacıyla farklı
p/n oranlarına sahip veri setleri üretilmiş ve örnek kovaryans matrislerinin özdeğerleri hesaplanmıştır. Sonuçlar
Şekil 1’deki gibidir.
Büyük sayılardaki p değerlerinde, p/n oranını ihmal edilebilir yapabilmek için gerekli gözlem sayısına
ulaşmak da zordur. Bu yüzden yüksek boyutlu kovaryans matrisleri için iyi şartlandırılmış bir tahmin edici
bulmak önemlidir.
2.
Yöntem ve Amaç
Yapı olarak gözlem sayısının az, değişken sayısının fazla olduğu aşırı derecede küçük örnekleme sahip
büyük veri setlerinde kovaryans yapıları için buraya kadar anlatılan bilgiler göz önüne alındığında, bu verilerin
kovaryans matrislerinin maksimum olabilirlik tahminlerinin singüler yapıya sahip olup, pozitif tanımlı
olmayacakları açıktır. Bu nedenle, maksimum olabilirlik tahminleri kullanılarak yapılacak klasik çok değişkenli
istatistiksel analizlerin doğruluğu ve geçerliliği şüphelidir.
62
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Farklı p/n oranları için özdegerlerin değişimi
20
p/n=10
p/n=2
p/n=1
p/n=0.5
p/n=0.1
15
10
5
0
-5
0
10
20
30
40
50
60
Özdegerler
70
80
90
100
Şekil 1:
boyutlarında üretilen veri setleri için özdeğerlerin
değişimi.
Bu çalışmada ilk olarak bu yapıya sahip olan veri setleri için, literatürde var olan bazı düzgünleştirilmiş
ve/veya düzenlileştirilmiş kovaryans yapılarının kullanımı ile kovaryans matrisinin singülerlik probleminin
çözülüp çözülmediği karşılaştırmalı olarak incelenecektir. İkinci olarak istatistik literatüründe ihmal edilmiş bir
kovaryans yapısı olan ve Fiebig (1984) tarafından önerilen Maksimum Entropi Kovaryans Matrisi kullanımı ve
onun avantajları gösterilecek ve ayrıca onun diğer yapılar ile hibritleştirilmesinden oluşmuş olan ve Pamukçu
ark. (2015) tarafından önerilen Hibrit Kovaryans Tahmin Edicisi (Hybrid Covariance Estimator-HCE)’nin üstün
tarafları tanıtılacaktır.
KAYNAKLAR
[1] Stein, C. (1956). Some problems in multivariate analysis. Part-1. Technical Report-6: Department of
Statistics. Stanford University
[2] Fiebig, D., G. (1984). On the maximum entropy approach to undersized samples. Applied
Mathematics and Computation.14:301-312
[3] Ledoit, O. ve Wolf, M. (2004). A well conditioned estimator for large dimensional covariance
matrices. Journal of Multivariate Analysis. 88:365-411
[4] Pamukcu E., Bozdogan H., Çalık S. (2015). A Novel Hybrid Dimension Reduction Technique for
Undersized High Dimensional Gene Expression Data Sets Using Information Complexity Criterion for Cancer
Classification. Computational and Mathematical Methods in Medicine. Volume 2015 (2015), Article ID 370640.
ABSTRACT
BIG DATA, BIG PROBLEM: SINGULAR COVARIANCE STRUCTURE
Estimation of the covariance matrices for small sample size and high dimensions, that is the n ≪p
problem, is a difficult problem that has recently attracted the attention of many researchers. When the sample
size n is much smaller than the number of features, p, that is, when we have n ≪p, the maximum likelihood (ML)
estimator of the covariance matrix is neither invertible nor is it well conditioned. In this paper, therefore, our
main objectives is to resolve the n≪p problem, we introduce the neglected Maximum Entropy (ME) covariance
matrix along with other smoothed (or robust) covariance estimators and it’s hybridized forms.
Keywords: Big Data, Singular Covariance Matrix, Maximum Entropy Covariance Matrix.
63
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
DEĞİŞMEZ KOORDİNAT SEÇİMİ İÇİN ÖRNEKLEM
DAĞILIŞLARININ KÜMELEME ANALİZİ İLE ELDE EDİLMESİ
Yüksel ÖNER
Samsun Ondokuz Mayıs Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü
[email protected]
Fikriye KABAKCI
Recep Tayyip Erdoğan Üniversitesi
Fen Edebiyat Fakültesi
Matematik Bölümü
[email protected]
Değişmez Koordinat Seçimi (ICS, Invariant Coordinate Selection) David E. Tyler ve arkadaşları tarafından çok
değişkenli veri yapısını ortaya çıkarmak amacıyla tanımlanmış bir yöntemdir. Bu yöntem iki farklı örneklem
dağılış matrisinin kullanımına dayanır. Bunlardan biri öncelikle veriyi saflaştırmak için kullanılırken diğeri
saflaştırılmış veriye temel bileşen analizi uygulayarak verinin yönünü belirlemede kullanılır. Daha belirgin
olarak bu dönüşüm,
1
X  Z  S1 ( X ) 2 U 2T  XBT ,
burada U 2 ,
S2 (Z1 )  U 2T DU 2 ,
spektral değer ayrışımı ile tanımlanmış olup
1
Z1  XS1 ( X ) 2
ile verilmiştir.
Bu dağılış matrisleri hakkında genel bir kural belirtilmeyip hangi dağılış istatistiklerinin en iyi sonuç vereceği
problemi hala geçerliliğini korumaktadır.
Bu çalışmada alt örneklemler kümeleme analizleri ile seçilmiş ve bunların varyans -kovaryans matrisleri dağılış
istatistikleri olarak ICS de uygulamaya konulmuştur.
Kümeleme analizi gruplanmamış ya da doğal grupları hakkında yeterli bilgi bulunmayan birimleri ya da
değişkenleri benzerlik veya benzemezliklerine göre ya da bunların birbirlerine olan uzaklık veya yakınlıklarına
göre sınıflandırmak ve araştırıcıya uygun işe yarar özetleyici bilgiler elde etmek amacıyla kullanılan
yöntemlerdir.
Kümeleme analizinde kümeleme yöntemleri genel olarak iki grupta toplanır, bunlar hiyerarşik kümeleme
yöntemleri ve hiyerarşik olmayan kümeleme yöntemleridir.
Hiyerarşik kümeleme yöntemleri nesnelerin, bireylerin veya değişkenlerin belirli bir sisteme göre bir dizi
şeklinde düzenlenmesidir.
Bu çalışmada hiyerarşik kümeleme yöntemlerinden
 Basit bağlantı ( En yakın komşu)
 Tam bağlantı (En uzak komşu)
 Ortalama bağlantı
64
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
 Medyan bağlantı
hiyerarşik olmayan kümeleme yöntemlerinden ise
 K-ortalamalar tekniği
 En çok olabilirlik tekniği
yöntemlerine başvurulmuştur.
Bu çalışmada farklı veri setleri üzerine öncelikle kümeleme analizi uygulanmış bu yöntemlerden elde edilen alt
örneklemlerin daha sonra ICS de kullanılmak üzere varyans- kovaryans matrisleri hesaplanmıştır. İlgili analiz ve
hesaplamalar R programında gerçekleştirilmiştir.
.
KAYNAKLAR
[1] David E. Tyler, Frank Critchley, Lutz Dümbgen and Hannu Oja, (2009), Invariant co-ordiante Selection,
J.R. Statist. Soc. B. (2009) 71, Part 3, pp. 549-592.
[2] David Tyler, Breakdown properties of the M-estimators of multivariate scatter,
Inst.Math. Stat. Bull. Vol:15, 116, (1986).
[3] Klaus Nordhausen, Hannu Oja, David E. Tyler, Tools for Exploring Multivariate Data:
The Package ICS, November 2008, volume 28, Issue 6.
[4] Anil K. Jain, Richard C. Dubes (1988). Algorithms for Clustering Data, Prentice Hall Englewood Cliffs,
New Jersey.
ABSTRACT
SAMPLE SCATTER STATISTICS DERIVATION WITH CLUSTER ANALYSIS FOR INVARIANT
COORDINATE SELECTION
Invariant coordinate selection (ICS) has been introduced by David E. Tyler et al. It is defined to uncover
structure of the multivariate dataset. This method based on two scatter statistics. In this study we apply some
cluster analysis methods to find appropriate scatter statistics for ICS to our datasets. Since R includes package
ICS, we have used R to analyse our dataset.
Key Words: invariant coordinate selection, R, clustering
65
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İKİ DEĞİŞKENLİ WEİBULL DAĞILIMLI KİTLELERDE
DİSKRİMİNANT ANALİZİ
Hayrinisa DEMİRCİ BİÇER*
Cemal ATAKAN
Cenker BİÇER
Kırıkkale Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü
Kırıkkale/Türkiye
Ankara Üniversitesi
Fen Fakültesi
İstatistik Bölümü
Ankara/Türkiye
Kırıkkale Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü
Kırıkkale/Türkiye
[email protected]
[email protected]
[email protected]
İki değişkenli Weibull dağılımı, güvenilirlik teorisi ve yaşam (sağ-kalım) analizinde yaygın olarak
kullanılmaktadır. T rasgele değişkeni  parametreli üstel dağılıma sahip bir rasgele değişken olmak üzere,
Y  T 1  rasgele değişkeni  ve  parametreli Weibull dağılımına sahiptir. Benzer olarak, çok değişkenli
üstel dağılımdan, çok değişkenli Weibull dağılımı da elde edilmektedir.
Bu çalışmada, iki değişkenli Weibull dağılımına sahip iki kitle arasındaki diskriminant analizi problemi
ele alınmıştır. Dağılımların parametreleri bilindiği ve bilinmediği durumlar için toplam hatalı sınıflandırma
olasılığını minimize eden sınıflandırma kuralına göre sınıflandırma bölgeleri, diskriminant fonksiyonu ve
sınıflandırma kuralı elde edilmiştir. Elde edilen diskriminant fonksiyonuna göre hata oranının nasıl etkilendiğini
incelemek amacıyla bir simülasyon çalışması yapılmış ve hata oranı tahmin değerlerine ilişkin çalışma sonuçları
verilmiştir.
KAYNAKLAR
[1] Adegboye, O. S. (1993), The Optimal Classification Rulefor Exponential Populations, Austral. Journal, 35,
185–194.
[2] Fisher, R. A. (1936). The Use of the Multiple Measurements in Taxonomic Problems. Annals of Eugenics,
7, 179–188.
[3] Hanagal, D. D. (1996). A Multivariate Weibull Distribution, Economic Quality Control, Vol. 11, pp. 193–
200.
[4] Rinne, H. (2009). The Weibull Distribution: A Handbook, Taylor & Francis Group, LLC. USA.
ABSTRACT
DISCRIMINANAT ANALYSIS OF BIVARIATE WEIBULL POPULATIONS
In this study, we consider the discriminant analysis problem between the two populations with bivariate
Weibull distribution. And also, classify regions, a discriminant function and allocation rules are obtained
according to the principle of minimizing the probability of total misclassification for each cases which
distributions parameters are known or unknown. Furthermore, A simulation study is conducted to the examine
how the misclassification error rate is affected according to the obtained discriminant function and some results
are given in the simulation study for the calculated misclassification error rate estimates according to the
obtained allocation rule.
Key Words: Bivariate Weibull distribution, error rate, discriminant analysis.
66
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İnovasyon Endeksine Göre Türkiye’nin Avrupa Ülkeleri Arasındaki Yeri
Fatih ÇEMREK1
Hakkı POLAT2
1
Yrd.Doç. Dr.Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
Doktora Öğrencisi Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
1
[email protected]
2
[email protected]
2
İnovasyon Endeksine Göre Türkiye’nin Avrupa Ülkeleri Arasındaki Yeri
Bu çalışma, Avrupa Komisyonu tarafından, yenilikçiliği ölçmek için 25 alt gösterge ve bu alt
göstergelerden hesaplanan 8 üst göstergeden oluşan Yenilikçilik Birliği Skor Tahtası (Innovation Union
Scoreboard) verilerinden hareketle Türkiye’nin yenilikçilik anlamında Avrupa ülkeleri arasındaki yerini
belirlemeyi amaçlamıştır.
2013 yılı için İnsan Kaynakları, Araştırma Sistemleri, Finans ve Destekler, Firma Araştırmaları, Bağlantılar ve
Girişimcilik, Entelektüel Varlıklar, Yenilikçiler, Ekonomik Etkiler gibi konuları dikkate alan endekslerle yapılan
kümeleme analizleri sonucunda ülkeler temelde 7 kümede toplanmıştır. Türkiye, Malta, Romanya, Makedonya
ve Bulgaristan ile birlikte söz konusu göstergeler bakımından en vasat performansı gösteren iki kümeden birine
dahil olmuştur. Çalışma sonucunda görülmüştür ki Türkiye yenilikçilik anlamında gelişmiş birçok Avrupa
ülkesinin gerisinde kalmıştır.
‘İnovasyon’ kavram olarak, hem bir süreci (yenilemeyi/yenilenmeyi) hem de bir sonucu (‘yenilik’i) ifade eder.
AB ve OECD literatüründe inovasyon süreç olarak; “bir fikri, pazarlanabilir bir ürün ya da hizmete, yeni ya da
geliştirilmiş bir üretim ya da dağıtım yöntemine ya da yeni bir toplumsal hizmet yöntemine dönüştürmek” olarak
tanımlanır. Aynı zamanda bu dönüştürme süreci sonunda ortaya konan pazarlanabilir, yeni ya da geliştirilmiş
ürün, yöntem ya da hizmeti de ifade etmektedir (TÜSİAD, 2003). Benzer olarak OECD (2005) inovasyonu; yeni
veya önemli ölçüde değiştirilmiş ürün (mal ya da hizmet), veya sürecin; pazarlama yönteminin; ya da iş
uygulamalarında, işyeri organizasyonunda veya dış ilişkilerde yeni bir organizasyonel yöntemin
uygulanmasıdır.” Şeklinde tanımlamaktadır.
İnovasyon skor tahtası-karnesi, ülkelerin bulundukları konuma ilişkin belirli bir değer hesaplamakta, ayrıca
büyüme oranlarını da ortaya koymaktadır. Türkiye, büyüme oranları dikkate alındığında sergilediği yüksek
oranda büyüme performansını; en çok atıf alan bilimsel yayınlarda, işletmelerin Ar-Ge harcamalarında ve
Topluluk ticari markalarında (community trademark) göstermektedir. Topluluk tasarımları kaleminde güçlü bir
düşüş izlendiği aktarılmış, insan kaynakları, açık, mükemmel ve cazip araştırma sistemleri, finansman ve
destekler ve firmaların yatırımları kalemlerinde ise ortalamanın üzerinde bir büyüme performansı sergilendiği
vurgulanmaktadır (Karaata, 2012).
Var olan yenilik kapasitesini ölçebilmek ve diğer ülkelerle karşılaştırmak yenilikçi bir yapıya ulaşmada önemli
bir analiz noktası olarak karşımıza çıkmaktadır. Bu sayede ekonominin göreli yenilik kapasitesi görülmekte ve
hedefler ve araçlar belirlenebilmektedir. Yenilik kapasitesini ölçebilmek için zaman içerisinde gelişmiş olan bazı
göstergeler kullanılmaktadır. Teknolojik değişim (yenilik) süreci içerisindeki üç aşamanın herhangi bir yerinde
“girdi” ve/veya “çıktı” olarak yer alan belli başlı unsurlar, teknolojik değişim ve ilerleme sürecine ait göstergeler
olarak kabul edilmekte ve tüm dünyada başta OECD ve UNESCO gibi uluslararası kuruluşlar ve ülkeler olmak
üzere ilgili çevrelerce derlenmekte, gözlenmekte, değerlendirme ve analizlerde kullanılmaktadır (Karagöz ve
Albeni, 2004).
Türkiye’nin gerek coğrafi gerekse kültürel olarak en yakın merkezlerinden olan Avrupa’nın artan küresel
rekabetle, yaşlanan nüfusunun getirdiği sorunlarla ve krizin etkileriyle mücadele edebilmesi ve yeni iş alanları
yaratabilmesi, ürün, servis, iş ve sosyal süreçlerde yenilik yaratabilmesi ile yakından ilişkilidir. Zira Avrupa’nın
yenilikçilik anlamında geniş bir potansiyeli vardır. Dünya çapında araştırmacılara, girişimcilere ve firmalara
67
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
sahip olması ve dünyanın en büyük pazarlarından biri olması gibi pek çok avantajına rağmen Avrupa, bu
alandaki gerçek potansiyelini tam anlamıyla ortaya koymaktan henüz çok uzaktır (Karataş ve Ayrım, 2010).
Bu çalışma kapsamında da söz konusu değişkenler kullanılarak kümeleme analizi yapılmış ve oluşan küme
yapısı aşağıdaki tabloda verilmiştir.
Tablo 2.Ward Metoduna Göre Kümeleme Analizi Sonuçları
Ülke Adı
Küme Numarası
Slovakya,
Hırvatistan,
Macaristan,
Cumhuriyeti, Yunanistan, Sırbistan
Çek
1
İspanya, İtalya, Portekiz
Letonya, Polonya, Litvanya
2
3
Bulgaristan, Romanya, Malta, Türkiye
4
Danimarka, İsveç, Finlandiya, Almanya, İsviçre
5
Estonya, Slovenya, Avusturya, Kıbrıs
Belçika, Hollanda, Fransa,
İngiltere, İrlanda, Norveç
6
Lüksemburg,
7
İzlanda
8
Tablo.1 incelendiğinde Türkiye’nin Malta, Bulgaristan ve Romanya ile aynı kümede yer aldığı görülmüştür.
Tabloda dikkat çeken bir diğer nokta coğrafi ve kültürel olarak birbirine yakın ülkelerin söz konusu göstergeler
bakımında da benzer nitelikte olduklarıdır.
KAYNAKLAR
[1] Karaata, E.S., (2012), Bazı İnovasyon ve Bilgi Ekonomisi Performans Ölçümlerinde
Türkiye’nin Konumu, Rekabet Formu 2012.
[2] Karataş, E., Ayrım, Y.Z., (2010), Yenilikçilik Birliği Notu T.C. Başbakanlık Avrupa Birliği Genel
Sekreterliği Sosyal, Bölgesel ve Yenilikçi Politikalar Başkanlığı
[3] Karaöz, M., Albeni, M., (2004), Türkiye’de Teknoloji Çabalarına İlişkin Bir Değerlendirme:
Türkiye’de Patent Aktivitesi, III. Bilgi Teknolojileri Kongresi, Bilgitek, Pamukkale Üniversitesi, Denizli,
2004
[4] OECD (2005) “The Measurement of Scientific and Technological Activities, Oslo Manual:
Guidelines for Collecting and Interpreting Innovation Data” 3rd Edition, Paris, OECD.
[5] TÜSİAD, Ulusal İnovasyon Sistemi,Yayın No: TÜSİAD-T/2003/10/362, İstanbul, Ekim 2003
TÜRKİYE’S SITUATION ACCORDING TO EUROPEAN INNOVATION INDEX
This study work for determine Türkiye’s situation according to Innovation Union Scoreboard which
includes 25 sun index and 8 major index published by Euro Commission. End of the clustering analysis which
included human resources, research systems, finance, supports, firm research, network, entrepreneurship…etc it
is spotted that; Türkiye is same cluster with Malta, Bulgaria and Romania. And this cluster group is most fair
created by end of the analysis. It is not to be say to wrong Türkiye is underdeveloped from other Euro zone
countries for this variables.
Key Words: Innovation Index, Development, Euro Zone, Cluster Analysis
68
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 4
NONPARAMETRIC STATISTICS
69
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
JUMP-PRESERVING ESTIMATES IN VARYING-COEFFICIENT MODELS
Yan-Yong Zhao
1;
1
, Jin-Guan Lin and Xing-Fang Huang
1
1
Department of Mathematics, Southeast University, China; [email protected], [email protected],
[email protected].
Presenting author
The varying-coefficient models are very important tools to explore the hidden struc-ture between the
response variable and its predictors. Fan and Zhang (2000), Xue and Zhu (2007), Wang and Xia (2009) and
Tang et al. (2013) and other researchers used various esti-mation methods, such as the two-step estimation
method, spline estimation approach, empirical likelihood inference, local polynomial smoothing and shrinkage
estimation as well as quantile regression etc., to obtain estimators of the unknown coefficients and discussed
the asymptotic properties of these estimators. An essential assumption in the above mentioned papers is that all
the coefficient functions are assumed to be smooth directly. However, discontinuous coefficient functions are
often encountered in many fields, including engineering, economics, meteorology, biomedical sciences and
epidemiology. Simply ignoring discontinuity of the coefficient function-s, known as the naive method, will
result in inconsistent estimators. Therefore, some suitable consistent estimators should be considered. To our
best knowledge, however, a relevant study for such VCMs with discontinuous coefficient functions seems to
be missing. This article focuses on the estimation of varying-coefficient models with discontinuous coefficient
functions. Based on local linear smoothing, a jump-preserving (JP) regression method is proposed to estimate
the coefficient functions with jumps, which can automatically accommodate possible jumps of the coefficient
curves without knowing the number and locations of jumps and performing any hypothesis tests. Under some
mild conditions, the asymptotical properties of the resulting esti-mators can be established. Furthermore,
several numerical studies are conducted to evaluate the finite sample performance of the proposed
methodologies. Finally, an application with medical data illustrates the usefulness of the proposed techniques.
Keywords. Asymptotic properties; Jump-preserving; Local linear smoothing; Varying-coefficient
models.
References
Fan, J, Zhang, J. (2000). Two-step estimation of functional linear models with applications to longitudinal data. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 62(2): 303–322.
Xue, L, Zhu, L. (2007). Empirical likelihood for a varying coefficient model with longitudinal data.
Journal of the American Statistical Association 102(478), 642–654.
Wang, H, Xia, Y. (2009). Shrinkage estimation of the varying coefficient model. Journal of the
American Statistical Association 104(486), 747–757.
Tang, Y, Wang. H. J., Zhu, Z. (2013). Variable selection in quantile varying coefficient models with
longitudinal data. Computational Statistics & Data Analysis 57(1), 435–449.
70
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
NONPARAMETRIC ESTIMATION OF THE DIFFUSION COEFFICIENT BASED ON NOISY-HIGHFREQUENCY FINANCIAL DATA
Xu-Guo Yea,b, Jin-Guan Lina, Yan-Yong Zhaoa
a
Department of Mathematics, Southeast University, Nanjing, 210096, P. R. China
bSchool
of Mathematical Sciences, Kaili University, Kaili, 556011, P. R. China
Time-homogeneous diffusion models have been widely used to describe the stochastic dynamics of the
underlying economic variables. Ren`o (2008) introduced a non- parametric estimator of the diffusion coefficient,
which is based on the estimation of quadrat- ic variation between observations by means of realized variance.
However, using intraday data to implement directly the estimator could be misleading, because intraday data
display microstructure effects that could seriously distort the estimate. To filter out the impact of
microstructure noise on the diffusion coefficient estimation, in this paper we propose an im- proved estimator
when the step of discretization is fixed and microstructure noise is present in the observed prices. The proposed
estimator has the same asymptotic properties as the Ren`o estimator when the step of discretization goes to zero.
Some simulations and Shanghai Stock Exchange data from March 3, 2002 to December 31, 2008 are used to
illustrate the performance of the proposed estimator.
Key words: Diffusion coefficient; Nonparametric estimation; High-frequency data; Mi- crostructure noise.
JEL classification: C13; C14; C22.
71
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Ridge type kernel smoothing in semi-parametric regression models: A
Comparative Simulation Study
Ersin YILMAZ1, Bahadır YÜZBAŞI2, Dursun AYDIN1
1Department of Statistics, Faculty of Sciences, Muğla S.K. University, Muğla-Turkey
[email protected]*; [email protected]
2Department of Econometrics, Inonu University, Malatya 44280, Turkey
[email protected]
1. Introduction
Let us consider the following semi-parametric regression model:
yi  xi  f (ti )   i , i  1, 2,..., n
where
(1)
yi ’s are observations, xi   xi1 , xi 2 ,..., xip  , i  1, 2,..., n , are known p  dimensional vector with
p  n ,     ,  2 ,...,  p  is an unknown
p  dimensional vector of regression coefficients,
f  C 2 [0,1] is an unknown smooth function, ti are non-stochastic knot points of an extra univariate
explanatory variable t , and  i ’s are random errors distributed to be iid N  0,  2  . In vector and matrix form
model (1) can be write as
y = Xβ + f + ε
where
(2)
y   y1 ,..., yn  , X =  x1 ,..., xn  , f   f (t1 ),..., f (tn )  and    1 ,...,  n  . Semi-Parametric
Model generalizes both parametric linear regression and nonparametric regression models which correspond to
β = 0 , respectively. The main goal is to estimate the parameter vector β , the function
and the mean vector  = X  f .
the cases f  0 and
f
In this paper, we consider a modified ridge type estimator for the parameters of semi-parametric regression
model using kernel smoothing method adopted by Speckman [4]. For the purposes of this article we will employ
the modified ridge regression concept that proposed in 1970’s to combat the multicollinearity in regression
problems. Recently, pretest and shrinkage ridge regression estimators based on smoothing spline approach for
partially linear models is obtained by Yüzbaşı [5] , and Roozbeh, M., et al. [3] proposed a semiparametric ridge
regression estimator for partially linear models, the semi-parametric models based on different selection methods
are studied and compared by Aydın [1].
2. Modified Ridge Type Estimators in Semi-Parametric Regression Models
The use and interpretation of a regression model often depends on the estimates of the individual regression
coefficients. However, the quality of estimates, as measured by their variances, can be seriously adversely
affected if the column vectors of the design matrix X in the linear model y = Xβ + ε are closely related to
each other. This situation is defined as multicollinearity. Hoerl and Kennard [2] have suggested a method of
combating multicollinearity called ridge regression. Usually, ridge regression is applied to the centered and
scaled variables. For model (2), the semi-parametric ridge estimate of
following equation:

and f is obtained by minimizing the
RSS ( ; k )  argmin y  X  y  X  k ,

It yields,



ˆ  k   XX + k I
72

1
Xy,

(3)
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
where k  0 is a tuning parameter that controls the amount of the penalty term, X  (I  W ) X,
y  (I  W )y and W is the corresponding smoother matrix. Also, we obtain the estimator of f as
fˆ = W (y  Xˆ (k )) .
REFERENCES
[1] Aydın, D. (2014). Estimation of partially linear model with smoothing spline based on different selection
methods: A comparative study, Pakistan Journal of Statistics, Vol.30 (1), pp:35-56.
[2] Hoerl, A. E. and Kennard, R. W. (1970a). Ridge regression: Biased estimation for non
orthogonal problems, Technometrics, 12, 55-67.
[3] Roozbeh, M., Arashi, M. and Niroumanda, H.A. (2011a). Semiparameric Ridge Regression Approach in
Partially Linear models. Communications in Statistics- Simulation and Computation. 39, 449 – 460.
[4] Speckman, P. (1988). Kernel smoothing in partially linear model, J. Royal Statist., Soc. B., 50 413-436.
[5] Yüzbaşı, B. Penalty and Non-Penalty Estimations Strategies for Linear and Partially Linear Models,
PhD Thesis, Inonu University, Malatya, 2014.
ABSTRACT
This paper introduces a modified ridge type estimator for the vector of parameters in a semi-parametric model,
y  x  f (t )   . This estimator is a generalization of the well-known Speckman’s approach and is based on
kernel smoothing method. In this method, a crucial step is to select a proper smoothing parameter. This
parameter considerably affects the quality of the model parameters. Many Criteria of selecting smoothing
parameters such as improved version of Akaike information criterion (AIC c), generalized cross-validation
(GCV), cross-validation (CV), Mallows’ Cp criterion, risk estimation using classical pilots (REC) and Bayes
information criterion (BIC) are developed in literature. In order to illustrate the ideas in the paper, a real data
example and a Monte Carlo simulation study are carried out. Thus, the appropriate selection criteria are
provided for a suitable smoothing parameter selection.
Key Words: Semi-parametric model; Kernel smoothing; Ridge type estimator; Smoothing parameter; Crossvalidation; Generalized cross-validation;
73
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MOMENTS OF ORDER STATISTICS AND L-MOMENTS FOR
THE STANDARD TWO-SIDED POWER DISTRIBUTION
Çağatay ÇETİNKAYA* and Ali İhsan GENÇ
Çukurova University, The Faculty of Science and Letters, Department of Statistics, 01130, Adana,
Turkey, [email protected] , [email protected]
1. INTRODUCTION
Let have the standard two-sided power distribution (STSP) with pdf
Dorp,2002)
given by (Kotz and van
,
(1)
For the STSP distribution; is the reflection parameter and is the shape parameter. For
STSP is a symmetrical distribution. For
, the pdf in (1) simplifies to the uniform
density, for
corresponds to a triangular distribution on
, and it simplifies to a power function distribution for
the
it
.
2. PDF AND MOMENTS OF AN ARBITRARY ORDER STATISTIC
Order statistics and their moments are extensively used in many areas of statistics.
Let ,
, be a random sample from
, (Arnold, Balakrishnan,2008),
order statistic and
be its kth moment.
It is well-known that the pdf of the rth order statistic is given by
(2)
be the rth
From (2),the pdf of the rth order statistic for the STSP distribution can be obtained as
Further, an exact expression of the kth moment of the rth order statistic for STSP is obtained as
where,
refers to the incomplete beta function that is defined by
,
In particular, an exact expression for the kth moment of sample minimum is;
Also, for the sample maximum it can be obtained by
L-moments are defined as a linear functions of the expected order statistics.
The mth L-moment, Hosking (1990), is defined by
Clearly
.
L-moments are alternatively used as location and dispersion estimators. In this work, the L-moments from
the STSP distribution are determined.
74
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
REFERENCES
[1] J. Rene van Dorp and Samuel Kotz. (2002), The Standart Two-Sided Power Distribution and Its
Properties: With Applications in Financial Engineerings, American. Stat. 56 (2) (2002), pp. 90–99
[2] J. R. M Hosking, (1990), L-Moments: Analysis and Estimation of Distributions Using
Linear Combinations of Order Statistics, Royal Stat. Society, Series B, Vol. 52, No. 1
[3] Arnold, B.C. , Balakrishnan, N., Nagaraja, H.N. , (2008), A First Course in Order
Statistics. SIAM, Philadelphia, PA. Original Edition, Wiley, 1992
ABSTRACT
The standart two-sided power (STSP) distribution is introduced by Kotz and van Dorp
(2002). In this paper; firstly the density function and moments of an arbitrary order
statistic from the STSP distribution are obtained. Specifically, the moments of minimum
and maximum order statistics are studied. Additionally, domain of minimal, maximal
attraction and L-moments of the STSP distribution are investigated.
Key Words: Order Statistics, Moments, L-Moments, The Standard Two-Sided Power Distribution
75
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
CONVERGENCY RATE OF MISE OF THE DENSITY ESTIMATOR BY USING INTEGRAL
MODULUS OF CONTINUITY TYPE MAJORANT
Elif ERÇELİK*, Mustafa NADAR
Istanbul Technical University, Department of Mathematical Engineering, Maslak, Istanbul, Turkey.
[email protected], [email protected]
The focus of nonparametric density estimation is to construct a sequence of estimators
of density
function based on the sample
when no former parametric structure is specified. There is a vast
literature on the estimation of an unknown density function by means of functions of i.i.d random variables
. These include the histogram method, the kernel method, the orthogonal series method and the
interpolation method. Many of the different methods mentioned here for nonparametric density estimation are
special cases of the following general class of density estimators.
The sequence
is called a delta sequence on
if
Any estimator that can be written in the form,
is called delta sequence density estimator, where
with
is a delta sequence.
Nadar (2011) studied the local rate of convergence of the mean squared error (MSE) corresponding to
delta-sequence based density estimators at a local point by using modulus of continuity type majorants. They
obtained the convergency rate of MSE of an estimator of density
which satisfies Lipschitz
condition of order
. These types of results for this area were not presented in the previous Works
Nadar and Erçelik (2015), investigated the rate of convergency of the MSE of estimator for densities
belong to the class of functions which are denoted by the second order finite differences. The main contribution
of this study is to obtain stronger convergence rate of a MSE by relaxing the second order differentiability
condition when compared with the class of density functions denoted by the first order finite differences. Now, it
is natural to ask what is the global rate of convergence for the mean integrated squared error (MISE) of a delta
sequence based density estimator.
In this work, the global rate of convergency of the MISE of density estimators based on certain delta
sequence is obtained for densities having compact support. The conditions on the density function are written in
terms of the integral modulus of continuity type majorants. The MISE rate is obtained as
Then, some examples for the different class of functions are presented.
76
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Nadar M. (2011), Local convergence rate of mean squared error in density estimation,
Communication in Statistics- Theory and Methods, Vol 40, pp. 176-185.
[2] Nadar M., Erçelik E. (2015), Local Convergency Rate of MSE in Density Estimation Using the
Second Order Modulus of Smoothness, Communication in Statistics- Theory and Methods, accepted.
[3] Susarla V., Walter G. (1981), Estimation of a multivariate density function using delta sequences,
Annals of Statistics, Vol.9, pp. 347-355.
[4] Timan A.F. (1963), Theory of Approximation of Functions of a Real Variable, Oxford, England:
Pergammon Press.
[5] Walter G., Blum.J. (1979), Probability density estimation using delta sequences, Annals of Statistics,
Vol.7, pp. 328-340.
MSI
ABSTRACT
CONVERGENCY RATE OF MISE OF THE DENSITY ESTIMATOR BY USING INTEGRAL
MODULUS OF CONTINUITY TYPE MAJORANT
Many methods have been proposed to estimate probability density function using a sequence
. of
i.i.d random variables. The histograms, the kernel method, the orthogonal series method and the interpolation
method can be given as examples for these methods. Delta sequence method generalizes many of the methods
considered here by using delta sequence based density estimators. In this study, the MISE rate of convergency of
delta sequence based density estimators is obtained. The conditions on the density function are written in terms
of the integral modulus of continuity type majorants. Then some examples are given for the different class of
functions.
Key Words: Mean Integrated Square Error, Delta Sequences, Density Estimation
77
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 4
UYGULAMALI İSTATİSTİK 1
78
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AKADEMİSYENLERİN ÇEVREYE KARŞI OLAN
TUTUMLARININ YAPISAL EŞİTLİK MODELLEMESİ İLE
İNCELENMESİ
Birol TOPÇU1* Cengiz GAZELOĞLU2 Mehmet YILMAZ3
1*
Namık Kemal Üniversitesi, Tıp Fakültesi, Biyoistatistik Anabilim Dalı, 59100, Tekirdağ, Türkiye
E mail: [email protected]
2
Abdullah Gül Üniversitesi, Mühendislik Fakültesi, Elektrik-Elektronik Müh., 38100, Kayseri, Türkiye
E mail: [email protected]
3
Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06100, Ankara, Türkiye
E mail: [email protected]
Yaşadığımız dünyaya karşı hepimizin birçok alanda sorumlulukları bulunmaktadır. Bu söz konusu alan
çevre ise üniversitelerde görev yapmakta olan akademisyenlerin sorumlulukları kat ve kat daha fazla arttığını
söylemek mümkündür. Çevre sorunlarının tüm dünya ülkelerinde giderek artarak ortaya çıkmaya başlaması,
doğal kaynakların bilinçsizce tüketilmesi, çevreye karşı duyarlı vatandaş sayısının giderek azalmasından dolayı
kişilerin eğitim düzey ve kaliteleri ile çevreye karşı duyarlı olmaları arasındaki ilişkilerin yeniden araştırılması
ihtiyacı doğmaktadır.
Çevre sorunlarının küresel gündemde daha çok yer almasıyla, bu sorunların ortaya çıkışında temel etken
olan insanın çevresine karşı tutumu ve farkındalığı daha fazla sorgulanır hale gelmiştir (Oğuz ve ark., 2011).
Çevre sorunlarını en aza indirmeyi hatta sıfırlamayı hedefleyen çalışmaların başarılı olması küresel ölçekte ve
siyasal çerçevede olduğu kadar toplumsal boyutta da gereken sorumlulukların yerine getirilmesine bağlıdır.
Toplumdaki her bireyin yüklendiği sorumluluklar, satın alma ve kullanmanın ötesine geçerek, aynı zamanda,
tüketimden doğan atıkların çevreye zarar vermeden yok edilmesi ve çevrenin korunmasına yönelik bireysel
görev ve sorumlulukları da kapsamaktadır (Özbebek ve ark., 2012).
Türkiye’de örgün eğitim çerçevesinde, çevre eğitimine özel bir müfredat bulunmamakla birlikte, çevre ile
ilgili temel bilgiler ilköğretim ve lise eğitim programlarının içinde yer alan farklı dersler kapsamında
verilmektedir. Yükseköğretime ilişkin olarak da, ulusal olarak benimsenmiş ya da uygulanan belirli bir çevre
eğitimi politikası bulunmamaktadır. Üniversiteler, ders programlarını ve içeriklerini kendi kurumsal yapıları
içerisinde çözümlemektedirler. Bu nedenle yükseköğretimde, çevre ile ilgili konularda, ulusal ölçekte standart
bir eğitim altyapısından ya da uygulamasından bahsetmek olanaklı değildir. Oysaki yükseköğretim kurumları,
küresel toplumun yaşam kalitesinin iyileştirilmesine katkıda bulunacak, gerekli bilgiye, yeteneğe ve değerlere
sahip bireylerin yetiştirilmesinden sorumludurlar (Oğuz ve ark., 2011).
Bu çalışmanın amacı akademisyenlerin çevresel bilgi ve davranışlarının belirlenerek istatistik bilimi ve
diğer bilim dalları içerisinde son yirmi beş yılda oldukça sık kullanılmaya başlanan ve büyük öneme sahip olan
Yapısal Eşitlik Modellemesi (YEM) ile modellenmesidir.
Yapısal eşitlik modellemesi, ölçülen ve ölçülemeyen değişkenler arasındaki ilişkileri ortaya koyan birçok
istatistiksel yöntemlerin (yol analizi, regresyon analizi, faktör analizi vb) bir araya getirilmesi ile oluşturulan çok
değişkenli istatistiksel yöntemlerden birisidir.
Yapısal eşitlik modelleri (YEM) gözlenen ve gözlenemeyen (gizil-latent) değişkenler arasındaki nedensel
ilişkilerin sınanmasında kullanılan, özellikle gizil (latent) değişkenler, hem bağımlı hem de bağımsız
değişkenlerdeki kapsamlı bir istatistiksel tekniktir. Kuramsal yapıların formüle edilmesiyle ilgili karşılaşılan
problemlerin çözümünde de yararlı bir teknik olduğu kanıtlamıştır. Özellikle psikoloji, sosyoloji, pazarlama ve
eğitim bilimlerinde değişkenler arasındaki ilişkilerin değerlendirilmesinde ve kuramsal modellerin sınanmasında
kullanılan sistemli bir araçtır. Teknik olarak YEM doğrusal yapı eşitlik setindeki bilinmeyen parametrelerin
tahmin edilmesinde kullanılır. Eşitliklerdeki değişkenler genellikle doğrudan gözlenen değişkenler ile ilişkili
gizil değişkenlerdir. YEM gizil değişkenler seti arasında bir nedensellik yapısının var olduğunu ve gizil
değişkenlerin gözlenen değişkenler aracılığıyla ölçülebildiğini varsayar (Yılmaz ve Çelik, 2005).
79
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Bu amaçla araştırmacılar tarafından belirlenen Türkiye’deki bir üniversitenin farklı fakülte ve
bölümlerinde görev yapan akademisyenlere internet üzerinden uygulanan 125 geçerli anket üzerinden
çözümleme gerçekleştirilerek akademisyenlerin çevreye karşı tutumları üzerinde en fazla ve en az etkili olan
faktörler belirlenerek modellenmeye çalışılmıştır.
KAYNAKLAR
[1] Oğuz, D.,Çakcı, I., Kavas, S., (2011). Yüksek öğretimde öğrencilerin çevre bilinci, SDÜ Orman Fakültesi
Dergisi, 12: 34-39.
[2] Özbebek, T. A., Akdemir Ö. G., Düren A. Z., ( 2012). Çevresel Farkındalık, İ.Ü. Siyasal Bilgiler Fakültesi
Dergisi, 47: 227-24.
[3] Schermelleh-Engel, K. ve Moosbrugger, H., (2003). EvaluatingThe Fit of StructuralEquationModels: Tests
of SignificanceandDescriptiveGoodness-of-Fit Measures. Methods of PsychologicalResearch
Online, Vol:8 No:2, 23-74.
[4] Şehribanoğlu, S., Yapısal Eşitlik Modelleri ve Bir Uygulaması, Yüksek Lisans Tezi, Yüzüncü Yıl
Üniversitesi Fen Bilimleri Enstitüsü, Van, (2005).
[5] Yılmaz, V., ve Çelik, H.E., (2005). Bankacılık Sektöründe Müşteri Memnuniyeti ve Bankaya Bağlılık
Arasındaki İlişkinin Yapısal Eşitlik Modelleriyle Araştırılması, VII. Ulusal Ekonometri ve İstatistik
Sempozyumu, İstanbul Üniversitesi, 26-27 Mayıs 2005.
ABSTRACT
The purpose of this study is to construct a structural equation model which is being used quite frequently
by the statistics and the other disciplines during the last twenty- five years and having a great importance, to
examine the relationship between environmental knowledge and behaviour for academics.
The survey was administered by the researchers via the internet to academics working in different
faculties and departments of the universities in Turkey. As a result of this assessment, 125 of them were valid.
Based on analysing this survey, we try to model environmental behaviour by determining the most effective and
least influential factors reflecting academics's attitudes towards the environment.
Key Words: Attitude towards environment, Structural Equation Model
80
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ALG TÜRÜ SAYISINA ETKİ EDEN FAKTÖRLERİN
BELİRLENMESİNDE SAYMA VERİ REGRESYON MODELLERİNİN
KARŞILAŞTIRMASI
Esin AVCI* , Elvan AKTÜRK HAYAT**
*
Giresun Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 28000, Giresun, TÜRKİYE,
[email protected]
**
Adnan Menderes Üniversitesi, Aydın İktisat Fakültesi, Ekonometri Bölümü, 09010, Aydın, TÜRKİYE,
[email protected]
1.
Poisson Regresyon Modeli
Belirlenen bir zaman içinde herhangi bir olayın meydana gelme sayısı, sayma verileri olarak ifade edilebilir.
Sayma veri modelinde bilinen ilk gelişmeler aktüeryal bilimler, biyoistatistik ve demografide gözlenmiştir. Son
yıllarda bu modeller iktisat, politik bilimler ve sosyolojide de sıkça kullanılmaya başlanmıştır. Bağımlı
değişkenin sayma veri olması durumunda, Normallik varsayımının sağlanmaması nedeniyle, bağımsız
değişkenlere etki eden etkenlerinin incelenmesinde yaygın olarak Poisson regresyon modeli kullanılmaktadır.
Poisson regresyon modelinde sayma verisi Poisson dağılımına sahip olmalıdır. Poisson dağılımının en belirgin
varsayımı ise koşullu ortalamasının koşullu varyansına eşit olmasıdır. Varsayımın ihlali durumunda parametreler
için tutarlı tahmin ediciler elde edilmekte ancak bu tahmin edicilerin anlamlılığının testinde kullanılan standart
hatalar düzeltilmek durumundadır (Winkelmann ve Zimmermann, 1995). Varyansın ortalamadan büyük olduğu
Aşırı yayılım ve Ortalamanın varyanstan büyük olduğu eksik yayılım durumunda Poisson regresyon modeline
alternatif olarak sırasıyla Negatif Binomial regresyon, Poisson Quasi Maksimum Olabilirlik Tahmini
yöntemlerinin yanı sıra son yıllarda hem aşırı hem de eksik yayılım durumu için kullanılan Conway-MaxwellPoisson (COM-Poisson) regresyonu verilebilmektedir.
Poisson regresyon modelinde, sayma verisi olan y, x bağımsız değişkenlerine dayanan koşullu ortalamayla
Poisson dağılımına sahiptir (Long, 1997).
(1)
Kanonik bağıntı fonksiyonu olarak adlandırılan
, ortalama ile bağımsız değişkenler arasında logdoğrusal bir ilişkiyi ve beklenen sayma değerlerinin pozitif olmasını sağlar. Poisson dağılımının olasılık
fonksiyonu,
(2)
Poisson dağılımında ortalama –varyans eşitliği sözkonusudur.
(3)
2.
COM-Poisson Regresyon Modeli
Ortalama ve varyansın eşitliğine eşit yayılım denir. Uygulamada sayma verileri genellikle ortalamadan daha
büyük varyansa sahiptirler. Bu durum aşırı yayılımı (over-dispersion) gösterir. Ortalamanın varyanstan küçük
olduğu eksik yayılım (under-dispersion) durumu ise pek yaygın değildir. Hem aşırı hem de eksik yayılım
durumu için kullanılan Conway-Maxwell-Poisson (COM-Poisson) 1962'de Conway ve Maxwell tarafından
verilmiştir. İki parametreli Poisson dağılımının genelleştirilmiş durumudur. COM-Poisson dağılımının olasılık
fonksiyonu,
81
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
(4)
Burada
, ve
;
yayılım parametresi olarak adlandırılmaktadır.
ise Eksik
yayılım (under-dispersion) ve
Aşırı yayılım (over-dispersion). COM-Poisson dağılımı iyi bilinen üç
dağılımı içeren özel bir dağılımdır.
Poisson
, Geometrik
ve Bernoulli
(Shmueli vd.,2005).
Bu çalışmada, Giresun ili Batlama deresi üzerinde kurulan dört istasyondan bir yıl boyunca derlenen Alg
türlerinden olan Cocconeis Placentula Ehrenberg sayılarına, kontenjans tablosu biçiminde düzenlenen mevsim
ve istasyonların etki gösterip göstermediği Poisson ve COM-Poisson regresyon modeli ile karşılaştırlmıştır.
Cocconeis Placentula Ehrenberg sayma verisi Eksik yayılım göstermiştir
. Eksik yayılım
parametresinin istatistiksel olarak anlamlı olması (p=0.0000) ve her iki model için elde edilen AIC değerinin
Poisson regresyon modelinden daha küçük olması nedeniyle COM-Poisson regresyon modelinin veriler için
daha uygun olduğu saptanmıştır. COM-Poisson regresyon modeline göre mevsimlerin ve 3. istasyonun
Cocconeis Placentula Ehrenberg sayma verisi üzerine etkili olduğu bulunmuş, yaz ve 1. istasyon referans
mevsim ve istasyon alınarak göreli etki sıralaması yapılmıştır.
KAYNAKLAR
[1] Winkelmann R., Zimmermann K.F., (1995), “Recent Developments in Count Data Modelling: Theory and
Application”, Journal of Economic Survey, 9(1):1-24.
[2] Long J. S., (1997), “Regression Models for Categorical and Limited Dependent Variables”, Thousand Oaks,
CA: Sage Publication
[3] Shmueli G., Minka. T.P., Kadane J.B., Borle S. and Boatwright P. (2005), A Useful Distribution for Fitting
Discrete Data: Revival of the Conway–Maxwell–Poisson distribution”. Journal of the Royal Statistical Society.
Series C (Applied Statistics). 54(1). 127-142.
ABSTRACT
The Poisson regression model is the most common model for fitting count data. However, it is suitable only for
modeling equi-dispersed distribution. The Conway-Maxwell-Poisson (COM-Poisson)regression model allows
modelling over and under-dispersion distribution. The aim of this study was to define factors that effect the
number of Bothrycoccus Braunii Kützing.
Key Words: Poisson regression,COM-Poisson regression, under-dispersed count data.
82
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KISMİ EN KÜÇÜK KARELER REGRESYONU VE TEMEL
BİLEŞENLER REGRESYON TEKNİKLERİNİN RMSECV KRİTERİ
AÇISINDAN KARŞILAŞTIRILMASI VE GERÇEK VERİ SETİ
ÜZERİNE BİR UYGULAMA
Hatice ŞAMKAR *
Gamze GÜVEN
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, Eskişehir, Türkiye
[email protected]
[email protected]
Çoklu doğrusal regresyon modeli, sayısal bir y bağımlı değişkeni ile
bağımsız değişkenleri
arasındaki ilişkiyi modellemek için yaygın olarak kullanılan istatistiksel bir yöntemdir. Bu yöntemde regresyon
katsayılarını tahmin etmek için EKK tekniği kullanılır. Ancak çoklu doğrusal regresyonda EKK tekniğinin
güvenilir sonuçlar vermesi için belli başlı varsayımların sağlanması gerekir. Bu varsayımlardan bir tanesi
bağımsız değişkenler arasında ilişki bulunmaması gerektiğidir. Bağımsız değişkenler arasındaki ilişki, çoklu
bağlantı sorununa sebep olur. Çoklu bağlantı sorunu, parametre tahminleri üzerinde olumsuz sonuçlar doğurur.
Bu sorunu ortadan kaldırmak için çeşitli yollara başvurulabilir. Çoklu bağlantı sorunu ile baş edebilmede en çok
kullanılan yöntem yanlı tahmin tekniklerine başvurmaktır.
Çoklu bağlantı sorununu veri yapısını indirgeyerek ortadan kaldırmak için kullanılan yanlı tahmin
tekniklerinden bir tanesi Temel Bileşenler Regresyon (PCR) tekniğidir. PCR analizi yapılmadan önce
değişkenler arasındaki birim farklılıklarını ortadan kaldırmak için X bağımsız değişkenler matrisi
standartlaştırılır. Daha sonra aralarında yüksek korelasyon bulunan orijinal bağımsız değişkenler temel bileşenler
analizine tabii tutulur ve orijinal değişkenlerin yerine, bu değişkenlerin dik dönüşümü kullanılarak daha az
sayıdaki temel bileşenler elde edilir. Son olarak temel bileşenlere EKK tekniği uygulanarak regresyon
katsayılarının tahmini yapılır.
Veri yapısını indirgeyerek çoklu bağlantı sorununu ortadan kaldıran bir diğer yanlı teknik de Kısmi En
Küçük Kareler Regresyon (PLSR) tekniğidir. PLSR, çoklu regresyon ve temel bileşenler analizinin özelliklerini
birleştiren bir tekniktir. Bu tekniğin amacı bağımlı ve bağımsız değişkenler arasındaki kovaryansı maksimum
yapacak şekilde optimum sayıda gizli (latent) değişken elde etmektir (Abdi, 2003). Bu gizli değişkenler birbirine
dik olacak şekilde orijinal bağımsız değişkenlerin doğrusal kombinasyonlarından elde edilir. PLSR tekniği
işleyişi açısından PCR tekniğine benzemekle birlikte PCR tekniği temel bileşenlerin elde edilmesinde sadece
bağımsız değişkenler üzerindeki bilgiyi kullanırken, PLSR tekniği hem bağımlı hem de bağımsız değişkenler
üzerindeki bilgiyi kullanır (Naes and Martens,1985). Ayrıca PLSR tekniği, bağımlı değişken sayısı birden fazla
olduğu zaman da kullanılabilen bir tekniktir.
Bu çalışmada PCR ve PLSR teknikleriyle elde edilen modelleri veriye uyum başarıları yönünden
karşılaştırabilmek için PLS_Toolbox’da AB 2013 işsizlik verileri üzerine bir uygulama yapılmıştır.
Karşılaştırma kriteri olarak RMSECV (çapraz geçerliğin hata kareler ortalamasının karekökü) kullanılmıştır.
RMSECV
RMSECV=
=
eşitliği ile elde edilir (Yeniay and Göktaş,2002). Çalışmada kullanılan değişkenler aşağıda verilmiştir.
y :İşsizlik Oranı (%) : Nüfus (milyon) : Cari Fiyatlarla GSYH (milyar dolar) : GSYH’ın İmalat
Sektöründeki Payı (%) : Tüfe (% değişimi) : İhracat (milyar dolar) : İthalat (milyar dolar) : İhracat artış
hızı (%) : İthalat artış hızı (%) : Yabancı Sermaye Girişleri(milyar dolar)
: Yabancı Sermaye Çıkışları
(milyar dolar)
Bu değişkenler dikkate alınarak gerekli analizler yapıldığında, çoklu bağlantı sorununun olduğu tespit
edilmiş ve PCR ve PLSR teknikleri uygulanarak elde edilen RMSECV değerleri ve latent değişken sayıları
aşağıdaki gibi bulunmuştur.
83
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çizelge1. PCR ve PLSR tekniklerine ilişkin RMSECV değerleri ve bunlara karşılık gelen latent
değişken sayıları
PCR
PLSR
RMSECV
LV
RMSECV
LV
0.20049
5
0.19587
2
Yukarıdaki tablo incelendiğinde, PLSR tekniğinin daha düşük RMSECV değeri ve daha az latent
değişken sayısına sahip olduğu görülmektedir. Böylelikle, PLSR tekniğinin modele uyum başarısı bakımından,
PCR tekniğine göre daha üstün olduğu söylenebilir.
KAYNAKLAR
[1] Abdi H. (2003), Partial Least Square Regression (PLS Regression), Encyclopedia for Research
Methods for the Social Sciences :792-795.
[2] Naes T. and Harald M. (1985), Comparison of Prediction Methods for Multicollinear Data,
Communications in Statistics-Simulation and Computation, 14(3) :545-576.
[3] Yeniay O. and Atilla G. (2002), A Comparison of Partial Least Squares Regression with Other
Prediction Methods, Hacettepe Journal of Mathematics and Statistics, 31(99): 99-101.
A COMPARISON OF PARTIAL LEAST SQUARES REGRESSION AND PRINCIPAL
COMPONENT REGRESSION IN TERMS OF RMSECV CRITERION AND AN APPLICATION ON A
REAL DATA
The aim of regression analysis is to construct mathematical models that describe relationships between
the dependent variable and one or more independent variables. However, if there is multicollinearity among the
independent variables, then the least squares (LS) methods may lead to unreliable estimates. In this case, the
biased estimation methods are used. PLSR and PCR are two of the estimation techniques. In this study, they
were briefly examined and compared in terms of data harmonization success on a real data set.
Key Words: Multicollinearity, Principal Component Regression, Partial Least Squares Regression,
RMSECV
84
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MALİ BAŞARISIZLIK KESTİRİMİNDE VERİ MADENCİLİĞİ
YAZILIMLARININ LOJİSTİK REGRESYON PERFORMANSLARININ
KARŞILAŞTIRLMASI
Nurzen ÜZÜMCÜ*
Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Bölümü Ekonometri ABD 32260
Çünür/ISPARTA
Ömer Utku ERZENGİN
Süleyman Demirel Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü 32260 Çünür/ISPARTA
1. MALİ BAŞARISIZLIK KESTİRİMİNDE VERİ MADENCİLİĞİ YAZILIMLARININ
LOJİSTİK REGRESYON PERFORMANSLARININ KARŞILAŞTIRLMASI
Ekonomik süreçlerdeki değişime bağlı şirketler mali başarısızlık durumuna düşebilmektedir. Serbest
piyasa ekonomisi rekabet kurallarına göre çalışmaktadır. İşletmelerin rekabet ortamında varlıklarını
sürdürebilmeleri nakdi ve nakdi olmayan değerlerin dengeli kullanılmasına bağlıdır. 2012 yılından bu yana
Borsa İstanbul’da işlem gören hem ulusal hem de uluslararası bazı şirketler mali açıdan başarısız olup pazardan
çekilmek zorunda kalmışlardır. Son yıllarda görülen bu durum mali başarısızlığın belirlenmesinin önemini
arttırmıştır.
Mali başarısızlığı belirlerken yalın veriler (bilanço ve gelir tablolarındaki tek başına kalemler) yerine mali
oranlar kullanılmalıdır. Bilanço ve gelir tablolarında yer alan nakdi ve nakdi olmayan değerlerin birbirlerine
oranlanmasıyla finansal oranlar elde edilir. Oranların kullanılması şirketler arasındaki büyüklük farkları ve farklı
risk sınıflarında bulunmalarından doğacak etkileri azaltmaktadır. Edward I. Altman ve arkadaşları 1968’den bu
yana oranlara bağlı mali başarı/başarısızlık formüllerini ortaya koymuştur. Genel olarak Altman’ın ölçeklerinde
Z skoruna göre başarı ve başarısızlık ortaya konmaktadır.
Bilanço ve gelir tablolarından elde edilen oranlar birbiriyle istatistiksel açıdan ilişki içindedirler. Bazı
oranlar hesaplanırken aynı kalemler kullanılabilmektedir. Aynı kalemleri kullanan oranlar çoklu bağlantı
sorununu ortaya çıkartmaktadır. Yapılan çalışmada bilanço ve gelir tablolardan elde edilen oranlar arasındaki
çoklu bağlantı sorunu temel bileşenler analiziyle (TBA) giderilmiştir. Temel bileşenlere bağlı faktör analizinin
amacı, çoklu bağlanım sorunu olan oranların birbirinden bağımsız olarak daha az sayıdaki yeni veri yapısına
indirgenmesidir.
Altman 1983 yılında yaptığı çalışmada Z skorunun 1.23 ile 2.99 arası gri bölge olarak tanımlamıştır.
Altman Z skoruna göre 1.23’ün altında kalan alan şirketler başarısız ve 2.99 üzerine çıkan şirketler başarılı
olarak kabul edilmiştir. Çeşitli çalışmalarda Altman Z skoruna göre başarısızlık ve başarı kategorik olarak 0-1
şeklinde belirlenmiştir. Yapılan çalışmada ikili lojistik regresyon (İLR) analizinde bağımlı değişken olarak mali
başarısızlık kullanılmıştır. Bağımlı değişken y’nin aldığı değer 1 ise mali başarıyı, 0 ise başarısızlığı temsil
etmiştir. Altman Z skoruna göre bulanık olan bölgenin ne kadarının 0 ne kadarının 1 alacağı bilançolara bağlı
İLR’ deki eğri altında kalan alan ROC (Receiver Operating Characteristic) eğrisine göre belirlenmiştir. Lojistik
regresyondaki en doğru sınıflama oranı bulunmaya çalışılmıştır.
Yapılan çalışmada Borsa İstanbul’da işlem gören şirketlerin 2012 yılları bilançolarından ve gelir
tablolarından elde edilen veriler kullanılmıştır. Mali başarı ve başarısızlık oranlara bağlı İLR analiziyle
incelenmiştir. TBA’ dan sonra elde edilen faktörler İLR’ ye sokulmuştur. İLR analizi doğrusal analizlerdeki
varsayımlar olmaksızın sınıflama işlemi yapan bir regresyon yöntemidir. Altman Z skoruna göre bulanık olan
bölgenin ne kadarının 0 ne kadarının 1 alacağı ROC eğrisi altında kalan alana göre bulunmuş ve lojistik
regresyondaki sınıflama oranı optimize edilmeye çalışılmıştır.
Yapılacak çalışmada açık kaynak kodlu veri madenciliği yazılımlarının (R, Weka, Orange, Rapid Miner,
Knime) lojistik regresyon sınıflama oranları karşılaştırılacaktır. Bilanço ve gelir tablolarından elde edilmiş
verilerin temel bileşenler analizinden sonra ikili lojistik regresyon sonrası kesim noktasına bağlı sınıfları
incelecek yazılımlar arasındaki farklılıklar tartışılacaktır.
Anahtar Kelimeler: Mali Başarısızlık, Altman Z Skor, Lojistik Regresyon, ROC
85
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Altman, E. I. (1968). Financial Ratios, Discriminant Analysis and the Prediction of
Corporate Bankruptcy,
The Journal of Finance, Vol. 23, No. 4, pp. 589–609.
[2] Kleinbaum, D.G., Klein, M. (2002). Logistic Regression A Self-Learning Text, Second Edition, SpringerVerlag, New York, 513s.
[3] Cortez, P. (2010). Data Mining with Neural Networks and Support Vector Machines using the R/rminer
Tool, Advances in Data Mining Applications and Theoretical Aspects Lecture Notes in Computer Science,
Vol. 6171, pp. 572-583.
[4] Altman, E. I., Drozdowska, M.I., Laitinen, E.K., Suvas, A. (2014). Distressed Firm and Bankruptcy
Prediction in an International Context: A Review and Empirical Analysis of Altman's Z-Score Model
(Available at SSRN: http://ssrn.com/abstract=2536340 or http://dx.doi.org/10.2139/ssrn.2536340).
[5] Wahbeh, A. H. (2011). A Comparison Study between Data Mining Tools over some Classification Methods.
Journal
of
Advanced
Computer
Science
and
Applications(IJACSA),
DOI:
10.14569/SpecialIssue.2011.010304.
ABSTRACT
DATA MINING SOFTWARE LOGISTIC REGRESSION PREDICTION PERFORMANCE
COMPARSION OF FINANCIAL DISTRESS
Companies have to survive in economical process with competition and has a probabilty falling into
financial distress. Companies must balance their monetary and non-monetary assets. To describe financial
distress only financial ratios calculated proportioning monetary and non-monetary assets in annual financial
statement are not enough. In 1968 Altman showed that the Z-Score could be used to determine the company is
financially distressed or not. In this study to predict financial distress Binary Logistic Regression (BLR) was
used to esitmate companies specified as successful and unsuccessful according to Altman Z score. The open
source data mining softwares classification performance was compared.
Key Words: Financial Distress, Altman Z score, Logistic Regression, ROC
86
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ORTAÖĞRETİM ÖĞRENCİLERİNDE ÇEVRESEL DUYARLILIK
VE EKOLOJİK DAVRANIŞLARI ETKİLEYEN FAKTÖRLERİN
ÖNERİLEN BİR YAPISAL EŞİTLİK MODELİYLE ARAŞTIRILMASI:
ESKİŞEHİR’DE BİR UYGULAMA
Halil Polat, Sonay Mete, Emine Arıkan, Emine Tuğba Tekeli
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26000, Eskişehir, TÜRKİYE
[email protected], [email protected], earı[email protected], [email protected]
Murat DOĞAN*, Veysel YILMAZ
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26000, Eskişehir,
TÜRKİYE, [email protected], [email protected]
Çevre konusunda bilinçli ve duyarlı bireyler yetiştirmek ve çevresel konulara yönelik sorunları çözmek
için en etkili yol, çevreye duyarlı ve çevre koruma konusunda olumlu tutum ve davranışlara sahip bireyler
yetiştirilmesidir. Bu nedenle çevre sorunlarını çözmede ve önlemede, verilecek ilk eğitimin zamanının ve yerinin
ne kadar önemli olduğu unutulmamalıdır. Çevre sorunlarının küresel boyutlardaki etkisinin azaltılması
sorumluluğunu üreticiler kadar tüketicilerin de üstlenmesi gerekmektedir. Tüketicilerin ekolojik ürünleri satın
alarak bilinçli tercihlerde bulunması, üretim eylemlerinin de çevreye daha duyarlı olacak biçimde yönünü
değiştirebilir. Çevreye karşı duyarlı ve bilinçli tüketicilerin diğer ürünler arasından ekolojik ürünleri satın alması,
ekolojik ürünlerin piyasada kalmasını ve ekolojik olmayanların ortadan kalkmasını sağlayarak işletmelerin ürün
ve üretim şeklini doğrudan etkileyeceği düşünülmektedir. Bu nedenle tüketicilerin ekolojik ürün tutum ve
davranış geliştirmelerine yön veren faktörlerin araştırılması çok önemlidir. Bu çalışmanın amacı da, ortaöğretim
öğrencilerinin çevresel duyarlılıkları ve çevresel davranışlarının ekolojik ürün satın alma davranışına etkileri için
bir Yapısal Eşitlik Modeli (YEM) önermek ve çeşitli uyum ölçüleri dikkate alınarak modelin uygunluğunu
sınamaktır. (Yılmaz, Çelik ve Yağızer, 2009)
Yapısal eşitlik modellemesi (YEM); gözlenen ve gözlenemeyen (gizil-latent) değişkenler arasındaki
nedensel ve karşılıklı ilişkilerin bir arada bulunduğu modellerin test edilmesi için kullanılan kapsamlı bir
istatistiksel yaklaşımdır. YEM modelleri, eğitim, psikoloji, ekonometri ve sosyal alanların neredeyse tamamına
yakınında değişkenler arasındaki nedensel ilişkiyi açıklamada ve oluşturulmuş bazı modellerin test edilmesinde
kullanılan YEM, varsayım olarak gözlenemeyen değişkenler arasında bir nedensellik bağı olduğunu ve
gözlenemeyen değişkenlerin gözlenen değişkenler aracılığı ile ölçülebileceğini ifade eder (Yılmaz, 2004).
Bu çalışmada Eskişehir ilindeki Milli Eğitim Bakanlığı’na bağlı dört ortaöğretim okulunda
“Ekolojik Pazar ve Ekolojik Ürün Tanıtımı” adlı eğitimler verilerek, ekolojik ürün konusunda
verilen bu eğitimlere katılan öğrencilere eğitim öncesinde ve sonrasında çevresel bilgi ve
çevresel duyarlılık ile birlikte ekolojik ürünlere yönelik tutum ve davranışlarındaki değişimi
ölçmek amacıyla bir anket çalışması uygulanmıştır. Anket formu; A: Çevresel Bilgi” , “B:
Çevresel Duyarlılık” , “C: Çevresel Tutum” , “D: Çevresel Davranış” , “E: Ekolojik Ürün
Tutumu” , “F: Ekolojik Ürün Satın Alma Davranışı” olmak üzere beş faktörde toplanarak
ekolojik ürün satın alma davranışı ile faktörler arasındaki ilişkiyi ortaya koyabilmek için
LISREL programında YEM analizi uygulanmıştır. Ekolojik ürün satın alma davranışına
ilişkin etkileri betimlemek amacıyla Şekil 1’deki yapısal eşitlik modeli önerilmiştir. Şekil
1’de verilen araştırma modelinde “Çevresel Bilgisizlik (A)”, “Çevresel Duyarlılık (B)”,
“Çevresel Tutum (C)” ve “Çevresel Davranış (D)” boyutları bağımsız gizil değişken,
“Ekolojik Ürün Satın Alma Davranışı (F)” boyutu ise bağımlı gizil değişken olarak
tanımlanmıştır.
87
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
A
B
C
D
F
Şekil 1: Ekolojik Ürün Satın Alma Davranışına İlişkin Önerilen Yapısal Eşitlik Modeli
Çalışmada “Ekolojik Ürün Satın Alma Davranışı” ile ilgili faktörleri ortaya çıkarmak için doğrulayıcı
faktör analizi gerçekleştirilmiştir. Araştırma modeli için oluşturulan YEM sonuçları ve öğrencilerin ekolojik
ürün satın alma boyutları ile ekolojik ürün satın alma davranışı arasındaki ilişki için önerilen modelin path
diyagramı incelendiğinde; “Çevresel bilgisizlik(A)” bağımsız gizil değişkeninin “Çevresel Duyarlılık(B)”
bağımsız gizil değişkenini negatif yönde etkilediği fakat “Çevresel Duyarlılık(B)” bağımsız gizil değişkeninin
“Çevresel Tutum(C)” bağımsız gizil değişkenini, “Çevresel Tutum(C)” bağımsız gizil değişkeninin “Çevresel
Davranış(D)” bağımsız gizil değişkenini ve “Çevresel Davranış(D)” bağımsız gizil değişkeninin de “Ekolojik
Ürün Satın Alma Davranışı(F)” bağımlı gizil değişkenini pozitif yönde etkilediği görülmüştür.
Bu çalışma için geliştirilen YEM kuramsal yapısı itibariyle, içerdiği faktörlerden dolayı mevcut
literatürde yer alan modellere benzer niteliktedir. YEM’den edilen sonuçlara göre öğrencilerde çevresel
duyarlılığın çevresel tutum aracılığıyla çevresel davranışı etkilediği, yani çevresel tutum geliştiren öğrencilerin
ancak çevresel davranış sergiledikleri ortaya çıkmıştır. Ayrıca ortaöğretim okullarında verilmiş olan eğitimlerin
çevresel duyarlılık, çevresel tutum, çevresel davranış ve ekolojik ürün satın alma davranışı bakımından etkili
olduğu ancak çevresel bilgi bakımından etkili olmadığı görülmüştür.
[1]
[2]
KAYNAKLAR
Yılmaz, V. , Çelik, H. E. , Yağızer, C. (2009). “Çevresel Duyarlılık ve Çevresel Davranışın Ekolojik Ürün
Satın Alma Davranışına Etkilerinin Yapısal Eşitlik Modeliyle Araştırılması”, Anadolu Üniversitesi Sosyal
Bilimler Dergisi, 9(2): 1-14.
Yılmaz, V., Çelik, E. H., (2009). Lisrel ile Yapısal Eşitlik Modellemesi. Pegem Akademi,
Ankara 2009.
ABSTRACT
INVESTIGATION OF FACTORS THAT AFFECTING ENVIRONMENTAL AWARENESS AND
ECOLOGICAL BEHAVİOR WITH A RECOMMENDED STRUCTURAL EQUATİON MODEL AT
SECONDARY STUDENTS: AN APPLICATION İN ESKİŞEHIR
In this study, it was applied questionnaire study for the purpose of observing the changes of attitude and
behaviours regarding ecological products at four secondary school in Eskişehir. Also, it was performed
Confirmatory Factor Analysis to reveal factors related to “Ecological Products Buying Behavior”. Based on the
results that obtained from Structural Equation Modeling (SEM), it was offered that students who indicate
environmental attitude are only display environmental behaviour.
Key Words: Confirmatory Factor Analysis, Structural Equation Modeling, Ecological Products
88
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 4
APPLIED STATISTICS 2
89
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
A COMPARISON OF RESAMPLING BASED HYPOTHESIS TESTING
FOR TWO INDEPENDENT SAMPLES
Uğur BİNZAT*, Engin YILDIZTEPE
Dokuz Eylül University, Faculty of Science, Department of Statistics, 35160, Buca/İzmir/TÜRKİYE
[email protected], [email protected]
1.
Introduction
Classical parametric tests compare observed statistics to theoretical distributions. Unlike parametric tests,
resampling methods use a computer to generate pseudo samples from observations for further summarizes and
analysis. One of the oldest resampling method suggested by R.A Fisher (1930) is permutation test, also known as
exact test. Another well-known method, bootstrap, which is inspired by the Jackknife, uses with replacement
resample technique and in that way differs from permutation tests. It was first suggested by Efron (1979) and
became very famous especially in the last decades. In this study, two bootstrap based methods, permutation test
and Wilcoxon-Mann-Whitney test are compared in terms of actual significance level and power.
2.
Methods
The Wilcoxon-Mann-Whitney (WMW) test is the well-known nonparametric alternative of the two
independent samples t-test. It is a rank based method. The second method, the permutation test (PT) is a type of
statistical significance test in which the distribution of the test statistic under the null hypothesis is obtained by
calculating all possible values of the test statistic under rearrangements of the labels on the observed data points.
The third method, the percentile bootstrap with trimmed mean (PBTRIM), is a more robust type of the percentile
bootstrap method and it is better than bootstrap-t method in certain conditions [3]. The last method, bootstrap
hypothesis testing for two sample means with null resampling (NR), was proposed by Martin [1]. It is a
bootstrap approach to the construction of confidence intervals for the mean difference that honors the null
hypothesis. We provide the detailed description of the method in our full paper.
3.
Simulation Study
In this section, a Monte Carlo simulation study is conducted for the four methods. The simulation study was
performed using R 3.1.1. The methods were compared in terms of test power and their ability to control the
probability of a Type I error when testing at the 0.05 level. Random samples were generated from skewed and
heavy tailed theoretical distributions. We used small, moderate and large sample sizes. All simulations were
done with 10,000 replications and 1499 bootstrap samples for each n. Regarding the method based on a trimmed
mean 20% symmetric trimming were used.
4.
Conclusion
Most well-known nonparametric test to compare two independent groups, WMW test, was compared with three
different resampling test procedures. Here, we only give the results for gamma distribution when n=20.
According to these results, actual significance levels of the methods are very close to the nominal level 0.05
except NR. It can be clearly seen from the results that WMW test have slightly better power properties than other
methods.
90
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Table1. Comparison of Type I Error and Power Estimates for Gamma Distribution
Sample Size = 20:20, Gamma Distribution with fixed scale (0.5) parameter
Shape parameters
1.5
1.5
1.5
1.7
1.5
1.9
1.5
2.1
1.5
2.3
1.5
2.5
1.5
2.7
1.5
3.1
1.5
3.5
1.5
3.9
WMW
0.053
0.082 0.184 0.324 0.494 0.662 0.795 0.939 0.988 0.997
PT
0.049
0.078 0.166 0.290 0.448 0.608 0.745 0.910 0.978 0.996
PBTRIM
0.053
0.077 0.171 0.301 0.456 0.619 0.756 0.914 0.980 0.996
NR
0.064
0.095 0.186 0.314 0.469 0.618 0.749 0.907 0.975 0.993
REFERENCES
[1] Martin, M. A. (2007), Bootstrap hypothesis testing for some common statistical problems:
A
critical
evaluation of size and power properties, Computational Statistics & Data
Analysis, 51.12 :6321-6342.
[2] Ozdemir, A. F., R and R. Wilcox, and E. Yildiztepe (2013), Comparing Measures of
Small-Sample Results When Distributions Differ in Skewness and
Kurtosis
Under
Variances, Communications in Statistics: Simulation and Computation, 42(2), 407-424.
[3] Wilcox, R. R. (2012), Introduction to robust estimation and hypothesis testing, Academic
Location: Some
Heterogeneity
of
Press.
ABSTRACT
A COMPARISON OF RESAMPLING BASED HYPOTHESIS TESTING FOR TWO
INDEPENDENT SAMPLES
In this study, two bootstrap based methods, permutation test and Wilcoxon-Mann-Whitney (WMW) test were
compared in terms of actual significance level and power via an extensive Monte Carlo simulation. The
significance level considered as 5% and samples were generated under skewed and heavy tailed theoretical
distributions. We chose varying sample sizes. For the gamma distribution when n=20, all methods gave good
performance over controlling Type I error, except null resampling method. For this simulation setting, WMW
test had slightly better power properties than other methods.
Key Words: (Bootstrap hypothesis testing, Permutation test, Wilcoxon–Mann–Whitney test, Test power)
91
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
COMPARISON OF TWO INDEPENDENT GROUPS BY USING THE
LOWER AND UPPER QUANTILES AND PERCENTILE BOOTSTRAP
Gözde NAVRUZ* , A. Fırat ÖZDEMİR
Dokuz Eylül University, Faculty of Sciences, Statistics Department, 35390, İzmir, TURKEY
[email protected] , [email protected]
1.
Introduction
The most common idea for comparing two independent groups is to use a measure of location such as mean or
median. But, when the matter is to determine whether the differences occur in the tails of distributions or not, the
quantiles should be considered as well.
A variety of methods for estimating population quantiles and additional comparisons of various estimators are
available in the literature. Some of them have advantages in particular situations, but certainly none of them is
the best.
In this study Harrell Davis estimator and another quantile estimator which was studied by Gumbel are
investigated (Harrell & Davis, 1982; Gumbel, 1939). Harrell Davis estimator uses all of the order statistics by
taking a weighted average. For estimating the qth quantile, consider the random variable Y that have a beta
distribution with parameters a=(n+1)q and b=(n+1)(1-q). The probability distribution of Y is
(a  b) a 1
y (1  y)b1 , 0  y  1 ,
(a)(b)
(1)
where  is the gamma function. Let
Wi  P(
i 1
i
Y )
n
n
(2)
Then, the Harrell Davis estimate of the qth quantile is
n
ˆ q   Wi X (i)
(3)
i 1
where X(1)  X(2)  ...  X(n) denotes the order statistics of the sample
X1 , X2 ,..., X n . On the other side,
Gumbel's quantile estimator considers the modal position q k  modeF(X(i) )  (i 1) / (n  1) , which is
definition 7 of Hyndman and Fan (1996) and also the default value in R.
Note that the aim is to test H0 : q1  q2 where q1 and q 2 are the qth quantiles of the first and second
group respectively. For the purpose of investigating the control over actual Type I error rates, The Harrell Davis
estimator and the quantile estimator that is referred to Gumbel are used in conjunction with a percentile bootstrap
method.
The performance of the given quantile estimators are compared with a simulation study by using R programming
language (R version 3.2.1). The nominal significance level was set at   0.05 . Normal, symmetric and heavytailed, asymmetric and light-tailed, and asymmetric and heavy-tailed distributions are used. In particular, g-and-h
92
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
distributions are used with different g and h parameters in order to generate data from those specific types of
distributions (Hoaglin, 1985). Both small and large sample sizes are considered. Besides median, lower and
upper quantiles are compared. Most especially, the attention is focused on the qth quantiles where q=0.1 or 0.9.
In particular, when quantiles close to zero or one are compared with small sample sizes, control over the actual
Type I error rate is achieved by using the Gumbel's estimator. Detailed results and concluding remarks are
discussed, some recommendations are given.
REFERENCES
[1] Gumbel E.J. (1939). La Probabilité des Hypothèses. Comptes Rendus de l’Académie des Sciences (Paris),
209, 645-647.
[2] Harrell F.E. and Davis C.E. (1982). A new distribution-free quantile estimator. Biometrika, 69, 635-640.
[3] Hoaglin D.C.(1985). Summarizing shape numerically: The g-and-h distribution. In: Haoglin D., Mostseller
F., Tukey J. editors. Exploring data tables trends and shapes. New York: Wiley; p. 461-515.
[4] Hyndman R.J. and Fan Y. (1996). Sample quantiles in statistical packages. The American Statistician, 50:4,
361-365.
[5] Wilcox R.R. , Erceg-Hurn D., Clark F. & Carlson M. (2013), Comparing two independent groups via lower
and upper quantiles. Journal of Statistical Computation and Simulation, 84:7, 1543-1551.
ABSTRACT
COMPARISON OF TWO INDEPENDENT GROUPS BY USING THE LOWER AND
UPPER QUANTILES AND PERCENTILE BOOTSTRAP
The frequently used way of comparing two independent groups is to compare in terms of some measure of
location such as mean. For non-normal and heteroscedastic cases, trimmed mean, median or some other robust
measures of location can be used instead. However, determination of the differences in the tails of the groups
might be of interest. For this reason, comparing the lower and upper quantiles becomes an important issue. In
this study, Harrell-Davis estimator (Harrell & Davis, 1982) and the default quantile estimator of R (Gumbel,
1939) are compared in terms of actual Type I error rates. When quantiles close to zero or one are compared
with small sample sizes Gumbel's estimator, and when quantiles close to median are compared with large
sample sizes Harrell Davis estimator saved actual Type I error rate better.
Key Words: two independent groups, Gumbel estimator, Harrell Davis estimator, percentile bootstrap
93
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
An ARMA Type Pi-Sigma Artificial Neural Network for Nonlinear Time
Series Forecasting
1
Esra AKDENİZ DURAN1, Erol EĞRİOĞLU2
İstanbul Medeniyet University, Faculty of Science and Faculty of Medicine, Department of Statistics
and Biostatistics, E-mail: [email protected]
2
Giresun University, Faculty of Arts and Science, Department of Statistics
This paper provides insight into forecast techniques and proposes a new technique that can be applied to
complicated time series. Real-world time series data often have inherent complexity which results from the
nonlinearity, and non-stationarity of the generating process, as well as from measurement issues like noise,
aggregation, and finite data length-directly correlated with predictability. In practice, artificial neural networks
are often employed for modeling nonlinear time series because of their capabilities to adapt to the data at hand.
Higher order artificial neural networks can adapt to data structures by increasing their orders thus are used more
often than other type of artificial neural networks.
In this study, a new recurrent Pi-sigma neural network is proposed. This new artificial neural network
model is called ARMA Type Pi-sigma Neural Network. A learning algorithm based on particle swarm
optimization is developed for training ARMA Type Pi-sigma Neural Network. As an illustration, the proposed
network applied on three real time series data sets. In addition, a simulation study is conducted based on Istanbul
Stock Exchange data set. The simulation and application results indicate that the proposed model is promising in
terms of forecasting performance.
Complicated time-series data are ubiquitous in modern scientific research. In practice, different methods
are applied for forecasting time series. The methods can be classified in two main approaches: model based and
data based. In neural network approach, the model can be adapted to the data set in hand very efficiently by
changing the number of hidden layers and/or the nodes in the hidden layer. Artificial neural works when applied
to time series provide a non-linear forecasting method. Neural network forecasting requires a much larger
number of observations but it also allows more flexible and complicated models to be fitted.
The most widely used type of neural networks is the multi-layer perceptron artificial neural network
(MLP-ANN) which has an additive aggregation function. Another important type of neural network is the
multiplicative neuron model artificial neural network (MLP-ANN) which has a multiplicative aggregation
function. MNM-ANN is proposed by Yadav et al. (2007). MNM-ANN is a single neuron model, which could
perform better than MLP-ANN model with a smaller number of neurons by means of employing a multiplicative
aggregation function. MNM-ANN has different versions. There exist various versions of MNM-ANN in
literature. Egrioglu et al. (2015) proposed recurrent multiplicative neuron model artificial neural network
(RMNM-ANN), Gundogdu et al. (2015) proposed Gauss activation function based multiplicative neuron
artificial neural network model. Higher order ANN models are another class based on additive and multiplicative
aggregation functions. Higher order networks such as sigma pi network (SPNN) (Rumelhart DE and Mcclelland,
1986), higher order processing unt neural network (Giles and Maxwell, 1987), product unit neural network
(PUNN) (Durbin and Rummelhart, 1989), have been proposed in the literature.
In this study pi-sigma neural network (PSNN) proposed by Shin and Ghosh (1991) has been changed
into a recurrent version with a modification in the structure. This new ANN is called as autoregressive moving
average type pi sigma neural network (ARMATPSNN). The proposed ANN is trained with a particle swarm
optimization algorithm. The proposed model is applied on three Istanbul Stock Exchange time series and the
results are promising on behalf of the proposed model.
94
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
REFERENCES
[1] Egrioglu E., Aladağ Ç.H., Yolcu U., Bas E. Recurrent Multiplicative Neuron Model Artificial Neural
Network for Non-Linear Time Series Forecasting, Neural Processing Letters, 41(2), 2015, 249-258.
[2] Gündoğdu, Ö., Egrioglu, E., Aladağ, Ç. H. & Yolcu, U. (2015). Multiplicative Neuron Model Artificial
Neural Network Based on Gauss Activation Function. Neural Computing and Application, DOI 10.1007/s00521015-1908-x.
[3] Hussain AJ, Liatsis P. Recurrent Pi–Sigma networks for DPCM image coding.
Neurocomputing 2002(55):363–82.
[4] J. Ghosh and Y. Shin, “Efficient Higher-order Neural Networks for function approximation and
classification” Int. J. Neural Systems, vol. 3, no. 4, pp. 323-350, 1992.
[5] Kennedy, J., Eberhart, R. (1995). Particle swarm optimization, In Proceedings of IEEE
International Conference on Neural Networks, pages 1942–1948, Piscataway, NJ, USA, IEEE
Press.
ÖZET
ARMA TİPİ Pİ-SİGMA YAPAY SİNİR AĞLARI İLE DOĞRUSAL OLMAYAN ZAMAN SERİLERİ
ÖNGÖRÜSÜ
Gerçek hayat zaman serileri, karmaşık ve doğrusal olmayan yapılara sahiptirler. Literatürde doğrusal
olmayan zaman serilerinin çözülmesinde yapay sinir ağları, esnek yapıları ve veriye dayalı yaklaşım olmaları
nedeniyle sık kullanılmaktadırlar. Yüksek dereceli yapay sinir ağları, diğer yapay sinir ağı türlerine göre, model
derecesinin arttırılabilmesi nedeniyle verilere daha iyi uyum sağlayabilmektedir. Bu çalışmada pi-sigma yapay
sinir ağları için yeni bir geri beslemeli mimari yapı önerilmiştir. Yeni yapay sinir ağı modeli ARMA Type Pisigma Neural Network olarak isimlendirilmiştir. ARMA Type Pi-Sigma Neural Network’ün eğitimi için parçacık
sürü optimizasyonuna dayalı bir eğitim algoritması ortaya koyulmuştur. Önerilen yeni yüksek dereceli yapay
sinir ağı üç adet gerçek zaman serisine uygulanmış, ayrıca Istanbul Stock Exchange veri setine dayalı bir
simülasyon çalışması gerçekleştirilmiştir. Uygulamalar sonucunda önerilen yeni yapay sinir ağının başarılı
öngörü sonuçları üretebildiği görülmüştür.
Anahtar Kelimeler: Yüksek Dereceli Yapay Sinir Ağları, Pi-Sigma Yapay Sinir Ağları, Öngörü, Geri Beslemeli
Yapay Sinir Ağları, Parçacık Sürü Optimizasyonu.
95
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TIME SERIES ANALYSIS ON THE FREQUENCY DOMAIN OF THE
REGIONAL RAINFALL IN TURKEY
Fatma Esra SOYSAL1 Cemal ATAKAN2 Yılmaz AKDİ3
*
*1
Karamaoğlu Mehmetbey Üniversitesitesi, İ.İ.B.F., İşletme, 70100, Karaman
2-3
Ankara Üniversitesi, Fen Fakültesi, İstatistik, 06100, Ankara
*
[email protected]
1.
INTRODUCTION
Time series are analyzed in two ways using the time domain and the frequency domain. Time domain analysis is
preferred when the data have periodic movements. In this case, estimates and forecasts are obtained by using the
trigonometric transformations.
In this study, monthly rainfall occurred between the years 1960-2014 taken from Turkish State Meteorological
Service are handled. The rainfall which can’t be observed due to several reasons. Therefore, the monthly
estimated values (averaging the year of the month) are used in the analysis. As one would expect, the
precipitation show periodic fluctuations. Model estimation is going to be performed for each region with the
above-mentioned method.
2. FOURIER COEFFICIENTS
Seasonal movements show periodic fluctuations. In such cases, trigonometric functions can be used to express
periodic movements as mathematical statements in the model. In time series analysis, the model which is based
on trigonometric functions such as sine-cosine functions can be established.
If Yt is the value observed in t-th time, then the following model can be considered as
Yt=μ+Acos(2πft)+Bsin(2πft)+et,
t=1, 2, 3, . . ., n .
(1)
Here f is known as the Fourier frequencies and A, B and  are parameters to be estimated.
(Box and Jenkins 1976)
The model (1) is similar to a regression model. In this way, it is easier to estimate µ, A and B
parameters if the model is considered as a linear model given in (2)
.
(2)
The parameters are estimated by the least squares method. Here,
  (, A, B) and the estimated values of
these parameters are given in (3).
(3)
From to these statements the actual parameters of sinusoid are derived. (Bloomfield 2000, Fuller 1996)
96
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
The OLS estimates of the parameters A and B (namely a k and bk ) are known as Fourier coefficients. Using these
OLS estimates (or Fourier coefficients) the periodogram ordinate of Y t is defined as
(4)
(Akdi and Dickey 1999).
3. CONCLUSION
This study has two main categories: time-series analysis and discriminant analysis. After the
model established for geographical areas, revised areas' models will be estimated in
accordance with the results of discriminant analysis. The rationale for this approach is to get
better results with proposed grouping. In other words, whether, assigning the provinces to
regions by average rainfall would lead to any change will be examined. Thus, when provinces
combined with similar monthly average rainfall, it is shown that the differences between
observed and predicted values of monthly averages decrease.
ABSTRACT
In time series that include seasonal fluctuations, periodic functions are used to occur the model. In this study,
the rainfall data shows seasonal movements. Therefore, frequency domain analysis is used for the rainfall data
model. Initially, geographical regions’ models are going to be estimated. Then, discriminant analysis will be
applied to the average rainfall of the provinces and new models for reorganised regions based on this anaysis
will be composed. Predictions obtained from the two different groupings are going to be compared.
Key words: Precipitation, Fourier coefficient, Frequency domain, Time series
REFERENCES
Akdi, Y. And D.A. Dickey, '' Periodograms for Seasonal Time Series with a Unit Root'' ISTATISTIK, Journal of
Turkish Statistical Association, Vol.2, Number 3, 153-162, 1999
Baltagi, B.H. 2005. Econometric Analysis of Panel Data. John Wiley and Sons, 11-12, London
Bloomfield, P. 2000. Fourier Analysis of Time Series. John Wiley and Sons, 5-8.s. New York
Box, G.E.P., Jenkins, G.M. 1976. Time Series Analysis: Forecasting and Control. Holden-day, 64-65, California
Fuller, W.A. 1996. Introduction to Statistical Time Series. John Wiley and Sons, 1-4, 13-15, New York
97
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TEMPERATURE IN TURKEY AND TURKISH DAY AHEAD
ELECTRICITY MARKET
Kamil Demirberk ÜNLÜ 1,2,* , Ali Devin SEZER1
1
Middle East Technical University, Institute of Applied Mathematics, 06800, Ankara, Turkey
2
Ankara University, Faculty of Science, Department of Statistics, 06100, Ankara, Turkey
E-mail: * [email protected], [email protected]
Transition to the free market model of the Turkish electricity market started in 2001 with the Electricity Market
Law no. 4628. Generation, wholesale, transmission and distribution activities were separated and some of them
were privatized. This transformed the Turkish electricity market into a competitive one and with the increasing
competition; on December 1, 2009 the Turkish day ahead electricity market started its operations. Al- most 20%
of the electricity trade in Turkey takes place in this market while the remaining is realized through bilateral
contracts. Establishment of the Turkish day ahead electricity market is a significant development because it
allows the forces of supply and demand to establish a fair and public price for electricity. Establishment of this
price is essential for the actors in the energy sector to make efficient decisions. One of the key elements in the
use of a price is to understand its dynamics. Because the market is so new there are only a very small number of
works that analyze the prices that are realized in the Turkish day ahead electricity market. Currently we are only
aware of [4], which uses a continuous time framework.
The aim of this study is to explore the dynamics of the prices observed in the Turkish day ahead electricity
market. There are two levels of our work: 1) study the price process as a univariate process, 2) study the same
process and temperature as a two dimensional process. The goal of the latter part is to understand to what extent
temperature influences the day ahead prices. Since there are no publicly available models of temperature in
Turkey, we have built a preliminary model of temperature dynamics in Turkey. We are interested in two
processes: temperature and electricity prices established at the day ahead market in Ankara. Most of the
temperature models that we have reviewed, such as [1], [2] and [3], make use of periodic functions to capture the
cyclical behavior of temperature. It appears to us that such an approach often leads to complicated models with
many parameters. We propose a simple approach based on the following observation. The temperature process
alternates between two phases: a heating phase and a cooling phase. We approximate both of these phases by a
model of the form Λt +Xt, where Λt is an affine function of time and Xt is a stationary process. Conditioning on
the heating and cooling phases, we see that very simple time series models capture the random stationary part
very well. We take a similar approach in modeling electricity prices. However, this behavior is much more
complicated than the dynamics of the temperature process. After listing some very salient features of the prices
process, we have focused on a particular period (the time interval between February 2 and March 22) where
clearly the prices seem to follow a model of the form Ψt + Yt, where Ψ is, again, an affine function of time and
Y a stationary process. Once again, upon conditioning on this period, those simple time-series models capture
the dynamics of Yt remarkably well.
A primary aim of this work is to begin an analysis of the effect of temperature on electricity prices. In our
approach this effect can be studied in two levels: globally and locally. The global variables in our temperature
model are: slopes of the cooling and heating trends, the length of the cooling and heating periods. The local
variables are the fluctuations in the temperature conditioned on the global variables. The global variables of our
(incomplete) price model are: the starting point of the price-decrease period (the period that includes the
February 2-March 22 interval specified above) and its length. A global analysis of the effect of temperature on
prices would look at the dependence between the global variables. This is not simple and may require more data
than what is currently available. Instead, in this pa- per, we limit ourselves to a local analysis. That is, we look at
the following question: conditioning on the global variables (i.e., fixing the values of the global variables) what
is the relation between fluctuations in temperature and the fluctuations in price? To condition on the global
variables we limit our analysis to the February-March period referred to above where all of the global variables
described above seem to be fixed. The answer to the question we have just stated, according to our analysis, is
98
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
that there is little relation between price and temperature fluctuations.
REFERENCES
[1] Anastasiadou, Z. and Lopez-Cabrera, B., Statistical Modelling of Temperature Risk, SFB Discussion Paper,
Humboldt-Universitat zu Berlin, Germany, 2012.
[2] Benth, F.E. and Sˇaltyte ̇ Benth, J. and Koekebakker, S., Putting a Price on Temperature*, Scandinavian
Journal of Statistics, 34, 746-767, 2007. [3] Hardle, W.K. and Cabrera, B.L., The implied Market Price of Weather Risk, Applied Mathematical Finance,
19, 59-95 , 2012.
[4] Talasli, I., Stochastic Modeling of Electricity Markets, PhD thesis, IAM, METU, January 2012. ABSTRACT
TEMPERATURE IN TURKEY AND TURKISH DAY AHEAD ELECTRICITY MARKET
One of the key steps of the liberalization of the Turkish electricity market has been the establishment of
PMUM (Turkish day ahead electricity market). The aim of this study is to explore the dynamics of electricity
prices observed in this market and their relation with temperature observed in Turkey. The electricity price
process is studied as a univariate process and the same process is studied along with temperature together as a
two-dimensional process, also a relatively complete model of temperature was established for Turkey. The
results show that for a given period of time, there is little relation between price and temperature fluctuations.
Key Words: Turkish day ahead electricity market prices, temperature, auto-regression, forecasting, modeling
99
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 4
ÖRNEKLEME
100
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
OKUL YÖNETİCİLERİNİN BEDEN EĞİTİMİ VE SPOR DERSİNE
YAKLAŞIMŞARININ ÖRNEKLEME METODU (GOOS)( GENİŞLİĞE
ORANTLI OLASILIKLI SEÇİM) KULLANILARAK BELİRLENMESİ
ÜZERİNE BİR ÇALIŞMA (SAMSUN İLİ ÖRNEĞİ)
Sadettin EKİNCİ (1) ,
Mücahit KURTULUŞ (2)
(1) MEB, Beden Eğitimi Öğretmeni, SAMSUN
Dünya da yer alan tüm ülkeler hemen hemen her alanda bir yarış içerisindedir. Bunlardan birisi de spor alanıdır.
Olimpiyatların amblemi tüm kıtaları simgelemektedir. Dostluk, barış ve kardeşliğin simgesi altında her ülke bu
ve benzeri organizasyonlarda en iyisi olabilmek için bir yarış içerisindedir. Görsel olmasının yanında en hızlı, en
yüksek, en dayanıklı vb. kriterlere göre bireysel ve takım sporlarının kürsüde yer alması o ülke/ler için önemli
bir göstergedir.
Unutulmaması gereken en önemli unsur ise yarışmadaki tüm sporcuların kürsüye çıkmak (madalya kazanmak)
için illegal yollara sapmamasıdır. Bunu sporcu/lar ülkenin adını ve imajını lekelemektedir. Maalesef bu durum
ülke/ler için büyük sıkıntı oluşturmaktadır.
Ülkemizde de spor alanında (tüm branşlarda) devletimiz tarafından önemli destek verilmektedir. Bir sporcunun
yetiştirilmesinin çok güç olduğu yadsınamaz bir gerçektir. Büyük yatırımlarla, desteklerle, sporsonluklarla,
ödüllerle vb. desteklenen sporcu/lar‘dan başarı beklenmesi doğaldır.
Sporcu/lar’ın yetişmesi uzun bir süreç almaktadır. Eğitimlerinin (Spor branşına göre) küçük yaşlarda başlaması
gerekliliği bilimsel olarak kanıtlanmıştır. Eğitim ve öğretim artık nerede ise bebeklikten başlamaktadır.
Eğitim ve öğretimin en önemli unsurlarından birisi de İlköğretimden itibaren başlamaktadır. Okul yöneticilerinin
Beden Egitimi ve Spor derslerine bakışının sporcuların yetişmesinde etken olduğu bilinen bir gerçektir. Bundan
dolayı yöneticilerimizin görüş ve önerilerinin bilinmesi amacı ile bir ‘Anket Formu‘ hazırlanmıştır.
Çalışmamızda Samsun İli Valiliği’nin 30.06.2015 tarih ve 42276601-604.01-E.6760423 sayılı oluru ile
sorulacak soruların ‘Anket Formu‘ onaylanmıştır.
Anket çalışmamızın pilot (Survey) uygulaması için ’Atakum İlçesi‘ seçilmiştir (Tüm okul türlerinin yer alması
nedeni ile).
GOOS (Genişliğe Orantılı Olasılıklı Seçim) yöntemine karar verilmiştir. Yığınımızın çerçevesi belirlenmiş ve
hiç bir okulun çerçeve dışında kalmaması sağlanmıştır. Pilot çalışması Temmuz.2015’de tamamlnamıştır. Anket
Formu yeniden revize edilmiştir. Anket uygulaması ve analizlerinin 01-15.Eylül.2015 tarihleri arasında
tamamlanması planlanmıştır.
KAYNAKLAR
[1] Yamane T. (2009), Temel Örnekleme Yöntemleri, Çeviri İstanbul-Türkiye,
[2] Bakır M.A. ve Aydın C. (2013), İstatistik, Ankara-Türkiye, Nobel Yayınları..
[3] Ünver Ö. ve Gamgam H. (2006), Uygulamalı Temel İstatistik Yöntemler, Ankara-Türkiye, Seçkin
Yayıncılık.
[4] MEB, Samsun İli İl Milli Eğitim Müdürlüğü, 2015-2016 Okul ve Yönetici Listeleri
101
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İKİ SAFHALI ÖRNEKLEMEDE BAZI ORANSAL VE ÇARPIMSAL
ORTALAMA TAHMİN EDİCİLERİNİN TEORİK VE DENEYSEL
KARŞILAŞTIRMASI
Özge AKKUŞ
Didem ÖKMEN
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi,
İstatistik Bölümü, 48000,Muğla, TÜRKİYE
[email protected]
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi,
İstatistik Bölümü, 48000,Muğla, TÜRKİYE
[email protected]
1. Genel Bilgiler
Örnekleme teorisinde, ilgilenilen değişken Y (study variable) ile yüksek derecede ilişkili olan X yardımcı
değişkenine ait kitle bilgilerinin çalışmaya dahil edilmesi, tahmin hatalarını önemli ölçüde düşürmektedir. Ancak
X’in kitle bilgilerine ulaşmak çok kolay olmamaktadır. Böyle durumlarda parametre tahminleri için iki safhalı
(two phase) (or double) örnekleme yönteminin kullanılmasına ihtiyaç duyulmaktır. İlk safhada çekilen ön
örneklem yardımıyla X yardımcı değişkenine ait kitle bilgileri tahmin edilmekte, ikinci safhada ise bu
tahminlerden yararlanılarak çekilen alt örneklem yardımıyla ilgilenilen değişken Y ile ilgili en etkin tahminlere
ulaşılmaya çalışılmaktadır. Literatürde iki safhalı örneklemede önerilen çok sayıda ortalama tahmin edicisi
vardır. Ancak bu tahmin ediciler önerilirken daha önce önerilen tüm tahmin edicilerden etkinlikleri belirli
koşullar altında teorik olarak ispatlanmaktadır. Oransal ortalama tahmin edicilerinin incelendiği bu çalışmada
amaç, literatürde var olan çok sayıdaki tahmin edicinin etkinlik koşullarını teorik olarak ortaya koymaktır.
Ayrıca, teorik bulguların pratikte geçerliliğini göstermek amacıyla veri kümesinin sağladığı koşullar da dikkate
alınarak, Türkiye’de 2010 yılında sofralık zeytin üretimi ortalamasının en iyi ve en kötü tahminini veren tahmin
ediciler belirlenmiştir.
2. Bulgular
Tahmin edicilerin Hata Kareler Ortalaması (HKO) ve Mutlak Hata (MH) değerleri üzerinden yapılan
karşılaştırma sonuçları Çizelge 1’de verilmiştir. HKO ölçütüne göre sofralık zeytin üretimi ortalamasının en
etkin tahmininin, Singh, Chauhan ve Sawan tahmin edici ailesi ( y15 ) ile elde edildiği; en kötü tahminin ise
Chand tahmin edicisi-2 ile ( y5 ) elde edildiği gözlemlenmiştir.
Vurgulanması gereken bir diğer önemli nokta ise, teoride ve uygulamada klasik çarpımsal tahmin
edicilerin etkinliğinin oran tipi tahmin edicilere oranla daha düşük olduğudur. Şöyle ki, sofralık zeytin üretimi
ortalamasının en iyi tahmininin elde edilmeye çalışıldığı uygulama bölümünde ilgilenilen değişken Y ile X
yardımcı değişken arasındaki ilişkinin aynı yönlü olduğu dikkate alındığında oran tahmin edicilerinin
etkinliklerinin yüksek çıkması beklenen bir sonuçtur.
İkinci yardımcı değişken Z’ye ait olan basıklık katsayısı ve değişim katsayısı bilgilerine sahip
olunduğunda, tahmin edicilerin etkinlik derecesinin arttığı gözlenmektedir. Yardımcı değişken X ile ilgilenilen
değişken Y arasındaki korelasyon katsayısının bilindiği durumda ise Singh, Chauhan ve Sawan Tahmin Edici
Ailesi ( y15 ) daha etkin sonuçlar vermektedir.
KAYNAKLAR
[1] Choudhury, S., Singh, B.K., 2012, A Class of Chain Ratio-Product Type Estimators With Two
Auxiliary Variables Under Double Sampling Scheme, Journal of the Korean Statistical Society,
[2] Çıngı, H., 2009, Örnekleme Kuramı. H.Ü.Fen Fakültesi Basımevi, Beytepe, Ankara, 278p.
[3]Gajendra K. Vishwakarma & Raj K. Gangele, 2014. A class of chain ratio-type exponential estimators
in double sampling using two auxiliary variates,
[4] Özgül N., 2007, İki Safhalı Örneklemede Ortalama Tahmin Edicileri, Yüksek Lisans Tezi, Hacettepe
Üniversitesi, Ankara.
[5] Singh, R., Chauhan, P., Sawan, N., Smarandache, F., 2008, Improvement in Estimating Population
Mean
Using
Two
Auxiliary
Variables
in
Two
Phase
Sampling,
http://arxiv.org/ftp/arxiv/papers/0810/0810.2094.pdf.
102
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çizelge 1. Zeytin Üretimi Verisi İçin Etkinlik Sıralaması
Ta
hmin
Değeri
Tahmin Edici

 x  1  Z  xz 
y 20  y   

 x   z  xz 
an
HKO
A
E
H
KO
Sırası
A
E
Sırası
2
Singh, Chauhan, Sawan Family
of Est.
Y
 x  b xz  Z  z   

y7  y 


x
 x  y b yx  x  x  


14
48.872
1.975
1
1779
5.868
1
42.252
1
4
17
04.520
.957
3
2817
3.206
3
97.900
2
7
11
67.060
4.625
1
3426
4.479
1
39.560
5
3
71
3.602
2
8.142
1964
22.292
5
93.019
4
54
9.941
21.933
3082
17.989
7
56.679
5
Upadhyaya Est.
y13 
y   2  z  z   Cz 
x 

x   2  z  Z  Cz 
Singh and Upadhyaya Est.-5
y2  y
x
x
Classical Product Est.
y5  y
x
xz 
y
xZ
 x 
  Z
z 
1
8
1
1
5
Chand Est.-2
A THEORETICAL AND EXPERIMENTAL EFFICIENCY COMPARISON OF SOME RATIO AND
PRODUCT TYPE MEAN ESTIMATORS IN TWO PHASE SAMPLING
ABSTRACT
In this study, the performance of some ratio and product type mean estimators proposed for the estimation of the
population mean in two phase sampling scheme has been discussed. For this purpose, theoretical comparisons
have been made over Mean Square Error values and efficiency conditions have been determined. Additionally, a
real data set on olive production has been taken from the records of Turkish Statistical Institute to show that the
theoretical findings are also valid for a real data set under different conditions. Finally, it has been proved that
almost all the theoretical findings are compatible with the empirical findings.
Key Words: Efficiency Comparison, Mean Estimator, Two Phase Sampling, Ratio Type Estimator, Product Type
Estimator
103
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MEDYAN SIRALI KÜME ÖRNEKLEMESİ ALTINDA RİDGE
REGRESYON TAHMİN EDİCİSİNİN FARKLI SHRİNKAGE
PARAMETRELERİ İÇİN İNCELENMESİ
Yaprak Arzu ÖZDEMİR
Meral EBEGİL
Fikri GÖKPINAR
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü 06500 Beşevler Ankara
[email protected]
[email protected]
[email protected]
Çoklu doğrusal regresyon, değişkenler arasında var olan ilişkilerin ortaya çıkarılmasını sağlayan, pek çok
alanda yaygın olarak kullanılan istatistik yöntemlerden biridir. Veri analizi yapan araştırmacılar, çoklu doğrusal
regresyon yöntemini model kurmak için kullanırlar. Regresyon katsayılarını tahmin etmek için yaygın olarak
kullanılan yöntem En Küçük Kareler (EKK) yöntemidir. Ancak, EKK yönteminin doğru sonuçlar vermesi için
çeşitli varsayımların sağlanması gerekmektedir. Bunlardan biri bağımsız değişkenler arasında ilişki olmamasıdır.
Ancak gerçekte bu durum her zaman sağlanmayabilir. Bu durumda, EKK tahmin yönteminin kullanılması yanlış
model bulgularına ve kullanımına neden olabilir. Bu tür birbiriyle bağımlılık gösteren açıklayıcı değişkenlerle
analiz yapmak için çeşitli yöntemler geliştirilmiştir. Bu yöntemlerden bir tanesi de yanlı tahmin yöntemleridir.
Yanlı tahmin yöntemlerinin başlıcaları; temel bileşenler regresyonu, ridge regresyonu ve bunların türevleridir.
Yanlı tahmin ediciler, EKK tahmin edicilerine göre yanlı, ancak daha küçük varyanslı tahminler verirler. Yanlı
tahmin yöntemlerinde genel amaç, EKK tahmin yönteminde büyük olan varyansı, küçük bir yan karşılığında
daraltmaktır. Böylece EKK yöntemine göre daha doğru sonuçlar elde edilebilir.
Çevre, ekoloji, tarım ve tıp gibi bazı alanlarda ilgilenilen değişkenin ölçümünün zaman, bütçe v.b.
faktörler bakımından zor veya pahalı olduğu durumlarla karşılaşılabilir. Bu gibi durumlarda, Sıralı Küme
Örneklemesi (SKÖ) kullanılarak örnek seçim işlemi, Basit Tesadüfî Örneklemeye (BTÖ) göre daha düşük
maliyetle ve daha kısa zamanda gerçekleştirilebilir. Ayrıca yığın dağılımının şekli bilindiğinde, SKÖ nin farklı
tasarımları kullanılarak daha etkin tahmin ediciler elde edilebilir. Al- Saleh, SKÖ tasarımlarını yığın ortalaması
ve varyansı için sapmalı ve sapmasız tahmin edici ayrımı yapmaksızın hata kare ortalamalarına göre simülasyon
yoluyla karşılaştırmıştır [1]. Muttlak sıralamadaki hata miktarını azaltmak ve tek modlu simetrik dağılımlar için
etkinliği arttırmak üzere Medyan SKÖ (MSKÖ) tasarımını önermiştir [2]. Ayrıca Samawi ve diğ. tekdüze
dağılım için yığın ortalamasını tahmin etmek üzere uç SKÖ’yü önermişlerdir [3]. MSKÖ, özellikle tek modlu
simetrik dağılım varsayımı altında bilinen SKÖ’den daha iyi sonuçlar vermektedir. Regresyon modellerinde hata
genellikle normal dağıldığından tahmin edicilerin etkinliği MSKÖ kullanılarak arttırılabilir. Çoklu bağlantı
problemi ortaya çıktığında, medyan sıralı küme örneği kullanılarak, ridge regresyon model parametrelerinin
etkin tahmin edicilerini elde etmek mümkündür [4]. Literatürde ridge regresyon için, bir çok shrinkage
parametresi (k değeri) bulunmaktadır [5].
Bu çalışmada, regresyon model parametrelerinin etkin tahmin edicilerini elde etmek için, medyan sıralı
küme örneği kullanılarak ridge regresyon tahmin edicisi literatürde yaygın olarak kullanılan farklı shrinkage
parametreleri için incelenmiştir. Medyan sıralı küme örneği kullanılarak farklı shrinkage parametreleri için elde
edilen ridge regresyon tahmin edicisinin, basit tesadüfi örneklemeye göre elde edilen tahmin ediciye göre
etkinliğini araştırmak için, farklı bağımsız değişken sayısı, örnek çapı, bağımlılık katsayısı ve hata varyansı
dikkate alınarak simülasyon çalışması yapılmıştır. MSKÖ’ye göre elde edilen ridge regresyon tahmin edicisinin,
basit tesadüfi örneklemeye göre elde edilen ridge regresyon tahmin edicisinden daha etkin sonuçlar verdiği
görülmüştür.
Anahtar Kelimeler: Sapmalı tahmin ediciler, Ridge Regresyon, Shrinkage Parametresi, Çoklu Bağlantı,
Medyan Sıralı Küme Örneklemesi, Göreli Etkinlik.
104
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Al-Saleh M.F. (2004), On the totality of ranked set sampling, Applied Mathematics and Computation. 47,
527-539.
[2] Muttlak H.A. (1997), Median ranked set sampling, Applied Statistical Science, 6(4),245-255.
[3] Samawi H.M., Ahmed M.S. and Abu-Dayyeh. (1996), Estimation the population mean using extreme
ranked set sampling, Biometrical Journal, 38(5), 577-586.
[4] Özdemir Y., Ebegil M. and Gökpınar F. (2015), Median Ranked Set Samping for Ridge Regression
Estimator, XVIth Internatıonal Symposium On Econometrics, Operations Research And Statistics, Abstracts
Book (16. Uluslararası Ekonometri, Yöneylem Araştırması ve İstatistik Sempozyumu, Bildiri Özetleri Kitabı)
294-296, Edirne, Türkiye, Mayıs.
[5] Gökpınar F. and Ebegil M. (2014), A Comparative Study On Ridge Estimators In Regression
Problems, Sains Malasiana, (Basım Aşamasında).
RIDGE REGRESSION ESTIMATORS FOR DIFFERENT SHRINKAGE PARAMETERS BASED ON
MEDIAN RANKED SET SAMPLING
ABSTRACT
In this study, ridge regression estimators with different shrinkage parameters are examined by using
median ranked set sample to obtain the efficient estimators of regression model parameters. The simulation
study is performed for different number of independent variables, sample sizes, correlation coefficients and error
variances to investigate the effectiveness of the ridge regression estimator with different shrinkage parameters
using median ranked set sample compared to the ridge estimator using simple random sample. It was shown
that, ridge regression estimator using median ranked set sample gives more efficient results than ridge
regression estimator using simple random sample.
Key Words: Biased Estimators, Ridge regression, Shrinkage Parameter, Multicollinearity, Median Ranked Set
Sampling, Relative Efficiency.
105
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TABAKALI TESADÜFİ ÖRNEKLEMEDE MALİYET KISITLI
PAYLAŞTIRMA YÖNTEMLERİNİN İNCELENMESİ
Sinem Tuğba ŞAHİN TEKİN*, Yaprak Arzu ÖZDEMİR, Cenker METİN
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü 06500 Beşevler Ankara
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü 06500 Beşevler Ankara
TÜİK Ankara
[email protected]
[email protected]
[email protected]
Örnekleme yöntemlerinin temel amacı, yığın hakkındaki önsel bilgileri kullanarak tahmin edicinin duyarlılığını
arttırmaktır. Uygulamada bu amaçla kullanılan pek çok örnekleme yöntemi bulunmaktadır. Yığın heterojen
yapıdayken, tabakalı tesadüfi örnekleme ile yığını homojen tabakalara ayırarak duyarlılığı arttırmak mümkündür.
Tabaka sayısı ve sınırları genellikle araştırmacı tarafından belirlenir. Tabakalardan seçilecek örnek çapı ise belli
bir maliyet kısıtı altında tahmin edicinin varyansını veya belli bir varyans veya maliyet kısıtı altında toplam
örnek çapını minimum yapacak şekilde elde edilir.
Tabakalardan seçilecek örnek çapları belirlenirken, tabaka çapları ve tabaka varyansları birbir1inden farklı ise
“Neyman paylaştırma”, tabaka çapları ve tabaka varyanslarının farklı olmasının yanında her tabakadan birim
seçme maliyeti farklılık gösteriyorsa “en uygun paylaştırma” yöntemlerinin kullanılması önerilmektedir
(Yamane, 1967). Literatürde yapılan çalışmalarda, çoğunlukla tabakalardan birim seçme maliyetlerinin eşit
olduğu veya maliyetlerin göz ardı edilebilecek kadar az olduğu varsayılmaktadır. Bankier (1988), Neyman
paylaştırma ve eşit paylaştırmadan yararlanarak, yeni bir paylaştırma modeli önermiştir. Bu modelde,
tabakalardan birim seçme maliyetleri eşit kabul edilmiştir. Longford (2006) ise hem tabaka ortalamalarının
tahmininin varyansını, hemde yığın ortalamasının tahmininin varyansını aynı anda minimum yapacak yeni bir
model önermiştir. Choundhry ve diğ. (2012) yaptıkları çalışmada, Bankier (1988) ve Longford (2006) tarafından
önerilen paylaştırma modelleri ile yine maliyeti göz önüne almayan bir doğrusal olmayan paylaştırma modelini
gerçek bir veri üzerinden karşılaştırmışlardır.
Uygulamada, tabakalardan birim seçme maliyetinin aynı olduğu veya göz ardı edildiği durumların sayısı yok
denecek kadar azdır. Bu nedenle, maliyetin dikkate alınarak tabakalardan seçilecek örnek çaplarının
hesaplanması daha gerçekçi bir yaklaşım olacaktır. Tabaka maliyetlerinin dikkate alınması durumunda
genellikle, Eş.(1)’deki doğrusal maliyet fonksiyonu kullanılmaktadır.
L
t  t0   th nh
(1)
i 1
Burada t; araştırma için toplam maliyet, t0 sabit maliyet, th; h. tabakadan bir birim seçme maliyeti ve nh; h.
tabakadaki örnek çapı olarak tanımlanır (h=1,2,…,L). Eş.(1)’den görüldüğü gibi, maliyet fonksiyonu doğrusal
olduğunda, tahmin edicinin varyansını minimum yapacak nh değerlerinin belirlenmesi oldukça kolaydır. Ancak
maliyet fonksiyonu doğrusal olmadığında, nh değerlerinin belirlenmesi oldukça karmaşıktır. Cochran (1977),
Bretthauer ve diğ. (1999) ve Chernyak (2001) doğrusal olmayan maliyet fonksiyonunu aşağıdaki gibi
tanımlamışlardır.
L
t  t0   th nh
(2)
i 1
Burada α; h. tabakadan bir birim seçmenin maliyet fonksiyonu üzerine etkisini ifade etmektedir. Tabakalardan
bir birim seçme maliyeti farklılık gösteriyorken, Eş.(2)’deki maliyet fonksiyonunun kullanılması önerilir.
Bu çalışmada, Bankier (1988) ve Longford (2006) tarafından önerilen paylaştırma modellerine doğrusal olmayan
maliyet fonksiyonu kısıtı eklenerek yeni paylaştırma yöntemleri önerilmiştir. Doğrusal olmayan maliyet
fonksiyonundan yararlanarak aynı zamanda doğrusal maliyet kısıtı altında gerekli örnek çapları da elde
edilebilmektedir. Önerilen yeni paylaştırma yöntemleri, Choundhry ve diğ. (2012) yaptıkları çalışmada
kullandıkları veri kullanılarak yorumlanmıştır.
106
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Anahtar Kelimeler: Tabakalı Tesadüfi Örnekleme, Neyman Paylaştırma Yöntemi, En Uygun Paylaştırma
Yöntemi, Doğrusal Olmayan Maliyet Fonksiyonu, Doğrusal Olmayan Programlama.
THE EXAMINATION OF ALLOCATION METHODS WITH COST CONSTRAINT IN STRATIFIED
RANKED SET SAMPLING
Sample size of the strata is determined by the help of some allocation methods in Stratified Random Sampling.
Although the main objective is to minimize the variance of the estimator, researcher also desire to obtain
minimum total sample size because of cost constraint. Most of the allocation methods ignore the selection cost
with respect to equal selection cost assumption in all strata. However, in real life applications it is very rare to
come across such situations. Therefore, it would be more realistic to take cost into account for allocation
procedure. In this study, new allocation methods are proposed by adding nonlinear cost function constraint to
Bankier (1988) and Longford (2006) method.
Key Words: Stratified Random Sampling, Neyman Allocation, Optimum Allocation, Non-linear Cost Function,
Non-linear Programming.
KAYNAKLAR
[1] Bankier J. (1989), Sample allocation in multivariate surveys, Survey Methodology, 15: 47-57.
[2] Bretthauer K. M., Ross A., Shetty B. (1999), Nonlinear integer programming for optimal allocation in
stratified sampling, European Journal of Operational Research, 116:667-680.
[3] Chernyak A. (2001), Optimal allocation in stratified and double random sampling with a nonlinear cost
function, Journal of Mathematical Sciences, 103(4): 525-528.
[4] Choudhry G. H., Rao J.N.K., Hidiroglou M. A. (2012), On sample allocation for efficient domain
estimation, Survey Methodology, 38(1):23-29.
[5] Cochran W. G. (1977), Sampling techniques, John Wiley and Sons Inc.
[6] Costa A, Satorra A. and Venture E., (2004), Using composite estimator to improve both
domain and total area estimation, Applied Statistics, 19, 273-278.
[7] Longford N. T., (2006), Sample size calculation for small-area estimation, Survey Methodology, 32, 87-96
107
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
YIĞIN ORTALAMASI İÇİN FARKLI ORANSAL TAHMİN
EDİCİLERİN SIRALI KÜME ÖRNEKLEMESİ TASARIMLARI
ALTINDA İNCELENMESİ
Nurdan YENİAY, Hasan Hüseyin GÜL, Hakan Tahiri MUTLU, Yaprak Arzu ÖZDEMİR*
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü 06500 Teknikokulllar/ANKARA
[email protected], [email protected], [email protected], [email protected]
Sıralı Küme Örneklemesi (SKÖ), örnekleme birimlerini ölçmenin zor, ancak bu birimleri ilgilenilen
değişkenle yüksek derecede ilişkili bir başka değişken yardımıyla veya görsel yolla sıralamanın kolay olduğu
durumlarda kullanılan maliyet ve zaman bakımından etkili bir örnekleme tekniğidir. SKÖ, McIntry tarafından
1952 yılında Basit Tesadüfi Örneklemeye (BTÖ) alternatif olarak önerilmiştir. McIntry aynı örnek çapı
kullanılarak yığın ortalaması için SKÖ tahmin edicisinin BTÖ’ den elde edilen tahmin ediciye göre daha etkin
olduğunu göstermiştir. SKÖ son yıllarda çevre, tıp ve ekoloji gibi alanlarda yaygın olarak kullanılmaktadır.
Örneklemede ilgilenilen değişkenle yüksek derecede ilişkili yardımcı değişken bilgisini kullanarak
oransal tahmin yöntemi ile yığın parametrelerinin daha duyarlı tahmin edicileri elde edilebilir. Ayrıca ilgilenilen
değişkeni ölçmenin zor fakat yardımcı değişkeni ölçmenin kolay olduğu durumlarda SKÖ kullanılarak oransal
tahmin edicinin etkinliği arttırılabilir.
Samawi ve Muttlak(1996), SKÖ kullanarak yığın ortalaması için oransal tahmin ediciyi incelemişler ve
bu tahmin edicinin BTÖ’den elde edilen tahmin ediciden daha etkin olduğunu göstermişlerdir. Kadılar ve
ark.(2007) SKÖ’de yığın ortalaması için yeni bir oransal tahmin edici önermişlerdir. Al-Omari ve ark.(2009)
SKÖ altında yığın ortalaması için yardımcı değişkenin 1. ve 3. çeyrekliklerini kullanarak yeni oransal tahmin
ediciler önermişlerdir.
Uygulamada beşten fazla birim içeren bir örneğin sıralanması, sıralama hatasına sebep olabilir. Bu
nedenle, küme çapının büyük olduğu durumlarda seçim işleminin SKÖ’ye göre daha basit yolla yapılması ve
sıralama hatasını en aza indirmek amacıyla farklı SKÖ tasarımları geliştirilmiştir. En büyük ve en küçük
birimleri görsel yolla sıralamanın kolay olduğu Uç Sıralı Küme Örneklemesi (USKÖ), Samawi ve ark.(1996)
tarafından önerilmiştir. Özellikle simetrik dağılımlar altında, USKÖ ile elde edilen yığın ortalamasının tahmin
edicisinin yansız ve BTÖ’ den elde edilen tahmin ediciden daha etkin olduğu gösterilmiştir. Ayrıca, SKÖ’de
medyan değerleri dikkate alınarak gerçekleştirilen Medyan Sıralı Küme Örneklemesi (MSKÖ), Muttlak (1997)
tarafından önerilmiştir. Muttlak aynı zamanda tek modlu simetrik dağılımlar altında, yığın ortalamasını tahmin
etmede MSKÖ’nin SKÖ’den daha etkin sonuçlar verdiğini göstermiştir. Al-Omari (2012) yığın ortalaması için
oransal tahmin ediciyi MSKÖ kullanarak elde etmiştir. Son yıllarda SKÖ’nin farklı tasarımları için önerilen yeni
oransal tahmin ediciler bulunmaktadır. Al-Omari ve Gupta (2014) ve Al-Omari (2012) farklı SKÖ tasarımları
için oransal tahmin yöntemini kullanmışlardır. Jozani ve ark. (2012) ise, SKÖ ‘de oransal tahmin için farklı
tahmin ediciler önermişlerdir.
Bu çalışmada, MSKÖ ve USKÖ gibi farklı SKÖ tasarımları altında, yığın ortalaması için önerilen çeşitli
oransal tahmin ediciler incelenmiştir. Ele alınan SKÖ tasarımları için farklı örnek çapı ve korelasyon değerleri
ile çeşitli dağılımlar kullanılarak, yığın ortalaması için oransal tahmin edicilerin BTÖ’ye ve bilinen SKÖ’ye göre
göreli etkinlikleri simülasyon çalışması ile incelenmiştir.
Anahtar Kelimeler: Sıralı küme örneklemesi, oransal tahmin edici, göreli etkinlik.
108
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
1. Mclntyre, G.A. (1952). “A metod of unbiased selective sampling using ranked sets”. Australian Journal of
Agricultural Research,3. 385–390
2 Muttlak,H.A. (1997). “Median ranked set sampling.”. Applied Statistical Science, 6(4), 245–255.
3. Muttlak, H.A. (2003). “Modified ranked set sampling”. Pakistan Journal of Statistics 19.3(4):315–323
4. Al-Omari,A.I.;Jemain, A.A., Ibrahim, K. (2009) “New ratio estimators of the using simple random sampling
and ranket set sampling”. Revista Investigacion Operacional.Vol 30(2):97-108
5. Kadılar,C., Unyazıcı, Y., Cıngı,H.,(2007). “Ratio estimator for the population mean using ranked set
sampling”. Statistical Papers.Springer. Vol 50(2):301-309
THE EXAMINATION OF DIFFERENT RATIO ESTIMATORS FOR THE POPULATION MEAN
UNDER RANKED SET SAMPLING DESIGNS
ABSTRACT
In this study, different ratio estimators for the population mean are examined under some modified
ranked set sampling designs such as median ranked set sampling and extreme ranked set sampling. Simulation
results are presented to demostrate the relative efficiency values of the ratio estimators relative to the simple
random sampling for different sample size, distributions and correlation coefficients under modified ranked set
sampling designs.
Key Words: Ranked set sampling, ratio estimator, relative efficiency.
109
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 4
OLASILIK ve STOKASTİK SÜREÇLER
110
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AYNI TÜR YEDEĞE SAHİP TAMİR EDİLEBİLEN SİSTEM İÇİN SERİ SÜREÇ VE BİR OPTİMAL DEĞİŞTİRME POLİTİKASI
Mustafa Hilmi PEKALP, Halil AYDOĞDU, İhsan KARABULUT
Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06100, Ankara, Türkiye
[email protected], [email protected], [email protected]
Giriş
1.
Bu çalışmada monoton bir sayma süreci olan -seri süreç, tek bileşenli ve birinin diğerinin yedeği olarak kullanıldığı tamir
edilebilen bir sistemin modellenmesi için ele alınmıştır. Bu model altında
değiştirme politikası ile yenileme ödül
teoreminden uzun sürede birim zaman başına düşen ortalama masraf ’nin bir fonksiyonu olarak açık şekilde elde edilmiştir.
Bu ifadeyi minimum yapan , üstel ve Weibull dağılımları göz önüne alınarak belirlenmiştir.
değiştirme politikası
2.
bir doğal sayı olmak üzere,
-seri süreç modeli altında
değiştirme politikası
bozulma zamanında yenisiyle değiştirilmesi olarak tanımlanır.
değiştirme politikasını uygulayabilmek için aşağıdaki varsayımlar yapılır.
V1: Başlangıçta aynı türden iki yeni bileşen kullanılır. 1. bileşen çalışır durumda iken 2. bileşen yedek olarak
beklemektedir.
V2: Bir bileşen bozulduğu anda tek bir tamirci tarafından tamir edilecektir. Tamir aşamasındaki bileşen yerine,
yedek olarak bekleyen devreye girecektir. Bozulan bileşen tamir edildiği anda ya çalışmaya başlayacak ya da
yedek durumda kalıp diğerinin bozulmasını bekleyecektir. Bir bileşen tamir edilir iken diğeri de bozulur ise
tamir edilmek için diğer bileşen tamirinin tamamlanmasını bekleyecektir. Bu durumda sistem çalışmayacaktır.
V3:
ve
için
bileşenin
dönemi,
bileşen üzerinde
tamamlandığı anlar arasında kalan zaman aralığı olarak adlandırılır.
ve
sırasıyla dönemdeki bileşenin çalışma ve tamir zamanları olsun.
dizisi
parametresi ile stokastik azalan ve
-seri süreç belirtir.
V4:
ve
dizisi
ve
ve
tamirlerinin
için
ve
ve
parametresi ile stokastik artan bir
bağımsızdır.
V5: Birinci bileşenin tamirlerinin sayısına bağlı olarak değiştirme politikası kullanılacaktır. Sistem yenisi ile
bu politika altında değiştirilecektir ve değiştirme için geçen süreler ihmal edilecektir.
V6: Sistemdeki bileşen yedekte beklediği durum için çalışma ödülü alamayacaktır. Tamir için bekleme
durumunda ise herhangi bir masrafa maruz kalmayacaktır. Her iki bileşen için de tamir masraf oranı
ve
çalışma ödül oranı ’ dir. Sistemin yer değiştirme masrafı ’ dir.
değiştirme politikası altında uzun sürede birim zaman başına düşen ortalama masraf yenileme ödül
teoreminden aşağıdaki gibi bulunur.
Burada
ve
, sırasıyla tamir için bekleme ve yedekte bekleme durumlarına karşılık gelen
rasgele sürelerinin dağılım fonksiyonlarını ifade etmektedir.
minimum olacak şekilde
değiştirme politikasına ilişkin
değeri analitik ya da sayısal yöntemler ile belirlenebilir.
111
ve
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Şekil 3. Tek bileşenli ve birinin diğerinin yedeği olarak kullanıldığı tamir edilebilen sistemin bir gerçeklenişi
3.
Uygulama
için
ve
rasgele değişkenlerinin dağılım fonksiyonları üstel ve Weibull dağılımı olarak ele
alınmıştır. Hem üstel hem de Weibull dağılımı durumunda uzun sürede birim zamandaki masrafı minimum
yapan
sayısal olarak hesaplanmıştır.
KAYNAKLAR
[1] Braun, W.J, Li Wei and Zhao, Y.Q (2005), Properties of the Geometric and Related Process, Naval
Research Logistics, 52, 607-617.
[2] Lam, Y. (1988). A Note on The Optimal Replacement Problem, Adv. Appl. Prob. 20, 479-482.
[3] Ross, S.M. (1996). Stochastic Processes. John Wiley and Sons. Inc, California.
[4] Zhang, Y.L. (1999). An Optimal Geometric Process Model for a Cold Standby Repairable System,
Reliability Engineering and Systems Safety, 63, 107-110.
ABSTRACT
AN OPTIMAL REPLACEMENT POLICY FOR
STANDBY REPAIRABLE SYSTEM
-SERIES PROCESS IN CASE OF A COLD
The aim of this work is to determine optimal replacement policy for a cold standby repairable system consisting
of two identical components with one repairman. The sequential working and repair times of this system follow
an -series process which are stochastically non-increasing and non-decreasing, respectively. We have worked
on replacement policy which replaces the system at the
failure time since the last replacement. By the
renewal reward theorem, we have derived the explicit expressions of the long-run expected costs per unit time
and calculated the optimal policy
which minimizes thiscosts analytically or numerically.
Key Words: Renewal process,
convolution.
-series process, optimal replacement policy, renewal reward theorem,
112
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KESİKLİ VE SÜREKLİ ZAMANDA BLOK DEĞİŞTİRME
MODELLERİ
PELİN TOKTAŞ*, VLADIMIR V. ANISIMOV**
*Başkent Üniversitesi, Bağlıca Kampüsü, Eskişehir Yolu 20. km, Fen Bilimleri Enstitüsü, Endüstri Mühendisliği
Bölümü, 06810 ANKARA
[email protected]
** Advisory Services, Quintiles, Reading, Berkshire, RG2 6UU, ENGLAND
[email protected]
Bu çalışmada, kesikli ve sürekli zamanda çok değişkenli blok değiştirme modelleri sunuluyor.
Toplamda N tane olan birimlerden her biri rasgele bozulmalara maruz kalıyor. Sistemdeki
bozulmuş birimler önceden belirlenmiş
… zamanlarında α olasılığı ile
değiştiriliyor. Yenileme süreci şeklinde gösterilemeyen modellerde değiştirme işlemi için
harcanan zamanlar göz önünde bulundurulmuyor. Bu doğrultuda ortaya konan üç modelin
bazı güvenilirlik özellikleri tartışılıyor.
İlk model olan toplam kontrolde sistemdeki tüm birimler
… zamanlarında kontrol
ediliyor. İkinci model olarak kısmi kontrol ortaya konuluyor. Bu modelde sistemden alınan
, büyüklüğündeki, örneklemin kontrol edildiği varsayılıyor. Son model olan
çevrimsel kontrolde sistemdeki birimler her birinde n tane birim bulunan r gruba ayrılıyor
(
). Önceden belirlenmiş
… kontrol zamanlarında eğer
(
) ise
grup
ve eğer
(
) ise grup kontrol ediliyor. Ayrıca kısmi
ve çevrimsel kontrolün birleşiminden meydana gelen çevrimsel-kısmi kontrol tanıtılıyor. Son
olarak, bahsi geçen bu modellerin uzun vadede ortalama kusurlu parçalar oranı açısından
karşılaştırılması yapılıyor.
KAYNAKLAR
[1] Anisimov V. V. (2005), Asymptotic Analysis of Stochastic Block Replacement Policies for Multicomponent
Systems in a Markov Environment, Operation Research Letters, 33, s. 26-34.
[2] Anisimov V. V., Gürler Ü. (2003), An Approximate Analytical Method of Analysis of a Threshold
Maintenance Policy for a Multiphase Multicomponent Model, Cybernetics and Systems Analysis,
39(3), s. 325-337.
[3] Barlow R. E., Hunter L. C. (1960), Optimum Preventive Maintenance Policies, Operations Research, 8, s.
90-100.
[4] Barlow R. E., Proschan F. (1996), Mathematical Theory of Reliability, SIAM edition of the work first
published by John Wiley and Sons Inc., New York 1965.
MODIFIED BLOCK REPLACEMENT MODELS IN DISCRETE AND CONTINUOUS TIME
In this study, modified multi-component block replacement policies are presented in discrete and continuous
time. Units are replaced only at prescribed times
A failed unit is replaced with a good one with
probability α. Replacement time is negligible. Three replacement policies for models that are not represented as
renewal processes are provided under this setup. Some reliability characteristics are discussed. In the first
model, total control is considered where all units are controlled at time
. In the second model, a
partial control is presented in which a sample of size , (
) is taken from all units to inspect. The last
model deals with cyclic control: Units are divided into r groups. Group is controlled at time
where
(modulus ),
and if is equal to zero, then group is controlled. Cyclic partial control which
combines the partial and cyclic control polices is also introduced. Some of these models are also compared
concerning the average long-run proportion of failed units.
Key Words: Replacement policies, block replacement, total control, partial control, cyclic control.
113
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KUYRUK SİSTEMLERİNDE HİZMET DİSİPİLİNLERİNİN ÖNEMİ VE
GÜNCEL HİZMET DİSİPLİNLERİ ÜZERİNE GENEL BİR ÇALIŞMA
Vedat SAĞLAM, Erdinç YÜCESOY, Murat SAĞIR
Ondokuz Mayıs Üniversitesi Fen-Edebiyat Fakültesi İstatistik Bölümü
[email protected]
Kuyruk sistemleri geliş akımı, hizmet süresi, hizmet disiplini, hizmet kanallarının sayısı, kuyruk
kapasitesi ve geliş kaynağının büyüklüğü olmak üzere altı temel unsurdan oluşur. Bu altı temel unsurdan geliş
akımı müşteriler tarafından belirlidir. Geliş kaynağının büyüklüğü de kısmen müşterilere bağlıdır. Geriye kalan
dört temel unsur ise işletmeye aittir ve uygun şart ve durumlara göre değiştirilebilir. Biz bu çalışmada işletme
tarafından değiştirilebilen unsurlardan hizmet disiplinini ele aldık. Hizmet disiplininin önemi ve diğer hizmet
unsurları ile ilişkisini inceledik. Hizmet disiplininin farklılaşması kuyruk sistemini nasıl değiştirdiği ve çözüme
ne gibi katkılar sağladığı araştırılmıştır. Bilgisayar ve iletişim teknolojilerindeki gelişmeye paralel olarak gelişen
kuyruk sistemleri yeni hizmet disiplinlerinin ortaya çıkmasına sebep olmuştur. Bu hizmet disiplinleri bazen
kuyruk sistemlerinin analizini kolaylaştırmak bazen de gerçek dünyaya daha uygun olduğu için geliştirilmiştir.
KAYNAKLAR
[1] W. J. Stewart, “Probability, Markov Chains, Queues, Simulation, New Jersey,” 2009.
[2] U. N. Bhat, “An Introduction to Queuing Theory,” Boston, 2008.
[3] M. Zobu , V. Sağlam, M. Sağır, E.Yücesoy and T. Zaman “The Simulation and Minimization of Loss
Probability in the Tandem Queueing with Two Heterogeneous Channels,” Mathematical Problems in
Engineering, vol. 2013,Article ID 529010, 4, pages, 2013.
[4] S. Ndreca, B. Scoppola, “Discrete time GI/Geom/1 queueing system with priority”, European Journal of
Operational Research, 189(2008), 1403-1408.
114
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÖNÜNDE BEKLEME OLMAYAN KUYRUK SİSTEMLERİNDE
KAYBOLMA OLASILIKLARI
Murat SAĞIR, Müjgan ZOBU*, Vedat SAĞLAM, Erdinç YÜCESOY
Amasya Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 05000, Amasya, Türkiye
[email protected]*
Ondokuz Mayıs Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 55220, Samsun, Türkiye
İ[email protected]
[email protected]
[email protected]
Önünde bekleme olmayan kuyruk sistemlerinde sistemde ortalama bekleme süresi, sistemde ortalama
kişi sayısı ve kaybolma olasılığı olmak üzere üç performans ölçüsü incelenmektedir. Kaybolma olasılığı
müşterinin talep ettiği hizmetleri alamadan sistemden ayrılmasıdır. Bu durum müşteri memnuniyetsizliğini ve
müşteri kaybı anlamına geldiği için, kaybolma olasılığı önünde bekleme olmayan kuyruk sistemlerinde önemli
ve etkin bir göstergedir. Bu bağlamda önünde bekleme olmayan kuyruk sistemlerine ait kaybolma olasılığını
bulmak ve belirli koşullar altında bu olasılığını minimize etmek istenmektedir.
1.
Paralel Kanallı Kuyruk Sistemlerinde Kaybolma Olasılığı
Paralel kanallı kuyruk sistemlerinin önünde bekleme olmadığında, mevcut kanalların tamamı dolu ise
gelen müşteri servis almadan sistemden ayrılır ve kaybolma meydana gelir.
a) Önünde Bekleme Olmayan Homojen Paralel Kanallı Kuyruk Sisteminde Kaybolma Olasılıkları
Önünde bekleme olmayan paralel kanallı kuyruk sisteminde, hizmet kanalları homojen ise kaybolma
olasılığı;
sistemde bulunan kanal sayısına ve sistemin trafik yoğunluğuna bağlı olarak hesaplanır.
Bu formül Erlag’ın B formülü olarak bilinmektedir. Burada sistemde bulunan kanal sayısı,
ise
trafik yoğunluğudur.
müşteriler sisteme geliş akımı olan Poisson dağılımının parametresi,
ise hizmet
parametreleridir.
Önünde bekleme olmayan homojen paralel kanallı kuyruk sisteminde iki kaybolma anı arasındaki
süreye ait Laplace dönüşü;
olarak verilmiştir. Bu formül kanal sayısına bağlı bir fark denklemi içermektedir. Laplace dönüşümünden
yararlanarak iki ardışık kaybolma anı arasındaki sürenin beklenen değeri bulunabilir ve kanal sayısının sonsuza
yaklaşması
şartı altında kayıp akımının Poisson akımına yaklaştığı gösterilebilir.
Önünde bekleme olmayan homojen paralel kanallı bir kuyruk sisteminde kaybolma olasılığı, sistemdeki
ortalama kişi sayısı
ile ters orantılıdır.
b) Önünde Bekleme Olmayan Heterojen Paralel Kanallı Kuyruk Sisteminde Kaybolma Olasılıkları
Önünde bekleme olmayan paralel kanallı kuyruk sisteminde, hizmet kanalları heterojen ise kaybolma
olasılığı;
115
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
gibidir
. Bu formül, farklı ortalamalı hizmet kanalarına sahip kuyruk sistemlerinde Erlag’ın B
formülünün genelleştirilmiş halidir. Burada
sistemde bulunan kanal sayısı,
olarak
tanımlanır. müşterilerin sisteme geliş akımı olan Poisson dağılımının parametresi, ise i – inci kanalın hizmet
parametreleridir.
olarak tanımlanır.
’nin ’lı kombinasyonu,
ise
’nin k–ıncı simetrik fonksiyonudur.
2.
Her Biri Tek Kanallı İki İstasyondan Oluşan Tandem Kuyruk Sistemlerinde Kaybolma Olasılıkları
Tandem kuyruk sistemlerinde mevcut olan istasyonlardan en az birinin önünde beklemenin olmaması
durumunda kayıp meydana gelir. Eğer ilk istasyonun önünde beklemeye izin verilmiyorsa ve ilk istasyondaki
hizmet kanalı dolu veya bloklu ise kayıp meydana gelir. Aralarında bekleme olmayan iki istasyonlu bir kuyruk
sisteminde kaybolma olasılığı, birinci aşamada hizmetini tamamlayan müşterinin ikinci aşamanın dolu olması
nedeni ile sistemden ayrılması ile meydana gelir. Önlerinde bekleme olmayan iki istasyonlu tandem kuyruk
sistemlerinde birinci istasyonda hizmetini alabilmiş olan bir müşteri ikinci aşamadaki hizmet kanalının dolu
olması nedeni ile ikinci istasyona geçemez ve birinci istasyonu bloklar. Yani birinci istasyonu meşgul etmeye
devem eder. Böyle bir durumda sisteme yeni gelen bir müşteri kaybolur. Eğer müşteri birinci aşamayı
tamamladıktan sonra isteğe bağlı olarak sistemden ayrılabiliyor ise olasılı ile birinci istasyonu bloklar veya
olasılığı ile sistemden ayrılır. Önlerinde bekleme olmayan iki istasyonlu tandem kuyruk sistemlerinde
bloklamaya müsaade edilmiyor ise iki farklı kaybolma olasılığı meydana gelir. İkinci istasyon önünde meydana
gelen kaybolma olasılığı, birinci istasyon önünde meydana gelen kaybolma olasılığına bağlı olarak hesaplanır.
KAYNAKLAR
[5] E. Brockmeyer, H. L. Halstrom and A. Jensen, “The life and works of A. K. Erlann.” Danish Acad.
Techn. Sci, No. 2, Koben havn (Denmark), 1948.
[6] F. Alpaslan, “On the minimization probability of loss in queue two heterogeneous channels,” Pure and
Applied Mathematika Sciences, vol. 43, no. 1-2, pp. 21–25, 1996.
[7] M. Zobu , V. Sağlam, M. Sağır, E.Yücesoy and T. Zaman “The Simulation and Minimization of Loss
Probability in the Tandem Queueing with Two Heterogeneous Channels,” Mathematical Problems in
Engineering, vol. 2013,Article ID 529010, 4, pages, 2013.
[8] V. Saglam and A. Shahbazov, “Minimizing loss probability in queuing systems with heterogeneous
servers,” Iranian Journal of Science and Technology, vol. 31, no. 2, pp. 199–206, 2007.
[9] V. Sağlam and M. Zobu, “A two-stage model queueing with no waiting line between
channels,”Mathematical Problems in Engineering, vol. 2013, Article ID 679369, 5 pages, 2013.
ABSTRACT
IN QUEUEİNG SYSTEMS WİTHOUT WAİTİNG LİNE THE LOSS PROBABİLİTY
Three measure of performance; the mean waiting time in the system, mean number of custemers and the
loss probability are investigated in a queueing system without waiting line. The loss probability is a departure of
a customer without having demanded service. Therefore loss probability is a essential performance of measure
since gives us an idea of customer satisfactions. In this manner in queueing systems without waiting line, the
optimization of loss probability is very important. The loss probability is investigated in tandem and paralell
queueing systems with one service channel. Also the relationship between mean customer number and loss
probability is investigated. Finally loss probabilities are analyzed regarding the changes in parameters of
queueing system.
Keywords: Queueing theory, Service rate, Erlang’s loss formula, heterogeneous servers, loss probability,
recurrent input, exponential server, overflow distribution.
116
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TÜRK İMALAT SANAYININ TEKNOLOJI ÜRETIM DÜZEYLERI
Mücahit KURTULUŞ(1) İlhami MİNTEMUR (2) Ahmet PALAS (3)
[email protected]
1.GİRİŞ
Yeni teknolojileri yaratma, kullanma ve ticarete dönüştürme yüksek teknoloji sektörleri ve girişimler için global
yarışta rekabet gücü için önemli ve ekonomik büyüme, verimlilik, sosyal koruma ve genellikle yüksek katma
değer yaratma ve işçilere iyi ödeme yapmanın önemli bir kaynağıdır.Teknolojik güç uluslararası rekabette ve
verimlilik büyümesinde önemli bir faktördür. Teknolojik çaba ekonominin tüm alanlarına aynı şekilde
yayılmıyor. İmalat sanayinin performans ve yapısal değişikliğini teknolojik açıdan analiz etmek çok önemlidir.
Bu çalışmada amaç, sanayi üretim, yıllık imalat sanayi, üretici fiyat endeksleri ve dış ticaret verilerini kullanarak,
yüksek teknoloji faaliyetlerini gerçekleştiren girişim sayısı, ciro, üretim değeri, istihdam, katma değer, ihracat,
ithalat ve üretici fiyat endekslerini analiz etmek ve teknoloji düzeylerine göre üretim endeksi hesaplamaktır.
İmalat sanayinde faaliyette bulunan girişimler ana faaliyetlerine göre yüksek teknoloji, orta yüksek teknoloji,
orta düşük teknoloji ve düşük teknoloji olmak üzere dört ana gruba ayrılmıştır.
2. İMALAT SANAYİNDE GİRİŞİM SAYISI VE İSTİHDAM
Türkiye’de 2010 yılında, imalat sanayinde toplam 299.928 girişim faaliyette bulunmuştur.Yüksek teknoloji
faaliyetlerinde bulunan girişim sayısının imalat sanayindeki girişimlere oranı, 2003-2008 yıllarında ortalama
olarak % 0.69, 2009-2011 yıllarında ise % 0.25 ‘tir. 2011 yılında imalat sanayinde 3.151 bin kişi istihdam
edilmiştir. Yüksek teknoloji faaliyetlerinde istihdam edilen 65 bin kişi, imalat sanayindeki istihdamın %2 sine
denk gelmektedir. İmalat sanayinde istihdam, düşük ve orta düşük teknoloji kullanan faaliyetlerde
yoğunlaşmaktadır.2011 yılında Türkiye’de, yüksek teknoloji faaliyetlerinde çalışan sayısı Almanya’daki aynı
teknoloji düzeyinde çalışanların %10’u, Fransa’nın % 25.5’i, Çek Cumhuriyeti’nin % 72.2’si oranında iken,
Romanya, Hollanda Avusturya ve Portekiz gibi ülkelerden daha fazla istihdam yaratılmaktadır
2.1.CİRO, ÜRETİM DEĞERİ VE KATMA DEĞER
Türkiye yüksek teknoloji faaliyetlerinde, 2010 yılında 8.965 milyon ciro ve 8.388 milyonluk üretim değeri elde
etmiştir. 2010 yılında yaratılan ciro değeri aynı yıl Almanya’da yüksek teknoloji faaliyetlerinde üretilen cironun
% 8.4’üne, üretim değeri ise Almanya’dakinin % 8.5’ine denk gelmektedir.2003-2011 yıllarında ortalama katma
değerin % 70’i düşük ve orta düşük teknoloji faaliyetlerinde yaratılmaktadır. Yüksek teknolojide yaratılan
katma değer 2003-2011 yıllarında ortalama katma değerin % 5.3’üne sahiptir.2004-2011 yıllarında sabit
fiyatlarla ortalama olarak katma değer açısından en fazla büyüme, yüksek teknoloji faaliyetlerinde meydana
gelmiştir. Bu dönemde imalat sanayi % 3,1 büyürken, yüksek teknoloji faaliyetleri% 9,3 büyüme göstermiştir.
2.2.İHRACAT VE İHALAT
Yüksek teknoloji ürünleri ihracatının, imalat sanayinin ihracatı içerisindeki payı % 3 olup, ihracat, ağırlıklı
olarak düşük ve orta düşük teknolojilerde yoğunlaşmaktadır. 2012’de ihracatın % 65.7’si düşük ve orta düşük
yüksek teknolojilere aittir. Yüksek teknoloji ürünleri ithalatının imalat sanayindeki ithalat payı %13 olup,
ithalat ağırlıklı olarak orta düşük ve orta yüksek teknolojilerde yoğunlaşmaktadır. 2011’de ithalatın % 73 ‘ü
orta düşük ve orta yüksek teknolojilere aittir.
2.3.İMALAT SANAYİNDE TEKNOLOJİ DÜZEY ENDEKSLERİ
Bilindiği üzere, Türkiye İstatistik Kurumu, aylık ve dönemsel olarak sanayi üretimi ve ana sanayi gruplarına
göre endeks ve değişimlerini yayınlamaktadır.3 Ana sanayi gruplarına ilave olarak teknoloji düzeylerine göre
endeks oluşturmak ve yayınlamak sanayinin teknolojik gelişim düzeyini izlemek ve ölçmek açısından önemlidir.
Aynı şekilde istihdam, ücret ödemeleri ve dış ticaret verileri kullanılarak ithal ve ihraç edilen ürünlerin
teknoloji düzeyleri ölçülebilir. Yüksek teknoloji imalatı, 2010 yılından beri üretim endeksi ve diğer istatistik
göstergelerinde, imalat sanayi ve sanayinin toplamından daha fazla ve kabul edilebilir bir gelişme göstermiştir.
İmalat sanayi 2011 - 2013 döneminde ortalama % 5.6 büyürken yüksek teknoloji faaliyetleri % 7.2 büyüme
göstermiştir.
3
Sanayi Üretim Endeksinde NACE Rev.2’nin Madencilik ve Taş ocakçılığı (B), İmalat (C), ile Elektrik, Gaz, Buhar
ve İklimlendirme Üretimi ve Dağıtımı(D)sektörleri (07.21,35.12, 35.13, 35.14, 35.2, 35.3 ve 38 hariç) kapsanmaktadır.
117
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Teknoloji Düzeylerine Göre Yıllık Sanayi Üretim Endeksleri (2010=100)
2011
2012
2013
Sanayi (Toplam)
İmalat sanayi
110.1
110.5
112,9
113,0
116,3
117,5
Düşük teknoloji
105,3
109,0
112,9
Orta düşük teknoloji
111,0
113,6
117,2
Orta yüksek teknoloji
116,6
116,1
124,0
Yüksek teknoloji
117,6
124,9
122,0
3.SONUÇ VE ÖNERİLER
Türk imalat sanayi, 2003-2011 yıllarında incelenen göstergeler açısından ( ciro, üretim değeri,
istihdam ve katma değer) düşük ve orta düşük teknoloji faaliyetlerinde yoğunlaşmaktadır. 2011
yılında; (i) istihdamın % 80 i, (ii) Katma değerin % 70 i, (iii) İhracatın % 65’i düşük ve orta düşük
teknoloji faaliyetlerinde bulunmaktadır. Yüksek teknoloji faaliyetlerinde yaratılan istihdam, ciro,
üretim değeri ve katma değer gelişmiş AB ülkelerinin hayli gerisindedir. Türk imalat sanayinin yüksek
teknoloji faaliyetlerinde, 9 yılda birikimli olarak yaratılan ciro değeri, Almanya’da bir yılda yaratılan
ciro değerinin % 73,5 ‘i kadardır. Türkiye en çok orta yüksek teknoloji ürünlerini ithal etmektedir.
Türk imalat sanayi, 2013 yılından itibaren orta yüksek teknolojiye geçiş çabası göstermektedir.
Türkiye ekonomisindeki değişimleri takip edebilmek ve sanayi politikaların geliştirilmesine yardımcı
olmak için Türkiye İstatistik Kurumu, teknoloji düzey endeksleri hesaplayarak aylık ve dönemsel
olarak üretim, istihdam, ücret ödemelerini, ithalat ve ihracat endekslerini yayınlayabilir.
KAYNAKLAR
1. Eurostat. High-techstatistics. 2013
2. NACE
Rev.1.1.
Ekonomik
Faaliyetlere
Göstergeler.http://www.tuik.gov.tr/PreTablo.do?alt_id=1035.
Bazı
Bazı
Temel
Temel
3.
NACE
Rev.1.1,
Ekonomik
Faaliyetlere
http://www.tuik.gov.tr/PreTablo.do?alt_id=1076
4.
Thomas JAEGERS. Carmen LIPP-LINGUA. Digna AMIL. High-technologyandmediumhightechnologyindustries main drivers of EU-27's industrialgrowth.Eurostat. ISSN:19770316 Cataloguenumber:KS-SF-13-001-EN-N
TUİK. Avrupa Topluluğunda Ekonomik Faaliyetlerin İstatistik Sınıflaması. 2010.
TUİK. Türkiye İstatistik Yıllığı. Ankara 2011&2012.
5.
6.
Göre
Göre
Göstergeler.
TURKISH INDUSTRY PRODUCTION TECHNOLOGY PRODUCTION LEVELS
In this study, the level of technology, specially high level technology in Turkish
manufacturing industry, have been analyzed in terms of number of enterprises, turnover, production value,
employment, value added, export, import and domestic producer price indices and in addition to that
production indices have been calculated according to level of technology.
Key Words: Statistical Classifications, Technology Level, Production Indices
118
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 5
STATISTICS in SOCIAL SCIENCES
119
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Implications of Early Warning Modeling Approach to Corporate
Strategic Planning: A Case Study of the Turkish Higher Educational
System.
Prof.Dr.E. Abdülgaffar Ağaoğlu
Yeditepe University, Department of Business Administration
34755 Kayışdağı Campus, İstanbul, Turkey
agaoglu@ yeditepe.edu.tr
[email protected]
Key Words: Turkish Higher Education System; Econometrics; Statistical Analysis; Discriminant
Analysis; Turkish Foundation Universities; Turkish Public Universities; Analysis of Higher Education; Quality
of Private Education; Strategic Planning of the Higher Education, Early Warning Models.
With the first foundation university founded in 1985, Turkey had 31 universities in total. At the
beginning of year 2011, there were 166 universities (including 9 private vocational schools). 102 of these were
public universities (61.45%); 55 (33.50%) were initiated by foundations; and their were 9 (5.40%) private
vocational schools of higher education. Student population of the foundation universities exceeded 10% of the
total by the end of 2013. The phenomenon, however, is relatively new and expanding on a very rapid pace.
Within this perspectice, the content of this article would be based upon the clustering and elaboration of
the basic strategic determinants of the “Turkish Higher Education System” with special focus on “Foundation”,
and “Public” University” groupings. Beginning with emphasis upon the student selection characteristics of the
University Entrance Examination System (ÖSYS), we try to capture and interpret a set of multiple modules used
for different departments of the universities. However, in this study, we have restricted ourselves to Business
Administration and Economics Departments which are present in all universities, hence they can serve as a valid
full population case study. In this respect, the domain of this study is composed of the overall population, thus
avoiding “Validity” and “Reliability” problems, as well as “Sample Biases” regarding the “0-1 Dummy
Regression Model” used. The model serves the purpose of discriminating the 2 university groups based upon
discrimination analysis approach of the relevant variables.
The model is primarily run as a 0-1 dummy regression, having 0 and 1 for “Public”, and “Foundation”
universities, respectvely, Data for 2003 and 2009 is being subjected to each individual independent variables,
namely, “Number of seats available”, “Number of Seats Left Unoccupied”, and the “Scores Achieved”.
Individual descriptive statistics has been derived for each variable.
Secondly, all institutions of the Higher Education are then classified according to type of degrees being
offered, namely, 2-year vocational schools, versus 4-year schools of applied sciences and 4-year faculties
(together) according to major regions of Turkey. Region-wise analysis of the privately founded versus public
institutions of higher education clearly iterate important dimensions of educational privatization in Turkey. The
dilemma indicates an early warning signal for the regional implications of “Strategic Planning of the Turkish
Higher Education System”, and renders enormous re-planning as well a growth potential.
It seems that the dilemma can only be handled if “Regional-Based” macroeconomic policies go side by
side with the “Re-Engineering of the Educational System”. These results have further been supplemented by
Descriptive Statistics. The initial runs of the model reflects that “The Two Population Groups” discriminate
themselves on the basis of above variables, thus rendering “Economies of Scale” as well as “Economies of
Scope” problems inherited within the overall system. This sheds light on the sustainability issues regarding any
higher educational system which is a “MUST” pre-requisite for “Innovation”, “Creativity”, and
“Entrepreneurship Development”. Important implications of this study has made it possible to develop further
platforms of research, which may include the Turkish Republic of North Cyprus, and other Foreign Universities
on the list of Turkish Student Selection Board (ÖSYM). A possible extension of the study can focus upon
Vocational Schools, rendering strategies for Vocational Education Planning, and many other areas. Most
important of all, the study covers a history of higher educational thought for the Turkish Case Sudy, which can
serve as a foundation for cross-cultural research. Turkey and BRICS; Turkey and Shangai Cooperation
Organization (SCO: Shangai Pact); Turkey and Eurasian Region; and Turkey and EU, etc. are the most relevant
areas where this study can be most extended.
120
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
The Investigation of Factors that Affect the Quality of Financial Reporting:
Evidence from Borsa Istanbul
E.Abdulgaffar AGAOGLU
Yeditepe University, Faculty of Economics and Administrative Sciences, Department of
Business Administration, Postal Code 34755, Istanbul, Turkey E-mail:
[email protected]
Ahmet OZCAN*
Adana Science and Technology University, Faculty of Business, Department of Management
Information
Systems, Postal Code 01120, Adana, Turkey E-mail: [email protected]
ABSTRACT
As the world economy is becoming much more globalized than before, the importance of financial
information disseminated by business entities increases. Financial reporting process plays a pivotal role in the
global business environment, since it primarily exists to create financial information needed by financial market
participants. For the business entities, the compliance with International Financial Reporting Standards (IFRS)
is the most important priority in the financial reporting process. In the current business climate, financial market
participants, creditors, investors, stockholders and government authorities, pay close attention to the quality of
financial statements prepared by the business entities. This is because the lack of good quality and timely
financial information available to financial market participants can lead irrational and incorrect investment
decisions. The past experiences show that the quality offinancial reporting have a massive impact on not only
business entities’ operations but also upon the economic development of country. The investigation of factors
that influence the quality of financial reporting has been well documentedfor the developed countries. Yet, there
are few research papers regarding the investigation of factors affecting financial reporting quality for emerging
countries.
This study seeks to investigate the factors that influence financial reporting quality in Turkey.
Undoubtedly the factors that affect the quality of financial reporting may vary according to the accounting
standards, tax rules, the industry in which business entities operate and the level of economic development.
Additionally, the determination of factors that may mitigate the financial reporting quality enables policymakers
to design a model that makes significant progress toward the development of the quality of financial reporting
quality. The quantitative model of this study would be helpful in detecting firm-specific factors that mitigate the
quality of financial reporting. Furthermore, the model also contributes massively to enhancing the quality
evaluation of financial reporting process.
In this paper, we begin with the examination of theoretical aspects through previous research studies,
and then use univariate tests and logit model for Borsa Istanbul to examine the relationship that exists between
the financial reporting quality and firm-specific factors such as corporate governance characteristics and
accounting ratios. Data belonging to 20072014 is used with the quality of financial reporting as a dichotomous
variable andfirm specific factors as independent variables.
Keywords: Accounting and Auditing; Financial Economics; Financial Econometrics; Multivariate
Modelling;.
JEL Codes: B26; C03; C58; M41
121
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
REFERENCES:
Anderson, R. C., Mansi, S. A. and Reeb, D. M. (2004), “Board characteristics, accounting report
integrity, and the cost of debt”, Journal of accounting and economics, Vol. 37 No.3, pp. 315342.
Barth, M. E., Landsman, W. R., and Lang, M. H. (2008), “International accounting standards and
accounting quality”, Journal of accounting research, Vol. 46 No.3, pp. 467498.
Beasley, S.M., Carcello, J.V. and Hermanson, D.R. (1999), “Fraudulent financial reporting:
1987-1997: an analysis of US public companies”, Research Report, COSO.
Christensen, H. B., Lee, E., Walker, M., and Zeng, C. (2015), Incentives or standards: What
determines accounting quality changes around IFRS adoption?, European Accounting
Review, Vol. 24 No.1, pp. 31-61.
Jensen, M. C. and Meckling, W. H. (1976), “Theory of the firm: Managerial behavior, agency
costs and ownership structure”, Journal of financial economics, Vol.3 No.4, pp. 305-360.
122
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MODELLING OF RESIDENTIAL SALES PRICE WITH KRIGING
USING DIFFERENT DISTANCE METRICS IN DIFFERENT
CORRELATION FUNCTIONS
Semra Erpolat TAŞABAT*, Olgun AYDIN
Mimar Sinan University, Faculty of Science, Statistics Department, Şişli, Istanbul, TURKEY.
[email protected]
1.
KRIGING METAMODELLING
Kriging metamodeling technique that can be mathematically expressed as below[1];
ŷ
 ˆ  r ' R1 (Y  1ˆ )
(1)
In this equation, is the predicted response value of unknown x (infill sampling point) and
is the
mean of the stochastic process. Y is the response value of a design point .The correlation matrix R gives the
correlation between all of design points (Eq.2 ). The correlation vector r gives the correlation between infill
sampling point and design points (Eq.3)[1].
ph 
 k
R  exp   h xh (i )  x ( j )  , h  0, ph  1, 2
 h 1

k
2

ri  exp   h xh  xh (i )  ,  h  0
 h 1

(2)
(3)
Maximum Likelihood Estimation is used for predicting θ parameters. Assuming
distribution, likelihood function ( L ) can be written as follows
 ( y  1 )'R -1 ( y  1 ) 
L
exp 

n
n
2
1
2

2


(2 ) 2 ( ) 2 R 2
Y has a normal
1
(4)
After obtaining  parameters which maximize likelihood function, Kriging model must be validated. For
this purpose well known Cross-validation method is used for validation. In this method, a prediction is generated
with one data point excluded from the data set. Then check whether that data point falls within a certain
confidence interval for the prediction. If the test fails, appropriate transformations such as log or inverse may be
applied to the response values[2].
2.DISTANCE METRICS
A metric or distance function is a function d(x,y) that defines the distance between elements of a set as a non-negative real
number. If the distance is zero, both elements are equivalent under that specific metric. Distance functions thus provide a way
to measure how close two elements are, where elements do not have to be numbers but can also be vectors, matrices or
arbitrary objects. Distance functions are often used as error or cost functions to be minimized in an optimization problem[3].
123
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
3. ABSTRACT
Modelling and estimating sales prices based on economical conditions is so critical for housing sector. In
this study, firstly; investigated economic variables effected mostly to housing sales prices for different cities and
then created kriging model for housing sales prices provided from REIDIN.
For effective kriging model, need to select most effective correlation functions with optimum correlation
function parameters. To determine best correlation function structure and correlation parameter, used different
distance metrics for both Exponential and Gaussian correlation functions. Optimum correlation function
parameter was obtained based on Maximum Likelihood Estimation (MLE) procedure. To detect normalize of
data, used Focused Information Criteria (FIC). Based on Cross Validation criteria selected best distance metric,
best correlation function with optimum parameters.
This is the first study based on comparing different kriging models for modelling housing sales prices.
For comparing best model, cross validation method was used. Calculated standardized residuals according to
cross validation method. One of the results comparing euclidian and canberra distance in Gaussian correlation
function showed us canberra distance is better than euclidian distance when using Gaussian correlation function
for the model economic situation vs. housing sales prices in Dubai.
REFERENCES
[1] D. R. Jones, M.Schonlau and W. J. Welch(1998), Efficient Global Optimization of Expensive Black-Box
Functions, Journal of Global Optimization.
[2] M. Schonlau,(1997),ComputerExperimentsand Global OptimizatonPhD. Thesis. University of
Waterloo,Canada., 2002.
[3] Jirı Matousek. (2002) Lectures on discrete geometry, volume 212 of Graduate Texts in Mathematics.
Springer, New York.
Key Words: Kriging, Distance Metrics, Maximum Likelihood Estimation, Housing Price, Economical
Conditions.
124
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
The Inventorial Determinants of Strategic Planning in the Turkish
Higher Education System: A Multivariate Case Study of Higher Education
in Decision and Statistical Sciences
Prof.Dr.E. Abdülgaffar Ağaoğlu
Yeditepe University, Department of Business Administration
34755 Kayışdağı Campus, İstanbul, Turkey
agaoglu@ yeditepe.edu.tr
[email protected]
Feride Gülçin Ağaoğlu
T.C.Kalkınma Bankası, Retired
Istanbul, Turkey
[email protected]
This research begins with the conceptual discussion of educational aspects of “Mathematical
Sciences”. While we pick up “Decision Sciences” and “Statistical Sciences” through this discussion;
we attept to derive the place of this education within the domain of Turkish Higher Educational
System. The research continues to pick up macro-policy dimensions of strategic planning through
these initial stages of our research. The overall skeleton of this learning exercise is then channelized
towards the ingredients of “Faculties of Arts and Sciences” with programs placing students with the
same type of examination scores. Within this perspective and background characteristics, this study
would serve as the very first of its nature in the Turkish literature of higher education. The study
would also attempt to depict an inventorial perspective of higher education in the areas of
Mathematical Sciences.
Student selection characteristics of the Turkish University Entrance Examination System
(ÖSYS), however, is oriented to department wise (academic program wise) selections utilizing various
test modules, which makes it almost impossible for all “Mathematical Sciences” to be placed with,n
the same data matrix. We therefore pick up “Statistical Sciences” as a prototype, and place them
within the cluster of programs taking student inputs with the same type of examination scores. The
analysis of the science cluster programs of “Faculties of Arts and Sciences”, or simply “Faculties of
Sciences” is based upon Physics, Chemistry, Mathematics, Biology, and Statistics. We, on the other
hand, bring programs of the Faculties of Administrative Sciences and Economics side by side, and
analyze “Econometrics” which lies within these faculties with different placement criterions, in
comparison to the science cluster.
We base this initial study upon bench marking “Business Administration and Economics
Departments” of the universities as a non mathematical science cluster to compare and contrast
“Econometrics” programs of these faculties. The advantage of such a selection is that almost all
universities tend to have these favorite departments in their portfolios. Thus, it is possible to handle
“Statistical Sciences” without any missing data problem; moreover such a minimum missing data
approach would easily avoid any “Validity” and “Reliability” problems, which are mostly confronted
in quantitative approach such as of this study. Most importantly, this approach is very much in line
with the theme of this conference; intending to have a session on “Statistics Education”. Such a motive
will help us to initiate an inventory perspective within the Turkish Higher Education System, which
would then be able to provide a strategic planning base for micro and macro analysis. Further
125
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
strength of this study is that it introduces cross checks the regional attraction clusters for the above
domain. These regional based cross checks develop a platform for another forthcoming study.
The study indicates the existance of enormous bottlenecks, and such bottlenecks do exist when
the competition in the higher education industry is “Imperfect” due to the presence of two groups with
conflicting competitive edges. Any policy orientation what-so-ever, needs to concentrate upon this
dilemma, and take corrective actions before any long term macro-based strategy can be designated for
long terms, for example, beyond 2023. This study is expected to be the major theme of any other
research intending to cover “Inventorial” , as well as “Regional” perspective of the Turkish Higher
Education System.
126
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 5
İSTATİSTİK TEORİSİ 2
127
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
UYARLANMIŞ OPTİMAL TAHMİN EDİCİNİN PERFORMANSI
Nimet ÖZBAY*, Selahattin KAÇIRANLAR
Çukurova Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, O1330, Adana, Türkiye
[email protected], [email protected]
1. Giriş
Lineer regresyon modelinde en küçük kareler (OLS) tahmin edici bilinmeyen regresyon parametrelerinin
tahmini için kullanılan en iyi lineer yansız tahmin edicidir. Öte yandan, lineer ve yansız olma kriterleri ihmal
edildiğinde OLS tahmin ediciye alternatif tahmin yöntemleri geliştirilebilir. Bu tahmin yöntemlerinden biri
minimum hata kareler ortalaması (MSE) tahmin yöntemidir (Rao, 1971).
Fakat, minimum MSE tahmin edici bilinmeyen parametreler içerdiğinden, tam anlamıyla bir tahmin edici
olarak düşünülemez. Bu problemin çözümü için Farebrother (1975), uyarlanmış optimal (AO) tahmin ediciyi
önermiştir. AO tahmin edicinin performansını incelemek için pek çok çalışma yapılmıştır fakat bu çalışmalarda
uyumun iyiliği kriteri ihmal edilmiştir. Zellner (1994), uyumun iyiliği ve tahminin iyiliği kriterlerini birlikte ele
alan dengelenmiş kayıp fonksiyonunu (ZBLF) tanımlamıştır. Daha sonra, Shalabh ve ark. (2009), ZBLF’yi
genişleterek uyumun iyiliği ve tahminin iyiliği kriterleri ile birlikte bu kriterler arasındaki ilişkiyi eş zamanlı
olarak içeren genişletilmiş dengeli kayıp fonksiyonunu (EBLF) tanımlamıştır.
Bu çalışmada AO tahmin edicinin performansı EBLF altında risk kriterinin kullanılmasıyla teorik olarak
incelenmiştir. Bulunan teorik sonuçlar, sayısal örnek ve simülasyon çalışmasıyla desteklenmiştir.
2. Model ve Tahmin Edici
y  X u
(1)
lineer regresyon modeli ele alınsın. Burada
açıklayıcı değişkenler matrisi,
 : p 1
y : n1 gözlemler
vektörü,
X : n p
tam kolon ranklı
bilinmeyen parametreler vektörü ve u : n1 , E  u   0 ve
Cov  u    2 I n olan hatalar vektörüdür. (1) modeli için OLS tahmin edici
ˆ  ( X  X )1 X  y
şeklindedir. Ayrıca,
s2 
(2)
1
( y  X ˆ )( y  X ˆ ) olmak üzere Farebrother (1975), AO tahmin
n p
ediciyi aşağıdaki formda tanımlamıştır:
ˆF 
ˆ  X  y
ˆ .
2
ˆ
ˆ
s   X X 
(3)
 ,  ’nın herhangi bir tahmin edicisi olsun. t1 ve t2 0 ile 1 arasında tanımlı sabitler olmak üzere
EBLF (  )  t1 ( X   y)( X   y)  t2 (    ) X ' X (    )
(1  t1  t2 )( X   y) X (    )
(4)
formunda tanımlanmıştır (Shalabh ve ark., 2009).
3. Uygulama
Bu çalışmada elde ettiğimiz teorik sonuçları sayısal örnekle desteklemek için Woods ve ark. (1932)
tarafından oluşturulan Portland çimento verisi kullanılacaktır. Ayrıca önceki bölümde verilen tahmin edicilerin
risk performanslarını EBLF altında karşılaştırmak için Monte Carlo simülasyon çalışması yapılacaktır.
128
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
4. Sonuçlar
Sayısal örnek ve Monte Carlo simülasyon çalışması sonucunda, AO tahmin edicinin OLS’den daha iyi
sonuçlar verdiği risk değerleri ve grafikler yardımıyla gösterilmiştir.
KAYNAKLAR
[1] Rao CR. (1971), Unified theory of linear estimation. Sankhya A, 33, 371-394.
[2] Farebrother RW. (1975), The minimum mean square error linear estimator and ridge regression.
Technometrics, 17, 127-128.
[3] Zellner A. (1994), Statistical Decision Theory and Related Topics V, Springer-Verlag, New York, Chapter
4, Bayesian and non-bayesian estimation using balanced loss functions, 377-390.
[4] Shalabh, Toutenburg H, Heumann C. (2009), Stein-rule estimation under an extended balanced loss
function. J. Stat. Comput. Simul., 79, 1259-1273.
[5] Woods H, Steinour HH, Starke HR. (1932), Effect of composition of Portland cement on heat evolved
during hardening. Ind. Eng. Chem., 24, 1207-1241.
ABSTRACT
THE PERFORMANCE OF THE ADAPTIVE OPTIMAL ESTIMATOR
Several adaptive versions of the minimum mean squared error estimator of the coefficient vector in a
linear regression model are introduced and discussed by many authors but the goodness of fitted model criterion
is quite often ignored which is used to investigate the performance of estimators. Therefore, Shalabh et al.
(2009) proposed the extended balanced loss function in which the mean squared error, the Zellner’s balanced
loss function and the predictive loss function are just special cases of it. In this paper, we discuss the
performance of the ordinary least squares estimator and the adaptive optimal estimator of Farebrother (1975)
under the extended balanced loss function using the risk criterion. Moreover, a numerical example and a Monte
Carlo simulation experiment are presented.
Keywords Linear regression model; Extended balanced loss function; Ordinary least squares estimator;
Adaptive optimal estimator; Large sample properties
129
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İKİ YÖNLÜ KUVVET DAĞILIMININ KONVOLÜSYONUNUN TAM
DAĞILIMI
Selim GÜNDÜZ- Ali İhsan GENÇ
Çukurova Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü Adana-Türkiye
[email protected][email protected]
1.
İki Yönlü Kuvvet Dağılımı
Bu kısımda, özellikle risk ve belirsizlik problemlerinde yararlanılan beta dağılımına alternatif olarak
kullanılması için
aralığında tanımlı iki yönlü kuvvet (TSP) dağılımı tanıtılacaktır. TSP dağılımının
olasılık yoğunluk fonksiyonu (1) numaralı eşitlikle tanımlanmıştır (Van dorp ve Kotz, 2002a, 2002b).
(1)
dağılımında bulunan parametrelerden
ve
parametreleri tanım uzayının sınır noktaları
olarak,
şekil parametresi ve
ise eşik parametresi olarak tanımlanabilir.
dağılımına sahip
rastgele değişkeninin olasılık yoğunluk fonksiyonu, parametrelerinin aldığı değerlere göre farklı şekiller
almaktadır ve bazı değerlere göre aldığı durumlar Şekil 1 de verilmiştir.
Şekil 1. Farklı
2.
ve
değerleri için TSP dağılımının grafikleri
Rastgele Değişkenlerin Konvolüsyonlarının Dağılımı
Uygulamalı ve teorik bilimlerin pek çok alanında karşılaşılan problemlerin içinde,
rasgele değişkenlerin çeşitli cebirsel kombinasyonlarının dağılımları azımsanmayacak ölçüde
yer tutmaktadır. X ve Y rastgele değişken olmak üzere bu kombinasyonlarda da genellikle
ve
fonksiyonlarının dağılımları öne çıkmaktadır. Örneğin TSP
dağılımlı bağımsız iki rastgele değişkenin çarpımının dağılımı (Gündüz ve Genç, 2015). Bu
çalışmada da
ve
bağımsız iki rastgele değişken olmak
üzere,
nin tam dağılımı bulunuşu anlatılacaktır. Z nin dağılımı Van Dorp ve Kotz
130
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
(2003) tarafından [0,1] aralığında tanımlı genel bir aile için ele alınmıştır. Tam dağılımının
bulunmasında karşılaşılan yoğunluk fonksiyonlarının parçalı tanımlı olmalarından ötürü
bu integralin hesaplanmasında dört farklı durum ve her bir duruma ait üç farklı alt
durum ortaya çıkmaktadır. Tüm durum ve alt durumlar Tablo 1 deki gibi verilebilir.
Tablo 1. İki rastgele değişkenin toplamının olasılık yoğunluk fonksiyonunu belirlemedeki durumlar ve alt
durumlar
Durumlar
Alt Durumlar
Tam dağılımı elde edildikten sonra bu dağılımın şekil analizi, momentleri ve yüzdelik değerleri
verilecektir. Son olarak suni bir veri kümesi üzerinde modelleme yapılacaktır.
KAYNAKLAR
[1] Gunduz S., Genç A.I. 2015b. ” Distribution of the Product of a Pair of Independent Two-Sided Power
Variates”, Communications in Statistics -Theory and Method, DOI:10.1080/03610926.2014.957861.
[2] Van Dorp, J. R., Kotz, S. 2002a. The standard two-sided power distribution and its properties: with
applications in financial engineering. The American Statistician, 56.
[3] Van Dorp, J. R., Kotz, S. 2002b. A novel extension of the triangular distribution and its parameter estimation.
The Statistician, 63-79.
[4] Van Dorp, J.R., Kotz, S. 2003. Generalizations of Two-Sided Power Distributions and Their Convolution,
Communications in Statistics – Theory and Methods, 32:9, 1703-1723.
.
ABSTRACT
EXACT DISTRIBUTION OF THE CONVOLUTION OF THE TWO SIDED POWER (TSP)
DISTRIBUTION
Some of the major challenges in statistics related disciplines belong to determining the distributions of
numerous algebraic combinations of random variables and many of these problems are related to convolution
forms of these variables. In this paper, we study the convolution of two independent TSP distributed random
variables to obtain closed form expressions for its exact distribution. Although one can use a simulation method
to compute probabilities involving the convolution approximately, the main aim of this paper is to find a closed
form expression for the pdf of the sum so that one can compute the probabilities precisely.
Key Words: Distributions with bounded range, Function of random variables, Two-sided power distribution
131
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SARMAL RİCHARD DAĞILIMI
Arzu EKİNCİ DEMİRELLİ
Fırat Üniversitesi Fen Fakültesi İstatistik Bölümü
E-mail:[email protected]
1. Richard Dağılım Fonksiyonu
aralığında aşağıdaki formda tanımlanır,
(1)
Richard yoğunluk ve dağılım fonksiyonları ise sırasıyla aşağıdaki şekildedir,
Richard link fonksiyonu
(2)
(3)
Richard link fonksiyonu istatistiksel veri analizinde yoğun olarak iki grup lojistik ayrımsamada
kullanılmaktadır. Standart lojistik dönüşümden daha esnek bir yapıya sahip olması Richard eğrisinin lojistik
dönüşüme göre bir avantajıdır. Ancak buna karşılık parametrelerinin en çok olabilirlik tahmin edicilerinin elde
edilememesi ise fonksiyonun bir dezavantajıdır. Bu çalışmadaki amacımız: literatürde son yıllarda oldukça ilgi
gören dairesel dağılımlar ailesine Richard dağılımını katabilmektir. Dairesel dağılımlar literatürde iki türlü
karşımıza çıkmaktadır. Bunlardan ilki Von Misses dağılımıdır. Bu dağılım Bessel fonksiyonunun özelliğinden
yararlanılarak elde edilmiştir. Dağılımın yoğunluk fonksiyonu aşağıdaki şekildedir,
(4)
Burada
sıfırıncı dereceli modifiye edilmiş Bessel fonksiyonudur. Bu dağılımda trigonometrik
fonksiyonlar dağılım içerisinde kendiliğinden yer almaktadır. İkinci tür dairesel dağılımlar ise dağılım
fonksiyonunun sonradan sarmal şekle getirilmesiyle oluşturulabilmektedir. Bu tip dağılımların başında da sarmal
normal ve sarmal Cauchy dağılımları gelmektedir. Bunlara ilaveten sarmal Richard dağılımı aşağıdaki formda
oluşturulmaktadır.
Pozitif yarı eksende tanımlı olan Richard dağılımı için aynı uygulamayı yapmaya çalışalım.
ve
periyod uzunluğuna sahip olan bir tesadüfi değişken olsun. Richard yoğunluk fonksiyonu
olmak
üzere sarmal yoğunluk fonksiyonu aşağıdaki şekilde yazılacaktır,
(5)
Sarmal Richard yoğunluk fonksiyonunun
aralığındaki integrali,
olacak şekilde elde edilebilir. Sarmal Richard dağılımı ile alt aralıklarda tanımlanan Richard dağılımları
yapısal olarak benzerlik göstermektedirler. Her bir alt aralık aynı periyot uzunluğuna sahip olarak alındığında ve
dağılımlar, aralıklar birbirini takip edecek şekilde devam ettirildiğinde pozitif yarı eksende tanımlı sarmal
Richard dağılımı benzer şekilde elde edilmiş olacaktır. Ancak bu işlemde katsayılar uygun şekilde
değiştirilmelidir.
Kaynaklar
[1] Abramowitz, M. and Stegun, I.A. (Eds.) (1964) “Handbook of Mathematical Functions, Applied
Mathematics Series’’, Vol. 55. National Bureau of Standards, US Department of Commerce,Washington, DC.
[2] A. Gregorczyk (1998) “Richards Plant Growth Model” J. Agronomy and Crop Science, 181, 243-247.
[3] Scott Menard (2002) “Applied Logistic Analysis”, Sage Publications Inc. California, 106 p.
[3] Gatto, R., Jammalamadaka, S. (2007) The generalized von Mises distribution. Stat Methodol 4, 341353.
WRAPPED RICHARD DISTRIBUTION
We investigate new wrapped distribution obtained from Richard link function. In the literatüre many
probability distributions via normal, Caush, etc. used wrapped form. In this point important thing wrapped
distribution must be flexible. Due to this feature from Richard link function is useful. Whereas the Richard link
function does not have a distribution form and analitical solution of parameter estimation. In this study we
examined properties of wrapped Richard distribution.
Key
words:
Richard
curve,
Link
132
Function,
wrapped
distribution.
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÇOKLU UNUTMA FAKTÖRÜ İLE UYARLI KALMAN FİLTRESİ
Cenker BİÇER*
Levent ÖZBEK
Kırıkkale Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü
Kırıkkale/Türkiye
Ankara Üniversitesi
Fen Fakültesi
İstatistik Bölümü
Ankara/Türkiye
[email protected]
[email protected]
Kalman filtresi dinamik sistemlerin durum tahmini probleminin çözümünde kullanılan en popüler ve çok
farklı alandan uygulamalara sahip bir yöntemdir. Dinamik sistemin karkteristiklerinin tam olarak bilinmesi ve
hataların Normal dağılımlı olması varsayımı altında Kalman filtresi en iyi tahmin performansına sahiptir. Ancak
uygulamalarda sistem parametrelerinin tam olarak bilinememesi veya kısmen bilinmesi gibi durumlar altında
Kalman filtresinin tahmin performansında ciddi düşüşler ile karşılşılmakta veya filtre tahminleri güncel
değerlerden tamamen ıraksaya bilmektedir. Literatürde Kalman filtresi tahminlerindeki ıraksama problemin
önüne geçebilmek için farklı yöntemlerin önerildiği çok sayıda çalışma vardır. Sistem karakteristiklerindeki bilgi
eksikliğinden veya farklı sebeplerden kaynaklanabilecek, filtre tahminlerindeki bu ıraksama probleminin önüne
geçebilmek ve tahmin performansını artırabilmek için yapılan bu araştırmaların büyük bir kısmında,
araştırmacılar tarafından filtre eşitliklerine skaler bir unutma faktörünün eklenmesi önerilmiştir. Ancak önerilen
farklı adaptif yöntemler arasında; Unutma faktörünün Kalman filtresi eşitliklerinde nasıl yer alacağı ve optimal
unutma faktörünün hesaplamasının nasıl yapılacağı, olmak üzere iki temel farklılık vardır. Bu problem henüz
tam olarak çözüme kavuşmamış ve halen açık olan bir problemdir.
Kalman Filtresinin skaler bir unutma faktörüyle uyarlanması tek değişkenli sistemler için bir başarım
artışı sağlasa da, çok değişkenli sistemlerde modelleme hatası her değişken için farklı oranlarda olabileceğinden
dolayı, skaler unutma faktörü yerine çoklu unutma faktörü kullanılmalıdır. Bu çalışmada, çok değişkenli
sistemlerde de kullanılabilecek çoklu unutma faktörlerinin kullanıldığı adaptif bir yöntem önerilmiştir. Ayrıca
önerilen yöntemin Kalman filtresi tahminlerinde sağladığı performans artışı, bir kompartman modeli üzerinde
yapılan simülasyon çalışması ile örneklendirilmiştir.
KAYNAKLAR
[1] Bicer C, Babacan E. K, Özbek L. (2012) Stability of the adaptive fading extended Kalman filter with the
matrix forgetting factor, Turkish Journal of Electrical Engineering & Computer Sciences, Vol: 20, No: 5,
819-833.
[2] Geng Y, Wang J, (2008) Adaptive estimation of multiple fading factors in Kalman filter for navigation
applications, GPS Solution, Vol: 12, 273-279.
[3] Grewal S, Andrews A. P (2008) Kalman Filtering Theory and Practice Using Matlab, John Wiley & Sons
Inc. USA.
[4] Xia Q, Rao M, Ying Y, Shen X (1994) Adaptive Fading Kalman Filter with an Application, Automatica,
Vol. 30, No 8, pp.1333-1338.
[5] Özbek L, Aliev F. A (1998) Comments on “Adaptive Fading Kalman Filter with an Applications”,
Automatica, 34(12):1163-1164.
ABSTRACT
ADAPTIVE MULTIPLE FADING KALMAN FILTER
Kalman filter (KF) is most popular estimation technique for solving state estimation problems of
dynamical systems. As long as the system characteristics are correctly known and under the Gaussian
assumption, KF will run the best estimation performance. However, performance of the KF will decrease when
the system characteristics are either unknown or partially known. A many works has been published in order to
overcome the performance decreasing problem in the KF, hitherto. This paper is motivated adaptation to KF
with the multiple fading factors and a method suggested for this aim. Also, a simulation study is conducted to
verify for work results.
133
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Key Words: State estimation, Kalman Filter, Fading Factors, Adaptive Fading Kalman Filter, Dynamical
systems
SESSION 5
UYGULAMALI İSTATİSTİK 2
134
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SAĞLIK SEKTÖRÜNDE BÖLGELER ARASINDA
ETKİNLİĞİN İNCELENMESİ
Mehmet ÖKSÜZKAYA*
Kırıkkale Üniversitesi İktisadi ve İdari Bilimler Fakültesi Ekonometri Bölümü
[email protected]
Bu çalışmanın kapsamı doğrultusunda Sağlık Bakanlığı'nın her yıl düzenli olarak yayınladığı İstatistiki Bölge
Birimleri Sınıflandırması (İBBS-1) kullanılarak Türkiye; Akdeniz, Batı Anadolu, Batı Karadeniz, Batı Marmara,
Doğu Karadeniz, Doğu Marmara, Ege, Güneydoğu Anadolu, İstanbul, Kuzeydoğu Anadolu, Ortadoğu Anadolu
ve Orta Anadolu olmak üzere 12 farklı bölgeye ayrılmıştır. Araştırmanın temel amacı, bölgelere göre Sağlık
Bakanlığı’na bağlı hastanelerin etkinlik ve verimliliğinin değerlendirilmesidir. Etkinliğin ölçümü için parametrik
olmayan Veri Zarflama Analizi tekniği kullanılması düşünülmektedir. Veri Zarflama Analizi çerçevesinde,
ölçeğe göre Sabit Getiri (CCR) ve ölçeğe göre değişken getiri (BCC) modelleri kullanılarak bölgeler bazında
farklılıklar değerlendirilecektir. Etkinlik ölçümünde kullanacağımız girdiler; uzman hekim, pratisyen hekim, ebe
ve hemşire sayıları ile yatak sayıları iken, ameliyat sayısı, kişi başı hastanelere müracaat sayısı ve yatan hasta
sayısı ise çıktı olarak kullanılması planlanmaktadır. Elde edilen sonuçlara göre hangi bölgelerin etkin hangi
bölgelerin etkin olmadığı tespit edilerek, etkin olmayan bölgeler için potansiyel iyileştirme önerileri
geliştirilecektir.
İsteklerin sınırsız kaynakların sınırlı olduğu bir dünyada etkinlik ve verimlilik ilgili kavramların önemi hiçbir
zaman azalmamıştır. Her türlü mal ve hizmet üretiminin bir emek sonucu ortaya çıktığı düşünülecek olursa,
kaynakların sınırsız olduğu hayali bir dünyada bile etkinlik ve verimlilik kavramlarının insan hayatındaki önemi
yadsınamaz. Günümüzde bütün ülkeler kalkınma planları içerisinde hayati önem sahip kıt kaynakların
kullanımını etkin kullanılacak biçimde planlamaktadır. Bu yüzden yapılan her türlü harcama ekonomik olarak
analiz edilerek, yapılan harcamaların amaca uygun olup olmadığı incelenmektedir. Bu durumun en çarpıcı
örneği; dünya genelinde yapılan sağlık harcamalarının hem gelişmiş hem de gelişmekte olan ülkeler için
göstermiş olduğu artış trendidir.
Her bir ülkenin iktisadi faaliyetlerini en verimli şekilde sürdürebilmesi için öncelikle en kıymetli sermayesi olan
insanın sağlık şartlarının iyileştirilmesine bağlıdır. Gelişmekte olan tüm ülkelerin kalkınabilmelerindeki temel
unsur olan insanın yaşamış olduğu ülkedeki sağlık hizmetlerinden faydalanabildiği ölçüde kendi ülkesine katkıda
bulunabileceği ihmal edilemez bir gerçektir. Gelişmiş ülke olabilmenin ön şartlarından biri de sağlıklı
vatandaşlar temeli üzerine kurulmuş olmasıdır. Bunun en önemli sebeplerinden biri ise sağlık göstergelerinin
ülkelerin kalkınmışlık düzeylerini ortaya koyan en önemli verilerden biri varsayılmasından kaynaklanmaktadır.
Ülkemizde sağlık politikalarının oluşturulması ve halkın ihtiyaçları doğrultusunda sağlık hizmetlerini sunma
görevi resmi olarak Sağlık Bakanlığı’nın görevidir. Bu sebeple, Sağlık Bakanlığı’na bağlı olan hastaneler
toplumun beklentilerine en uygun şekilde hizmet vermeye çalışmaktadırlar. Doğal olarak birçok sektörde olduğu
gibi sağlık sektöründe de verilen hizmetin kalitesini etkileyen farklı unsurlar bulunmaktadır.
KAYNAKLAR
[1]Bora Başara, B., Güler, C., ve Yentür, G. K. Sağlık Araştırmaları Genel Müdürlüğü Sağlık Bakanlığı
ANKARA (2014)
[2]Yeşiyurt, C. Ve Alan, M. A. Fen Liselerinin 2002 Yılı Göreceli Etkinliğinin Veri Zarflama Analizi
(VZA) Yöntemi ile Ölçülmesi. Cumhuriyet Üniversitesi İktisadi İdari Bilimler Dergisi, Cilt 4, Sayı 2, (2003)
[3]Güleş, H. K., Öğüt, A., ve Özata, M. Sağlık İşletmelerinde Örgütsel Etkinliğin Artırılmasına Yönelik
Veri Zarflama Analizine Dayalı Bir Uygulama, Türkiye Sosyal Araştırmalar Dergisi Sayı 1, (Nisan 2007)
[4]Temür, Y., ve Bakırcı, F., Türkiye’de Sağlık Kurumlarının Performans Analizi: Bir VZA Uygulaması,
Sosyal Bilimler Dergisi cilt 10, Sayı 3 (2008)
135
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
EXAMINING THE EFFECTIVENESS BETWEEN REGIONS IN THE HEALTH SECTOR
Each year the Ministry of Health in accordance with the scope of this work to benefit from regular
health statistics published by Turkey is divided into 12 different regions. The main purpose of the
study, according to the region of the Ministry of Health to evaluate the effectiveness and efficiency of
the hospital. Nonparametric data envelopment analysis for measuring the effectiveness of the
technique is intended to be used. Within the framework of the DEA, according to scale Fixed Income
(CCR) and variable returns to scale (BCC) of using models will be evaluated on the basis of
differences. The inputs we use in the activity measurement; specialist physicians, general
practitioners, midwives and nurses, while the number of beds and number, number of operations, the
number of people applying to the number of patients per hospital inpatient and are intended to be used
as output. According to the obtained results of which were identified as being effective in the active
region which will develop recommendations for potential improvements inactive regions.
Key Words: Health sector, Efficiency, DEA
136
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
CryptRndTest: Kriptografik Rasgeleliğin Testi için Bir R Paketi
Haydar DEMİRHANa
Nihan BİTİRİMb
a
Hacettepe Üniversitesi İstatistik Bölümü Beytepe Ankara
[email protected]
b
Yüksek Öğretim Kurulu Bilkent Ankara
[email protected]
1.
CryptRndTest R-Paketi
Rasgelelik kriptografi alanının temelini oluşturmaktadır. Şifreleme işlemlerinin temelinde şifreleme için
kullanılan sayıları üreten rasgele sayı üreteçleri yer almaktadır. Üretecin tahmin edilmezliği, yapılan
şifrelemenin kalitesini doğrudan belirler. Kriptografi için kullanılan rasgele sayılar genel anlamda kullanılan
rasgele sayılara göre çok daha zor tahmin edilebilmelidir. Tüm yapay rasgele sayı üreteçleri bir başlangıç
dizisine dayandığından ve belli bir algoritmaya bağlı olarak çalıştığından kriptografide kullanılan yapay rasgele
sayı üreteçleri genel anlamda kullanılan üreteçlere göre daha zor ve karmaşık koşulları sağlamalıdır. Bu
üreteçlerin ürettiği sayılar tahmin edilmezlik özelliğini sağlayabilmek için genel olarak tek biçimli dağılmalı ve
otokorelasyonsuz olmalıdır.
Kriptografik rasgele sayı üreteçleri temelde tamsayı ve bit olmak üzere iki şekilde üretim yapar. Özellikle bit
üreten üreteçlerin testinde genel anlamda kullanılan parametrik olmayan rasgelelik testleri başarılı olmamaktadır.
Ayrıca bazı durumlarda üreteçlerin belli özellikleri test edilmek istenebilmektedir. Bu bağlamda özellikle
kriptografik rasgele sayı üreteçlerinin rasgeleliğinin test edilmesi için rasgelelik testleri geliştirilmiştir. Bu testler
iki aşamada uygulanır. Birinci aşamada test için gelen rasgele sayılar belli bir manipülasyona tabi tutulur. Bu
manipülasyon ile elde edilen sayıların dağılımı bilinmektedir. İkinci aşamada test edilen rasgele sayı dizisinin
manipülasyon ile elde edilen ampirik dağılımı, bilinen kitle dağılımı ile uyum iyiliği testleri kullanılarak
karşılaştırılır. Kriptografi literatüründe genel olarak ki-kare uyum iyiliği testi, nadir olarak da KolmogorovSmirnov testi kullanılmaktadır.
Geliştirilen kriptografik rasgelelik testleri belli durumlarda güç ve birinci tip hatanın kontrolü anlamında
birbirlerine üstünlük sağlamaktadır. Bu özellik nedeniyle çok sayıda kriptografik rasgelelik testi bir araya
getirilerek test kümeleri oluşturulmuştur. Bu test kümeleri bir üreteçten gelen test verisine aynı anda
uygulanmakta ve testlerin belli bir kısmından ya da tamamından geçen üreteç, kriptografide kullanılabilir
görülmektedir. Ancak bu uygulamada çoklu test problemi ile karşılaşılmakta olduğu kriptografi literatüründe yer
almamıştır (Demirhan ve Bitirim, 2015). Literatürde önerilen bazı testler ise henüz bir test kümesinde yer
almamıştır.
Bu çalışmada, yazarlar tarafından hazırlanmış olan R paketi CryptRndTest’in 1.1.4 sürümü tanıtılacaktır.
CryptRndTest paketi daha önce bir test kümesinde yer almamış ve bir yazılım tarafından uygulanmayan güncel
kriptografik rasgelelik testlerinin R ortamında uygulanabilmesi için kullanıcı dostu bir ortam sunmaktadır.
CryptRndTest paketi “Adaptive Chi-Square,” “Birthday Spacings,” “Book Stack,” “GCD,” “Random Walk” ve
“Topological Binary” testlerini uygulamaktadır. Bu testlerin ikinci aşamasında Ki-kare, Anderson-Darling,
Kolmogorov-Smirnov ve Jarque-Bera testlerinin sonuçları listelenmektedir. Ek olarak, ikinci tip Stirling
sayılarını, iki sayının en büyük ortak bölenini ve Toplogical Binary test için kritik değer hesaplayan yardımcı
fonksiyonlar CryptRndTest’te yer almaktadır. CryptRndTest paketinde yer alan tüm fonksiyonlar 128 bit gibi
yüksek bit uzunluklarında Rmpfr R-paketi ile “Multiple Precision Floating Point” sayıları kullanarak yüksek
duyarlıkla çalışabilmektedir. Çalışma kapsamında R yazılımında yer alan yapay rasgele sayı üreteçleri çeşitli bit
uzunluklarında CryptRndTest kullanılarak teste tabi tutulmuş ve sonuçlar tartışılmıştır.
TEŞEKKÜR
137
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Bu çalışma, TÜBİTAK-ARDEB 3001 programı kapsamında yürütülen 114F249 numaralı proje kapsamında
gerçekleştirilmiştir.
KAYNAKLAR
[1] Alcover P.M., Guillamon A., and Ruiz M.C. (2013), A new randomness test for bit
sequences. Informatica, 24(3), 339–356.
[2] Demirhan H., Bitirim N. (2015), Hypothesis testing and multiplicity in the evaluation of
cryptographic randomness, The 15th Central European Conference on Cryptology, July 0810, 2015, Klagenfurt, Austria.
[3] Doganaksoy A., Calik C., Sulak F. and Turan M.S. (2006), New randomness tests using
random walk, In: National Cryptology Symposium II, Ankara, Turkey.
[4] Marsaglia G. and Tsang W.W. (2002), Some Difficult-to-pass tests of randomness.
Journal of Statistical Software, 7(3).
[5] Ryabko B.Ya., Stognienko V.S. and Shokin Yu.I. (2004), A new test for randomness and
its application to some cryptographic problems. Journal of Statistical Planning and
Inference, 123, 365–376.
[6] Ryabko B.Ya. and Monarev V.A. (2005), Using information theory approach to
randomness testing. Journal of Statistical Planning and Inference, 133, 95–110.
ABSTRACT
CRYPTRNDTEST: AN R PACKAGE FOR CYPTOGRAPHIC RANDOMNESS TESTING
In this work, an R package for testing cryptographic randomness, namely CryptRndTest, is demonstrated.
The package includes functions to implement actual cryptographic randomness tests. After the demonstration of
the package, random number generators included by the R software are tested by using CryptRndTest and
results are discussed.
Key Words: Randomness, nonparametric test, R-package.
138
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ANALİTİK AĞ SÜRECİ YÖNTEMİ İLE GENÇLERDE MADDE
BAĞIMLILIĞI VE ERKEN UYARI SİSTEMİNE İLİŞKİN BİR
UYGULAMA
Murat ATAN *1
1, 2, 3
Hasan TÜRE 2
Deniz KOÇAK 3
Gazi Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, Ekonometri Bölümü, 06500, Ankara, Türkiye
Sorumlu Yazar e-mail: [email protected], 2 [email protected], 3 [email protected]
*1
Çok kriterli karar verme yöntemleri, birden fazla kriterin optimize edilerek karar vericinin en iyi
alternatifi seçmesine imkân veren metodolojik bir araçtır. Analitik Ağ Süreci (Analytic Network Process - ANP)
de oldukça fazla kullanılan çok kriterli karar verme yöntemlerinden biridir. ANP, kriterler ve alternatifler
arasındaki bağımlılık ilişkilerine izin veren, bu ilişkileri bir ağ şeklinde ifade eden ve geri bildirim sonuçlarını
içeren bir yaklaşımdır. ANP, yaygın olarak kullanılan Analitik Hiyerarşi Süreci (Analytic Hierarchy Process –
AHP) yönteminin daha genel bir formudur. Ancak AHP’de karar verme sürecinin yapısı tek yönlü hiyerarşik
ilişki şeklinde oluşturulurken, ANP’de bu süreç, üst seviyedeki elemanların ve alt seviyedeki elemanların
birbirlerinden bağımsız oldukları varsayımı yapılmadan, elemanlar arasında karmaşık bağımlılık ilişkilerini
barındırabilen bir ağ yapısı şeklinde oluşturulur.
Çalışmada, çok kriterli karar verme yöntemlerinden olan ANP’de kullanılmak üzere, tüm dünyada ciddi
bir halk sağlığı sorunu olan ve günümüzde özellikle gençler arasında yaygınlaşan madde kullanımı sorunu ele
alınmıştır. Bağımlılık yapıcı madde kullanımı, özellikle gelişmekte olan ülkelerde çeşitli önlemlerin alınmasına
rağmen gittikçe artmaktadır. Ülkemizde ise gençler arasında madde kullanımının son yıllarda artış gösterdiği
gözlenmektedir. Ancak madde kullanım yaygınlığına, sebep olan faktörlere, risk alanlarının tespitine ve bu
konudaki erken uyarı sistemine yönelik yapılan çalışmalar sayı bakımından yetersizdir.
Bu kapsamda madde bağımlılığı ve erken uyarı sistemi çalışmasında, Ankara’nın Keçiören ilçesinde
öğrenimini görmekte olan 2500 ilköğretim, ortaöğretim ve lise öğrencisine uygulanan; amacı öğrencilerin aile
kurumundaki karşılıklı iletişimleri ile arkadaş çevrelerinin kendi üzerlerinde etkilerini tespit etmek olan
“Keçiören İlçesi Gençlerde Bağımlılık Araştırması” projesinin veri seti, çok kriterli karar verme yöntemlerinden
olan ANP’de modellenmiştir. Karar modelinin ağ yapısı ile kullanılan kriterler, alanında uzman kişilerin
görüşleri alınarak belirlenmiştir. Yöntemdeki hesaplamalar Super Decision paket programı kullanılarak
yapılmıştır. Sonuç olarak da madde bağımlılığı konusunda risk taşıyan, destek verilmesi gereken çocukların
yoğunluklu olarak bulundukları okullar tespit edilmeye çalışılmıştır ve bu konuda çok kriterli karar verme
yöntemleri kullanılarak benzer çalışmaların yapılmasına imkân veren erken uyarı stratejilerinin geliştirilmesine
dikkat çekilmiştir.
Anahtar kelimeler: madde bağımlılığı, çok kriterli karar verme yöntemleri, analitik ağ süreci
KAYNAKLAR
[1] Saaty, T.L. (1996), Decision Making with Dependence and Feedback: The Analytic Network Process,
RWS Publications, Pittsburgh, PA.
[2] Meade L. and Sarkis J. (1998), Strategic Analysis of Logistics and Supply Chain Management Systems
Using The Analytical Network Process, Elsevier Science, Vol.34, no.3, pp. 201-215.
[3] Saaty, T.L. and Vargas L. G. (2013), Decision Making with the Analytic Network Process, Economic,
Political, Social and Technological Applications with Benefits, Opportunities, Costs and Risks, Springer New
York Heidelberg Dordrecht London
[4] Jharkharia S. and Shankar R. (2007), Selection of Lojistics Service Provider: An Analytic Network
Process (ANP) Approach, Omega, The International Journal of Management Science, 35, 274-289.
[5] Keçiören Belediye Başkanlığı Basın Yayın Halkla İlişkiler Müdürlüğü, (2015), Keçiören Gençlerde
Bağımlılık Araştırma Raporu, 1-64.
139
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
DOĞRUSAL OLMAYAN PROGRAMLAMA VE İSTENEBİLİRLİK
FONKSİYONU YAKLAŞIMI KULLANILARAK ÇOK YANITLI
ÇERÇEVEDE EKMEK ÜRETİM SÜRECİNİN OPTİMİZASYONU
Ali İhsan BOYACI
Kocaeli Üniversitesi, Mühendislik Fakültesi, Endüstri Mühendisliği, 41000, Kocaeli, Türkiye
[email protected]
Cevap Yüzeyi Yöntemi (CYY), bir kaç girdi değişkeninin (faktörün) bir ürün veya sürecin cevabını
etkilediği durumlarda ve amaç, bu cevabın optimizasyonu olduğunda, kullanılan matematiksel ve istatistiksel
tekniklerin bütünüdür. CYY’nde kullanılan teknikler, cevabın ölçülmesini sağlayacak etkin deneylerin
tasarlanması, tasarlanan deneye göre toplanan verilere en iyi uyumu sağlayacak modelin kurulması ve optimum
cevap değerini veren faktör seviyelerinin belirlenmesini kapsamaktadır. Özellikle son zamanlarda tek bir cevap
değişkeni yerine kalite ve maliyet temelli birçok kriterin eş zamanlı olarak optimize edilmesine ihtiyaç
duyulmaktadır. Bu nedenle Çok Yanıtlı Cevap Yüzeyi Problemleri (ÇYCYP) ortaya çıkmakta ve bu problemlere
çözüm üretecek yöntemler üzerinde çalışılmaktadır.
Derringer ve Suich (1980) tarafından tanıtılan istenebilirlik fonksiyonu yaklaşımı ÇYCYP’ni ele almada
kullanılan en etkin yöntemlerden bir tanesidir. Bu yaklaşım ile temel olarak yapılan şey, çok yanıtlı bir cevap
yüzeyi probleminin, tekil ve bileşik istenebilirlik fonksiyonları kullanılarak tek cevaplı bir problem durumuna
getirilmesidir. Bu yöntem cevap değişkenlerinin ağırlıklandırılmasına da izin verdiği için sıklıkla tercih edilen
bir yöntemdir.
Uygulama çalışmasında, oldukça önemli bir besin kaynağı olan ekmeğin, çeşitli kalite karakteristikleri
yanıt değişkeni olarak belirlenmek suretiyle, üretim sürecinin optimizasyonu hedeflenmiştir. Çalışma için Şekil
1’de verilen metodoloji kullanılmıştır.
Sürece ilişkin faktörlerin ve cevap değişkenlerinin belirlenmesi
Probleme uygun bir deney deseninin seçilmesi ve deneylerin gerçekleştirilmesi
Her bir cevap değişkeni için anlamlı bir cevap yüzeyi denkleminin elde edilmesi
Her bir cevap değişkeni için tekil istenebilirlik fonksiyonlarını tanımlamak
Bileşik istenebilirlik değerini maksimize edecek matematiksel modelin kurulması
Kurulan modelin çözülerek optimum parametrelerin elde edilmesi
Şekil 1. Çok yanıtlı çerçevede süreç optimizasyonu için kullanılan metodoloji
Marmara bölgesinde faaliyet gösteren EKSUN gıda işletmesinin laboratuvarında gerçekleştirilen, ekmeğin
kalitesini arttırmaya yönelik bu uygulama çalışması, kullanılan unun gluten oranı (24%, 32%), alfa amilaz enzim
ilavesi (0 ppm, 40 ppm), kullanılan su miktarı (60%, 65%), yoğurma süresi (7 dakika, 11 dakika), fermantasyon
sıcaklığı (28 , 38 ) ve fermantasyon süresi (45 dakika, 75 dakika) olmak üzere altı adet bağımsız değişken
(faktör) içermektedir. Ekmek kalitesini belirlemek için seçilen cevap değişkenleri ise, ekmeğin özgül hacmi,
kabuk rengi ve yapısı, şekil düzgünlüğü ve iç gözenek yapısı olmak üzere dört tanedir.
140
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çalışma kapsamında hacim ölçümü, Amerikan Tahıl Kimyagerleri Derneği’nin onaylı metotlarından
tohumla ölçme metodu (seed displacement metot) baz alınarak yapılmıştır. Ekmeklerin kabuk rengi ve yapısı,
uzmanlar tarafından incelenmiş ve 1-10 arası bir skala kullanılarak değerlendirilmiştir. Şekil düzgünlüğüne ise
ekmeklerin yükseklikleri enlerine oranlanarak karar verilmiştir. Gözenek yapısı cevap değişkeninin
değerlendirilebilmesi için görüntü işleme tekniğinden yararlanılmıştır. Bunun için tam ortasından kesilen
ekmekler gözenek yapılarının bilgisayar ortamına aktarılabilmesi için yüksek çözünürlükte taranmıştır. Daha
sonra bu ekmek resimleri görüntü işleme programı ImageJ 1.48v yazılımında incelenerek ekmeklerin
gözeneklerinin dağılımı değerlendirilmiştir.
Çalışmada doğrusal ve etkileşim etkilerinin yanında kareli etkileri de inceleyebilmek için ikinci derece bir
model kullanılmıştır. Oldukça ekonomik olan ve ikinci derece modeller için yaygın şekilde kullanılan BoxBehnken deney tasarımı tercih edilmiş ve veriler bu deney desenine göre toplanmıştır. Rassallığın etkisini
ortadan kaldırmak ve daha sağlıklı sonuçlar elde etmek amacıyla deneyler rassal bir sıra ile gerçekleştirilmiş ve
her bir deneme kombinasyonu için üç adet tekrar yapılmıştır.
Deney verileri elde edildikten sonra her bir cevap değişkeni ile faktörler arasındaki ilişkiyi ifade eden ikinci
derece denklemler regresyon analizi ile elde edilmiştir. Kurulan modeller ve tahmin edilen katsayılar için
istatistiksel anlamlılık testleri yapılarak
kurulan modellerin anlamlılığı sınanmıştır. İstatistiksel
olarak anlamsız terimler modelden çıkarılarak hesaplamalar tekrar yapılmıştır. Bu analizler için Minitab® paket
programının 17.1.0 versiyonundan yararlanılmıştır.
Regresyon denklemleri elde edildikten sonra, her bir cevap değişkeni için istenebilirlik fonksiyonları
tanımlanmış ve nihayetinde bileşik istenebilirlik değerini en büyükleyecek doğrusal olmayan bir programlama
modeli kurulmuştur. Kurulan bu model genelleştirilmiş azalan gradyenler yöntemi ve GAMS adlı paket
programın 24.1.3 versiyonundan yararlanılarak çözülmüş ve böylelikle faktörlerin optimum seviyeleri elde
edilmiştir. Çalışma sonunda gluten oranı için 28.748%, alfa amilaz enzimi ilavesi için 34.018 ppm, su yüzdesi
için 62.471%, yoğurma süresi için 9.714 dakika, fermantasyon sıcaklığı için 34.988
ve fermantasyon süresi
için 65.273 dakika seviyeleri optimum seviyeler olarak elde edilmiştir. Belirlenen faktör seviyeleri ile cevap
değişkenleri için değerler sırasıyla 5.39, 6.98, 0.65, 158.6 olarak elde edilmiştir.
KAYNAKLAR
[1] Derringer, G. ve Suich, R. (1980). Simultaneous optimization of several response variables. Journal of
Quality Technology, 12, 214-219.
ABSTRACT
OPTIMIZATION OF BREAD-MAKING PROCESS IN MULTI-RESPONSE FRAMEWORK USING
NON-LINEAR PROGRAMMING AND DESIRABILITY FUNCTION APPROACH
Response surface methodology is a bunch of mathematical and statistical techniques used when multiple
factors affect the outcome of a product or process and the aim is to optimize that outcome. In this study, bread
making process is analyzed in multi response framework using desirability function for enhancing the quality of
bread. In this context, six factor and four response variables are chosen. The optimum levels are found as
28.748% for gluten ratio, 34.018 ppm for alfa amilaz enzyme addition, 9.714 minutes for knead duration, 34.988
for fermantation temperature and 65.273 minutes for fermantation duration.
Key Words: (Times New Roman, 12pt, Multi-Response Surface Optimization, Desirability Function,
Bread-Making Process.
141
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 5
VERİ ZARFLAMA ANALİZİ
142
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Panel VZA ve Bootstrap VZA ile Türkiye’deki Sağlık Kurumlarının
Etkinlik Analizi
Elvan AKTÜRK HAYAT*, Esin AVCI**
*Adnan Menderes Üniversitesi, Aydın İktisat Fakültesi, Ekonometri Bölümü, 09010, Aydın, TÜRKİYE
[email protected]
**Giresun Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 28000, Giresun, TÜRKİYE,
[email protected]
1.
Panel VZA ve Bootstrap VZA
Doğrusal programlama temeline dayalı parametrik olmayan bir yöntem olan Veri
Zarflama Analizi (VZA) ile üretim fonksiyonu için teknik etkinlik (TE) hesaplanabilmektedir.
VZA’da panel veriler söz konusu olduğunda etkinlik değerlerinin dönem içindeki değişimi
Malmquist Toplam Faktör Verimlilik (TFV) endeksi kullanılarak ölçülmektedir.
VZA’da tek bir girdi ve tek bir çıktı olması durumunda etkinlik ölçümü temelde çıktı/girdi oranına dayanır:
,
TEi = Qi/Pi
i=1, … , n
(1)
Burada, TEi, i. firmanın teknik etkinliğidir. Bu oran 0 ile 1 arasında değerler alabilir. ‘0’ değeri firmanın teknik
olarak etkin olmadığını, ‘1’ değeri ise bu firmanın maksimum teknik etkinliğe sahip olduğunu belirtir.
Panel VZA ise, klasik VZA’nın bir genişletilmesi olarak düşünülebilir. Panel VZA ile teknik etkinlik eşitlik
2’deki gibi hesaplanabilir:
TEit = Qit/Pit
,
i=1, … , n, t=1, … , n
(2)
Burada, i firma sayısını, t ise zamanı gösterir. TEit ise i. firmanın t dönemindeki teknik etkinliğidir (Coelli,
1996).
Panel veri ile gerçekleştirilecek analizlerde daha tutarlı tahminler elde etmek ve yaklaşık güven aralıkları
üretmek için Bootstrap metodu kullanılabilir. Efron (1979) tarafından önerilen Bootstrap metodu, parametrik ve
parametrik olmayan istatistik analizlerde kullanılabilen basit ve güvenilir bir metottur. Bootstrap VZA ile
yapılacak etkinlik ölçümlerinin daha doğru ve açıklayıcı bilgi verdiği düşünülmektedir.
Bu çalışmada, Panel VZA ve Bootstrap temeline dayalı VZA yöntemlerinden elde edilen teknik etkinlik
skorlarının karşılaştırılması amaçlanmıştır. Bu amaçla, 2009-2013 dönemi verileri kullanılarak, Türkiye’de
bölgeler bazında sağlık kurumlarının performansları Panel VZA ve Bootstrap VZA ile analiz edilmiş ve sonuçlar
değerlendirilmiştir.
2.
Uygulama
Bir hizmet alanı olarak sağlık, bir yandan insan ve toplum yaşamını doğrudan ilgilendirmekte; öte yandan
emek faktörünün kalitesine katkıları yanında yatırım, istihdam ve üretim yoluyla bir bütün olarak ekonomik
performansı etkilemektedir. (Bayraktutan ve Pehlivanoğlu, 2012). Sağlık sektörünün gelişmişlik düzeyi, bir
ülkenin başta gelen kalkınma göstergelerinden biridir. Bu nedenle sağlıkta geçerli, güvenilir ve kullanılabilir
performans ölçüm araçlarına ihtiyaç duyulmaktadır. Bu araçlar sayesinde rekabette üstünlük sağlanabilecektir
(Li ve Benton, 1996).
Panel VZA ve Bootstrap VZA ile Türkiye’deki sağlık kurumlarının performansının belirlenmesinde, 12
istatistiki bölge ve 5 yıllık döneme ilişkin 3 girdi ve 2 çıktı değişkeni çalışmaya dahil edilmiştir. Veri seti, T.C
Sağlık Bakanlığı Sağlık İstatistikleri yıllıklarından 2009-2013 dönemi itibari ile İBBS-1’e (İstatistiki Bölge
Birimleri Sınıflaması) göre derlenmiştir. Girdi ve çıktı değişkenleri aşağıdaki gibidir:
Girdiler:
X1: 100.000 kişiye düşen toplam hekim sayısı
X2: 100.000 kişiye düşen hemşire ve ebe sayısı
X3: 100.000 kişiye düşen hastane yatağı sayısı
143
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çıktılar:
Y1: 1000 kişiye düşen ameliyat sayısı
Y2: Hastanelerde Yatan Hasta Ortalama Kalış Günü
3.
Sonuç
Panel VZA ile sadece etkinlik değerleri hesaplanır. Bootstrap VZA’da ise, yeniden örnekleme temelinde
simülasyonlarla, etkinlik değerleri ve bunlara ilişkin güven aralıkları elde edilmektedir. Panel VZA ve Bootstrap
VZA yöntemlerinden elde edilen teknik etkinlik skorlarının karşılaştırıldığı bu çalışmada, gerçek veri seti ile bir
uygulama gerçekleştirilmiştir. 5 yıl ve 12 bölge için yapılan analizlerde, daha açıklayıcı bilgi sağlayan Bootstrap
VZA sonuçları Panel VZA sonuçlarını doğrulamıştır.
KAYNAKLAR
[1] Coelli, T., (1996). A Guide to DEAP Version 2.1: A Data Envelopment Analysis(Computer) Program, CEPA
Working Papers, Department of Econometrics, University of New England, Armidale, NSE 2351, Australia.
[2] Efron, B., (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics 7(1): 1–26.
[3] Bayraktutan Y. ve Pehlivanoğlu F. (2012), Sağlık İşletmelerinde Etkinlik Analizi: Kocaeli Örneği, Kocaeli
Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 23: 127 – 162.
[4] Li L.X. and Benton W.C. (1996), Performance Mesaurement Criteria in Health Care Organizations:
Reviewand Future Research Directions, European Journal of Operational Research, 93:449-468.
ABSTRACT
EFFICIENCY ANALYSIS OF TURKEY HEALTH CARE FACILITIES USING PANEL DEA AND
BOOTSTRAP DEA
In this study, we aimed to compare the technical efficiency scores obtained from Panel Data Envelopment
Analysis (Panel DEA) and the Bootstrap method based on the DEA. For this purpose, the performances of the
health institutions in Turkey, using data from the 2009-2013 period, were analyzed by Bootstrap DEA and Panel
DEA and the results were evaluated.
Key Words: Panel DEA, Bootstrapping DEA, efficiency
144
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AKADEMİK BİRİMLERİN PERFORMANSLARININ VERİ
ZARFLAMA ANALİZİ İLE DEĞERLENDİRİLMESİ
Hakan ALTUNAY
Fırat Üniversitesi, Mühendislik Fakültesi, Endüstri Mühendisliği Bölümü, Elazığ,
[email protected]
Üniversitelerdeki akademik birimlerin performanslarının değerlendirilmesi, mevcut kaynakların doğru kullanımı
ve dağıtımı açısından oldukça önemlidir. Her geçen gün artan öğrenci, program ve bölüm sayılarına karşın;
yapılan yatırımların yetersiz kalması, üniversiteler için etkinlik kavramının ön plana çıkmasına sebep olmuştur.
Karar verme birimlerinin etkinliklerinin değerlendirilmesi için öncelikle doğru performans ölçüm aracının
belirlenmesi gereklidir. Bu çalışmada, akademik birimlerin etkinliklerinin değerlendirilmesi amacıyla etkili bir
performans ölçüm aracı olan Veri Zarflama Analizi (VZA) yönteminden yararlanılmıştır. Üniversite içerisindeki
akademik birimler ise karar verme birimleri olarak değerlendirilmiştir. VZA; doğrusal programlama
prensiplerine dayanan, karar verme birimlerinin (KVB) kullandıkları girdileri, hangi etkinlik derecesinde çıktıya
dönüştürdüğünü tespit etmemize imkân sağlayan ve duyarlılık analizi yöntemiyle kaynakların daha etkin
kullanılması amacıyla girdi ve çıktıların ayarlanmasını mümkün kılan bir yöntem olarak ifade edilmektedir. Veri
Zarflama Analizi ilk olarak Charnes, Cooper ve Rhodes tarafından 1978 yılında kâr amaçlı kurulmayan ve kamu
hizmeti sağlayan kuruluşların örgütsel performansını izleyebilmek amacıyla geliştirilmiştir. VZA; sağlık,
bankacılık, ulaşım gibi pek çok sektörde uygulama alanı bulmakla birlikte, eğitim kurumları için yapılan
performans ölçümü çalışmaları da giderek önem kazanmaktadır.
KAYNAKLAR
[1] Agha, S.R, Kuhail, I., Abdulnabi, N., Ghanim, A. Salem, S. (2011) Assessment of Academic Departments
Efficiency Using Data Envelopment Analysis, Journal of Industrial Engineering and Management,
Vol. 4, No. 2, pp.301-325.
[2] Charnes A., Cooper W.W. and Rhodes E. (1978), Measuring the Efficiency of Decision Making Units,
European Journal of Operational Research 2.
[3] Çakmak, Z., Uzgören, N., Keçek, G., (2005), Kümeleme Analizi Teknikleri İle İllerin Kültürel Yapılarına
Göre Sınıflandırılması Ve Değişimlerinin İncelenmesi, Dumlupınar Üniversitesi Sosyal Bilimler
Dergisi, Sayı:12, Haziran 2005.
[4] Eroğlu, Ergün ve Melek C. Atasoy (2006), Veri Zarflama Analizi ile Etkinlik Ölçümü ve Etkin Karar
Birimlerinin Duyarlılık Analizi, İstanbul Üniversitesi İşletme Fakültesi Dergisi, 35(2), ss. 91–106.
[5] Johnes J. (2006), Measuring Teaching Efficiency in Higher Education: An Application of Data
Envelopment Analysis to Economics Graduates from UK Universities 1993. European Journal of
Operational Research 174, 443-456.
[6] Kuah C.T. and Wong K.Y. (2011), Efficiency Assessment of Universities through Data Envelopment
Analysis. Procedia Computer Science. In Press, 3: 499-506.
ABSTRACT
PERFORMANCE EVALUATION OF ACADEMIC DEPARTMENTS WITH
DATA ENVELOPMENT ANALYSIS
Data Envelopment Analysis (DEA) is a non-parametric productive efficiency measurement method for
operations with multiple inputs and multiple outputs. In this study we analyze the relative efficiency of academic
departments at the Fırat University in Turkey, by using Data Envelopment Analysis (DEA). Firstly, the inputs
and outputs for academic department performance measurement were determined. Then, the potential
improvements and efficiency scores are computed for inefficient and efficient academic departments
respectively.
145
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Key Words: Data Envelopment Analysis, Efficiency, Performance Management, Academic Departments,
Operations Research.
146
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İKİ AŞAMALI VERİ ZARFLAMA ANALİZİ İLE ANKARA’DAKİ
DEVLET HASTANELERİNİN PERFORMANSLARININ
İNCELENMESİ
Merve KANDEMİR, H. Hasan ÖRKCÜ
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü Teknikokullar ANKARA
e-mail: [email protected], [email protected]
1.
Giriş
Günümüz dünyasında insanların sağlık hizmetine olan ihtiyaçları diğer sektörlere göre daha fazla artmaktadır.
Kısıtlı kaynaklarla sağlık ihtiyaçlarının karşılanmasında kurumların kaynaklarını olabildiğince verimli
kullanmaları kaçınılmaz olmuştur. Hastaneler sağlık hizmeti sunmak üzere değişen teknoloji, artan maliyet ve
rekabet koşullarında faaliyetlerini sürdüren, sağlık kurumlarıdır. Çok fazla miktarda kaynak harcanan sağlık
sektöründe, kaynakların doğru bir şekilde kullanılarak sağlık alanındaki kurumların performanslarının
incelenmesi ve performansı etkileyen faktörlerin ortaya çıkarılması önemini sürdürmektedir.
Sağlık sektöründe rekabetin giderek artması ve harcamaların ileri düzeyde yükselmesi, bu sektördeki işletmelerin
önemli bölümünü oluşturan hastaneleri, kaynaklarını daha etkin şekilde kullanmayı zorlamaktadır. Bu nedenle
hastanelerin performans düzeylerini belirlemeleri, etkin olmamaları durumunda kullandıkları girdilerinde ne
kadarlık bir azaltma ya da ortaya koydukları çıktılarında ne kadarlık bir artırma yapmaları gerektiğini saptayarak,
daha etkin konuma gelebilmek için nasıl bir strateji uygulayacaklarına karar vermeleri gerekmektedir.
Veri Zarflama Analizi (VZA), homojen birimlerden oluşan karar verme birimlerinin (KVB) (hastane,
okul, işletme veya herhangi bir stratejik sistemin) etkinliğini ölçmek için kullanılan bir performans ölçme
tekniğidir. VZA’nın kullanıldığı ilk tanıtım makalesi Charnes, Cooper ve Rhodes tarafından 1978 yılında
European Journal of Operational Research'de yayınlanmıştır. Bu yöntemin sahip olduğu en önemli özellik, her
karar verme birimindeki etkinsizlik miktarını ve kaynaklarını tanımlayabilmesidir. Bu özelliği ile yöntem etkin
olmayan karar verme birimlerinde ne kadarlık bir girdi azaltma ve/veya çıktı miktarının ne kadar arttırılması
gerektiğine ilişkin olarak yöneticilere yol gösterebilir.
VZA sağlık alanındaki işletmelerin performans değerlendirmesinde başarıyla kullanılmıştır. Grosskopf ve
Valdmanis’in [3] “Measuring Hospital Performance: A Nonparametric Approach” adlı çalışmasında, kamu
kesimine ait devlet hastanelerinde etkinlik düzeyi ile mülkiyet biçimi arasındaki ilişki incelenmiştir. Mülkiyet ile
etkinlik arasında anlamlı bir ilişki kurulamamıştır. Kavuncubaşı ve Ersoy [5] tarafından 1992 yılı verileri
kullanılarak, Sağlık Bakanlığına ait hastanelerin etkinlik değerlendirilmesi girdi yönelimli VZA yöntemiyle
yapılmıştır. Özcan ve McCue (1996) tarafından ABD’de faaliyet gösteren Akut Bakım Hastaneleri’nin finansal
performansları VZA tekniği ile değerlendirmiştir. Chang [2] girdi yönelimli VZA yaklaşımıyla Tayvan’da
merkezi yönetime ait kamu hastanelerinde verimlilik ölçümü yapmıştır. Çalışmanın bulgularına göre bakılan
hastaların türü ve hizmet sunum biçimi hastane etkinliğini negatif yönde etkilemektedir. Güçlü [4] tarafından
Türk Silahlı Kuvvetleri Hastanelerinde Verimlilik Ölçümü VZA ile yapılmıştır. Harris ve ark. [6] tarafından
yapılan bir başka çalışmada ise hastanelerin birleşmelerinin hastane etkinliği üzerine etkisi VZA yöntemiyle
incelenmiştir. Hastane birleşmelerinin genel olarak etkinliğe olumlu yansıdığı gözlemlenmiştir. Şahin ve Özgen
[7], “Sağlık Bakanlığı İl Devlet Hastanelerinin Karşılaştırmalı Verimlilik Analizi” adlı çalışmada, Sağlık
Bakanlığı bünyesindeki il devlet hastanelerinin karşılaştırmalı teknik verimliliklerini ölçmek ve verimsiz hizmet
ürettiği belirlenen hastaneler için verimsizlik kaynakları ve düzeyleri incelenmiştir. Bayraktutan ve Pehlivanoğlu
[1] tarafından yapılan Kocaeli’deki kamu ve özel sektör hastanelerinin etkinlik karşılaştırmasını yapmak için
VZA kullanmaları sonucunda özel hastanelerin ortalama olarak daha yüksek hizmet performansı gösterdiği
sonucuna varılmış, devlet ve üniversite hastanelerinin etkinlik seviyesinin düşük çıkma nedenleri açıklanmıştır.
Son yıllarda iki aşamalı ya da genel olarak çok aşamalı bir şekilde üretime sahip olan sistemlerin performans
değerlendirmesi için de VZA tabanlı modeller geliştirilmektedir. İki aşamalı sistem için, birimler ilk aşamada
girdilerini kullanarak orta girdiler adı verilen yeni değişkenleri ortaya koymakta ve ikinci aşamada ise orta
girdilerini kullanarak da nihai çıktılarına ulaşmaktadırlar.
Bu çalışmada Ankara’daki devlet hastaneleri iki aşamalı VZA modeli ile ele alınmaktadır. Çalışmada, yatak
sayısı, hekim sayısı (uzman ve pratisyen), poliklinik sayısı, cerrahi alet sayısı, sterilizasyon merkezi alanı,
147
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
sterilizasyon merkezinde çalışan personel sayısı, kalite değerlendirme sonuçları ve yıl bazında toplam gider
değişkenleri kullanılmıştır. Bu değişkenler ile bir iki aşamalı VZA modeli kurularak, Ankara’daki devlet
hastanelerinin performans analizi ortaya konmuştur.
KAYNAKLAR
[1] Bayraktutan, Y.; Pehlivanoğlu, F. (2012), ‘’Sağlık İşletmelerinde Etkinlik Analizi: Kocaeli Örneği’’,
Kocaeli Üniversitesi Sosyal Bilimler Enstitüsü Dergisi. 23:127-162
[2] Chang, H.H. (1998) ‘’Determinants of Hospital Efficiency:The Case of Cenral Government-owned Hospitals
in Taiwan’’, Omega. 26(2):307-318
[3] Grosskopf and Valdmanis’in (1987), “Measuring Hospital Performance: A Non-parametric
Approach”,Journal of Health Economics. 6:89-107
[4] Güçlü, A. (1999), ‘’Türk Silahlı Kuvvetleri Hastanelerinde Teknik Verimlilik Ölçümü’’, Genelkurmay
Başkanlığı Gülhane Askeri Tıp Akademisi Sağlık Bilimleri Enstitüsü
[5] Kavuncubaşı, Ş.; Ersoy K. (1995), ‘’Hastanelerde Teknik Verimlilik Ölçümü’’, Amme İdaresi Dergisi.
28(3):3
THE EFFICIENCY INVESTIGATION OF HOSPITAL IN ANKARA BY TWO-STAGE DATA
ENVELOPMENT ANALYSIS
ABSTRACT
The objective of this study is to evaluate the technical efficiency of state hospitals in Ankara by using twostage Data Envelopment Analysis (DEA). Source data of research is the 2013 Union General Secretariat of
Public Hospitals Center Evaluation of the Current Situation of the Sterilisiation Unit and the Ministry of Health
Statistics and Modelling, Analysis and Information Systems Department. It was included to research 18 state
hospitals which of 11 are central hospitals and which of 6 are district hospitals.
Key Words: Hospital efficiency, Data Envelopment Analysis, two-stage efficiency analysis, Ministry of Health.
148
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
PARÇACIK SÜRÜ OPTİMİZASYONU İLE VERİ ZARFLAMA
ANALİZİ TABANLI OPTİMAL PORTFÖY DEĞERLENDİRMESİ:
İMKB-30 ENDEKSİ ÜZERİNE BİR UYGULAMA
Tuğcan ÖZSOY, H. Hasan ÖRKCÜ
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü Teknikokullar ANKARA
e-mail: [email protected], [email protected]
Hızla değişen finans piyasalarında portföy yönetimi en ilgi çekici konulardan biri olmuştur. 1926
yılında ABD bonosuna yapılan 1 dolar yatırım 71 yıllık sürecin sonunda 14 dolara çıkabilirdi, yine 1 dolarlık
yatırım S&P 500’e yatırılmış olsaydı getirisi 1370 dolar olacaktı. Yine bu iki yatırım aracı kullanılarak iyi bir
karar verici tarafından her ay maksimum getiri sunacak olan yatırım aracı seçilmiş olsaydı 71 yıllık süreç
sonunda getiri 2,296,183,456 dolar olacaktı [2]. Bu iki yatırım aracı kullanılarak elde edilebilecek maksimum
getiri portföy yönetiminin ilgi çekici olmasının sebebini açıklamaktadır.
Minimum risk altında maksimum getiriyi hedefleyen portföy yönetiminde yatırımcıların karar verme
sürecini 1950‘li yıllara kadar menkul kıymet çeşidi arttıkça portföy riski azalacağını savunan geleneksel portföy
teorisi etkilerken, 1950‘li yıllardan sonra yatırımcılar modern portföy teorisini benimsemişlerdi. 2000 li yıllara
gelindiğinde ise sezgisel yöntemler tercih edilmeye başlanmıştır [3]. Optimizasyon problemlerinin çözümünde
klasik yöntemler olarak adlandırılan matematiksel yöntemler önceleri çok yaygın olarak kullanılmaktaydı. Bu tür
yöntemlerin esnek olmaması ve matematiksel fonksiyonlarla tanımlama gereksinimi gibi dezavantajları, son
zamanlarda, bilim adamlarında genel amaçlı ve performansı yüksek yöntemler geliştirme çabalarını artırmış ve
doğadaki olaylardan esinlenmeye başlamışlardır. [4] Optimizasyon problemlerinin çözümü için birçok algoritma
geliştirilmiştir. En iyilemeyi gerçekleştirmek için doğadan esinlenilerek oluşturulan bir sezgisel optimizasyon
teknikleri, özellikle büyük boyutlu optimizasyon problemlerinde optimuma yakın sonuç vermektedir.
Bu çalışmada İMKB 30 indeksine ait hisse senetleri ile portföy değerlendirmesi amaçlanmıştır. İndekste
yer alan şirketlerin çeşitli girdi-çıktı değişkenleri kullanılarak veri zarflama analizi ile performans
değerlendirmesi yapılarak birbiriyle daha yakın ve rekabet edebilir şirektlerin değerlendirilmesi amaçlanmıştır.
Daha sonra ise günlük getiri oranları kullanılarak parçacık sürü optimizasyonu ve klasik optimizasyon teknikleri
kullanılarak portföyler elde edilmiştir. Bu çalışmada kuş sürülerinin davranışlarından esinlenerek ortaya
çıkarılmış bir sezgisel optimizasyon tekniği olan, geniş çözüm uzayına sahip ve karmaşık problemlerde kısa
sürede kabul edilebilir bir sonuca gidilebilen parçacık sürü optimizasyonu ile veri zarflama analizi tabanlı bir
portföy optimizasyonu yapılmıştır.
Uygulanılan optimizasyon yöntemlerinden elde edilen portföyler, performans ölçütü olan Sharpe Oranı
ile karşılaştırılmıştır. İMKB-30 indeks verilerine ait hisse senetlerinin günlük getirileri kullanılarak,
etkin olan hisse senetleri seçilmiş ve piyasada geneli etkileyen krizler ve ya hisse senedi bazlı
özel durumlar da çalışmaya dâhil edilerek duruma çok yönlü bakılmıştır. Böylece çalışmada, insan psikolojisine
benzer bir şekilde işleyen ve birçok uyaranı olan finansal piyasaların hareketliliği ile ilgili daha kapsamlı
sonuçlara ulaşmak hedeflenmiştir.
KAYNAKLAR
[1] R. J. Kuo, C. W. Hong, "Integration of Genetic Algorithm and Particle Swarm Optimization for
Investment Portfolio Optimization"
[2] H. Genel, "Genetik Algoritmalarla Portföy Optimizasyonu", Yüksek Lisans Tezi, T.C. Ankara
Üniversitesi Sosyal Bilimler Enstitüsü İşletme Anabilim Dalı, 2004
[3] A. Z. ÇELENLİ, E. EĞRİOĞLU, B. Ş. ÇORBA,“İMKB 30 İndeksini Oluşturan Hisse Senetleri İçin
Parçacık Sürü Optimizasyonu Yöntemlerine Dayalı Portföy Analizi“, Doğuş Üniversitesi Dergisi, 16 (1) 2015,
25-33
149
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
[4] M. ÖZSAĞLAM, M. ÇUNKAŞ, "Optimizasyon Problemlerinin Çözümü için Parçacık Sürü
Optimizasyonu Algoritması", Politeknik Dergisi Journal of Polytechnic Cilt:11 Sayı: 4 s.299-305, 2008 Vol: 11
No: 4 pp.299-305, 2008
[5] S. TETİK ,”İşletme Performansını Belirlemede Veri Zarflama Analizi“, Yönetim Ve Ekonomi Yıl
:2003 Cilt :10 Sayı : 2 Celal Bayar Üniversitesi İ.İ.B.F., Manisa
PARTICLE SWARM OPTIMIZATION ALGORITHM FOR INVESTMENT PORTFOLIO BASED
DATA ENVELOPMENT ANALYSİS: AN APPLICATION OF ISE-30 STOCK SHARES
ABSTRACT
Many optimization techniques used in solving optimization problems has been developed by inspiring
from the events in nature. Particle swarm optimization is a population based stochastic optimization technique,
inspired by social behavior of bird flocking or fish schooling. In this study, particle swarm optimization based
data envelopment analysis been applied to optimize the portfolio that contains ISE 30 stock shares.
Key Words: Particle swarm optimization, genetic algorithm, portfoli optimization, optimization in finance
150
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 6
ECONOMETRICS, FINANCE, ACTUARY and RISK
MANAGEMENT
151
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
How effective is SCR when the association is measured with Copulas?
Etkin HASGUL*.
[email protected]
A. Sevtap KESTEL*
*ODTU UYGULAMALI MATEMATIK ENSTITUSU, 06800, ÇANKAYA-ANKARA
Kasırga YILDIRAK
HACETTEPE UNIVERSITESI AKTUERYA BILIMLERI BOLUMU, 06800, BEYTEPE-ANKARA
1.
Introduction
Capability of a firm to maintain its business in long-term while meeting all obligations and having enough equity
to carry on operations and meeting liabilities is known as solvency. In other words, solvency is a regulatory
framework of determining the capability of financially being solvent of an insurance or reinsurance company in
respect of ability to compensate claims of insured people. The aim of the system is to maintain the operations of
the companies or to carry their business on especially in case of financially distress periods.
The risks of underwriting, market, credibility, operational and liquidity are in main concerns of Solvency II in
addition to regulations and audit. The Solvency II Directive consists of three pillars. Pillar I consists of
quantitative measurements, applied model and its validation and calculation of capital requirements, which are
Solvency Capital Requirement (SCR) and Minimum Capital Requirement (MCR). Pillar II requires wellstructured internal audit, strong risk management skill of the insurers in undertaking their own risks and
corporate governance. Pillar III indicates the reporting of the firm to external auditors and transparency to public.
Since adequate financial supervision for the insurance companies has not been set yet in Turkey, a thorough
planning has to be implemented to the system by adapting to evolving Solvency II regulations in EU. The
current legislation and the inadequacies in financial monitoring are under an updating process with respect to the
compliance process to EU standards. Similar arrangements as in EU system are implemented by the decree Law
No. 5684 on 3/6/2007. Literature on quantitative models in solvency in Turkey is limited. Genc (2002, 2006),
Ocak (2015), Isseveroglu (2005) applied multi-dimensional statistical methods to predict the failures from the
beginning time and to select the indicators/factors to insurance companies acted in non-life elementary branches
in Turkey.
The aim of this study is to determine how efficient SCR is when the Copula Correlation is used instead of
Pearson Correlation.
2. Solvency II Quantitative Methods
Solvency II has two basic components: SCR and MCR. Standard approach model and internal models are used
in order to calculate these components. These models vary according to the type of the company so that the
models also change based on the risk exposure. Therefore, developed insurance companies should use their own
internal model approach which needs to be approved by Supervisory Institutions. SCR is the target capital which
helps to meet unexpected significant amount of loss and also brings the confidence to fill the claims of insured.
While SCR is the higher amount, Minimum Capital Requirement (MCR) is the applicable lowest capital. SCR
calculation employs the Value-at-Risk (VaR) method by using one-year related equity amounts in 99.5%
confidence interval. Either standard formula or internal models can be used to calculate SCR and MCR. At least
five risks, which can be considered as non-life insurance risk, life insurance risk, health insurance risk, credit
risk, operational risk, should be used in VaR, separately. Those risks are evaluated by using risk premiums, paid
loss amounts and reserve risks. While standard formula is defined by European Commission, internal formula is
defined by companies and confirmed by Auditor Committee.
3. Association Measures
Pearson correlation is the most common method which is used to measure linear relationship between two
variables. The covariance of two variables is divided by the product of standard deviations of the variables in
order to calculate Pearson correlation coefficient.
152
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Although Copula Method is widely used in the area of Financial Mathematics, adaptation of Copula which
measures Solvency II Requirements Indicators is not commonly used. In this study, Gaussian Copula and tcopula methods will be applied instead of Pearson Correlation.
According to Sklar Theorem, if marginal distribution functions are continuous, a single Copula is obtained.
Gaussian Copula method which will be used in the study is applied under the assumption that the marginal
distributions have standard normal distribution and t-copula method is applied under the assumption that
marginal distributions have t-distribution.
4. Data
Financial ratios like Liquid Asset/Total Asset, Premium Collection Ratio, Net premium Receivables/Total Asset,
Loss/Premium, Profit/Paid Capital, Premium Production/Coverage, Payables on Reinsurance Op./Equity,
Liability (Short-term)/Liquid Asset, Total Reserve/Net Premium, Total Reserve/Net Premium, Total
Reserve/Liquid Asset, Technical Profit/Premium, Total Income/Total Asset, Total Payables (Long&Shortterm)/Equity and Reinsurance share/Gross Premium are used in this study [1]. The ratios of 17 firms are taken
into consideration while study is conducted.
5. REFERENCES
[1] Ocak, G. (2015). An Early Warning Model for Turkish Insurance Companies (Master’s Thesis, Middle East
Technical University, Ankara, Turkey).
[2] Genç, A. (2002). Hayatdışı Sigorta Şirketlerinde Mali Yeterliliğin Ölçülmesi ve Türkiye için bir erken Uyarı
Modeli Önerisi, Doktora Tezi, Ankara Üniversitesi, İşletme A.B.D.
[3] Isseveroglu, G. (2005). Sigorta Sirketlerinde Finansal Başarının Ölçülmesi ve Bir Uygulama (Ph.D. Thesis,
T.C. Uludağ University Institute of Social Sciences, Bursa, Turkey)
ABSTRACT
HOW EFFECTIVE IS SCR IF THE ASSOCIATION IS MEASURED BY COPULAS?
Solvency can be described as capability of a firm to maintain its business in long term while meeting all
obligations and liabilities and having enough equity to carry on operations. In addition to regulations, Solvency
Capital Requirement (SCR) is the target capital which helps to meet unexpected significant amount of loss and
to fill all the claims. In this study, adaptation of copula methods to SCR is performed in order to see
improvement in correlation.
Key Words:
(Solvency II, Solvency Capital Requirement, Gaussian Copula, t-copula)
153
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Determinants of FDI: Evidence from panel regression analysis
Erhan ÇENE1
Filiz KARAMAN1
1
Yildiz Technical University, Department of Statistics,34220, Esenler, Istanbul, Turkey
[email protected] ; [email protected]
1.
Introduction
Foreign direct investment (FDI) is a key factor for both multinational enterprises (MNEs) and governments.
MNEs use FDI to expand their sales, to acquire resources and to minimize competitive risks [1]. Governments
may also encourage FDI, to achieve income, economic growth or to increase employment [2], or to acquire new
technology, products and skills [3].
Main aim of this article is to reveal the determinants of FDI and how they affect firms and governments policies.
2.
Possible determinants of FDI
Revealing determinants of FDI is a popular topic and there are numerous studies in this area. Kok and Ersoy’s
work [4] have a wide range of literature and interested readers may refer to it. On the other hand, Prüfer and
Tondl [5], stated that, there are various factors effecting FDI including market size, human capital and
infrastructure, labor costs and taxation, resources, trade openness, macroeconomic stability and institutional
factors. Each of these factors should be considered carefully by substituting them with a proper variable.
3. Dataset and results
In this work, possible determinants of FDI are investigated for 15 countries in 1990-2011 within a panel data
analysis context. List and description of variables are given in Table-1, country list is given in Table-1 and panel
regression analysis results are given in Table-3.
Population which is a proxy for market size appeared to be main determinant of FDI. Also human capital,
freedom index and corruption perception index appeared to be effective on FDI. These results are consistent with
previous works as significant variables have positive effect on the FDI received by a country.
Table-1: Variable names and descriptions
Variables
FDI
Population
Growth GDP
Freedom Index
Corruption Perception Index
Human Capital
Trade Openness
Inflation
Description
Logarithm of Inward FDI flows US Dollars at current prices and current
exchange rates in millions
Logarithm of absolute values in thousands
Annual average growth rates per capita based on gross domestic product at
constant 2005 U.S. dollars.
Economic Freedom Index 1: Low economic freedom 10: High economic
freedom
Corruption Perception Index 0: Highly Corrupt 10: No Corruption
Human capital index
(Import+Export)/TotalGDP
Annual percentage change of average consumer prices
Source
UNCTAD
UNCTAD
UNCTAD
Fraser Institute
Transparency International
PWT 8.1
WDI and Own Calculation
WEO
Table-2: Country List
Europe
Asia
South America
Italy
China
Argentina
Poland
India
Brazil
Portugal
Indonesia
Mexico
154
Spain
Malaysia
Peru
Turkey
South Korea
Venezuela
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Table-3: Regression analysis results
Pooled LS Regression
Pooled LS with Dummies
Panel Regression (FE)
Driscoll-Kraay Estimator
(FE)
0.016 (1.39)
6.321 (3.24)***
1.170 (2.35)**
-2.71 (-2.01)*
0.007 (1.86)*
0.173 (2.44)**
0.557 (3.70)***
-109.1 (-3.46)***
Growth GDP
0.018 (1.42)
0.268 (2.29)**
0.016(1.24)
Population
0.368 (7.77) ***
0.588 (10.10)***
6,321 (2.90)***
Trade Openness
-0.226 (-1.62)
0.490 (2.72)***
1,170 (1,42)
Human Capital
0.704 (4.06) ***
0.636 (3.88)***
-2,708 (-1.88)*
Inflation
0.001 (0.26)
0.004 (0.69)
0.007 (1.12)
Corruption Perception Index
0.225 (3.87) ***
0.234 (3.70)***
0.172 (1.47)
Freedom Index
0.063 (0.60)
0.176 (1.79)*
0.557 (3,09)***
constant
-5.85 (-4.61) ***
-10.76 (-7.48)***
-109.17 (-2.98)***
Asia Dummy
-0.784 (-4.35)***
South America Dummy
0.238 (1.69)*
R2
0.3847
0.4829
0.0929
0.2323
RE vs FE (Hausman Test)
0.0042
Notes: ***, **, * indicates significant levels at 1, 5 and 10% respectively. Numbers within parenthesis indicate t-statistic or z-statistic based
on analysis.
REFERENCES
[1] Daniels, J. D., Radebaugh L. H. and Sullivan D. P. (2004) International business: environments and operations, Upper
Saddle River, NJ: Prentice Hall, 10th ed.
[2] Kok, R., and Ersoy B. A. (2009) Analyses of FDI Determinants in Developing Countries, International Journal of Social
Economics, 36, 105-23.
[3] Holland, D. and Pain N. (1998) The Determinants and Impact of Foreign direct investment in the transition economies: A
panel data analysis, in V Edwards (ed), Convergence or Divergence: Aspirations and Reality in Central and Eastern
Europe and Russia, Proceedings 4th Annual conference, Centre for Research into East European Business, University
of Buckingham.
[4] Kok, R., and Ersoy B. A. (2009) Analyses of FDI Determinants in Developing Countries, International Journal of Social
Economics 36, 105-23.
[5] Prüfer, P., and Tondl, G. (2008), The FDI-growth nexus in Latin America: The role of source countries and local
conditions, Center DP 2008-61, Tilburg University Center for Economic Research, Working Paper.
ABSTRACT
DETERMINANTS OF FDI: EVIDENCE FROM PANEL REGRESSION
ANALYSIS
In this work, possible determinants of FDI are investigated for 15 countries in 1990-2011 within a panel
data analysis context. Population which is a proxy for market size appeared to be main determinant of FDI. Also
human capital, freedom index and corruption perception index appeared to be effective on FDI. These results
are consistent with previous works as significant variables have positive effect on the FDI received by a country.
Key Words: Foreign Direct Investment, FDI, Panel Regression Analysis
155
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ENERGY CONSUMPTION and ECONOMIC GROWTH in TURKEY: IS
COPULA FRAMEWORK POSSIBLE?
Ömer Ozan EVKAYA*
Atılım Üniversitesi, Fen-Edebiyat Fakültesi, Matematik Bölümü, 06836 İncek Gölbaşı, Ankara, Türkiye
[email protected]
Ceylan Talu YOZGATLIGİL
ODTÜ, Fen-Edebiyat Fakültesi, İstatistik Bölümü, 06800 Çankaya, Ankara, Türkiye
ceylan.yozgatlı[email protected]
Sevtap KESTEL
1.
ODTÜ, Uygulamalı Matematik Enstitüsü, Aktüerya Bölümü, 06800 Çankaya, Ankara, Türkiye
[email protected]
Introduction and Motivation
Energy is one of the most prominent and crucial source (input) for the sustainable economic growth and social
life all over the world. Both demand and supply part of the economy is highly dependent to energy. It is the
reason that energy is a key factor for the economic and social development of countries. In this sense, it is
expected some relationships between the energy consumption and national income should be exist. Especially
for developing countries, highly dependent on others with respect to energy sources, it is a hot topic to achieve
its economic growth by diagnosing the correct direction with the energy consumption.
Most of the empirical studies indicate many different relationship structures based on the selected duration and
the used methodology. For instance, Granger-Causality, Johansen Co-integration tests and some analogues of
them are most widely used tools to derive the direction of the relationship between energy consumption and
economic growth. Even if the simplicity and ease interpretation of such tests, the results of empirical studies
change based on the time duration selected at the beginning. For instance, in some studies show that unidirectional causality occurs from energy consumption to economic growth, whereas some others can represent
no causality between variables.
The motivation of this study is try to explore any possible benefit, can be gained via copulas, to explore the
debated dependence structure. Disparately, different copula families allow us to derive such relationship
probabilistically based on statistical properties of the variables. Mainly, the linkage between energy consumption
and economic growth is considered for Turkey using the copula modeling.
2.
Data Set and Methodology
This copula based econometric study focuses on the following time series data over the period 1970-2013
annually.
Table 1. Data Set for the study
Abbreviation
GDP
GDP_pc
PEC
TNEC
Explanation
Gross Domestic Product (in $)
Gross Domestic Product per capita (in $)
Primary Energy Consumption (in million TEP)
Total Net Electricity Consumption (in GWh)
Firstly, derived time series data is converted into logarithmic form and analyzed using the classical time series
approach before copula modeling. Afterwards, different copula families are tested to model the bivariate
relationships between selected parameters. The most significant model is decided by using the Goodness-of-fit
tests for the copulas.
156
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Figure 1. Log of Macroeconomic Time Series
Figure 2. Log of Energy Consumption Time Series
REFERENCES
[1] Topallı, N. and Alagöz, M. (2014), Energy Consumption and Economic Growth In Turkey: An Empirical
Analysis, Selcuk University Journal of Institute of Social Sciences, (32), 151-159.
[2] Akan, Y., Doğan, E. M. and Işık, C. (2010), The Causality Relationship Between Energy Consumption and
Economic Growth: The Case of Turkey. Enerji, Piyasa ve Düzenleme, 1 (1), 101-120.
[3] Nelsen, R. B. (2006), An Introduction to Copulas, Springer Science+Business Media Inc, 2nd Ed.
[4] Patton, A. J. (2012), Copula Methods for Forecasting Multivariate Time Series, Handbook of Economic
Forecasting, (2).
[5] Hofert, M., Kojadinovic, I., Maechler, M. and Yan, J. (2015), Multivariate Dependence with Copulas,
Copula R-package.
ENERGY CONSUMPTION and ECONOMIC GROWTH in TURKEY: IS
COPULA FRAMEWORK POSSIBLE?
ABSTRACT
The economic growth of any country primarily based on the efficient usage of energy sources. When the
unequally distributed energy sources are considered, it deserves more attention to analyze the relationship
between the energy consumption and changes in gross domestic product (GDP). Copulas are very recent and
beneficial tool to capture the dependencies between variables probabilistically. They allow us to model the
dependence structure among the random variables, independently of the margins involved in a flexible manner.
The main goal of this study is investigating the dependence between economical growth and energy consumption
in Turkey via copula functions. The annual Gross Domestic Product (GDP), GDP per capita in USA dollar
volume, Primary Energy Consumption (PEC) in million TEP unit and the Total Net Electricity Consumption
(TNEC) in gigawatt-hours (GWh) basis data for years 1970-2013 are considered for copula analysis. Different
bivariate copula families are employed and the best model is selected based on the goodness-of-fit test for
copulas.
Key Words: econometry, GDP, energy consumption, copulas, dependence
157
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 6
UYGULAMALI İSTATİSTİK 3
158
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÖZEL MARKALI ÜRÜNLERE OLAN TÜKETİCİ TALEBİNİN
SIRALI LOJİSTİK REGRESYON ANALİZİ İLE İNCELENMESİ
Hatice ŞAMKAR*
Gamze GÜVEN
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, Eskişehir, Türkiye
[email protected]
[email protected]
Özel markalı ürünler, perakendecinin satış noktalarında kendi adı yada kendi markasıyla satılan fiyatdağıtım-tutundurma-markalama ve marka yönetimi gibi konularda tek hâkimiyetin perakendecide olduğu
ürünlerdir (Albar and Öksüz, 2013). Bu markaların en önemli özelliği sadece marka sahibi perakendecilerin
mağazasında satışa sunulmaları ve kitle iletişim araçlarında reklamının yapılmamasıdır. Önceleri ulusal
markaların ucuz bir taklidi olarak görülen ve düşük gelirli tüketici kitlelerinin ihtiyacını karşılamak amacıyla
ortaya çıkan özel markalı ürünlerin günümüzde önemli ölçüde pazar paylarını artırdıkları ve kaliteli ulusal
markalara ciddi birer rakip haline geldikleri gözlenmektedir.
Özel markalı ürünlerin tercih edilirliğinin gün geçtikçe artması ilginin, ürünleri satın alan tüketicilere
yönlenmesine neden olmaktadır. Tüketicilerin sosyo-ekonomik özellikleriyle özel markalı ürünleri tercih edip
etmemesi arasında bir ilişkinin bulunup bulunmadığının araştırılması ve özel markalı ürünleri tercih etme
sıklığında etkili olabilecek faktörlerin belirlenmesi özel markalı ürünleri üretip pazarlayanlar açısından son
derece önemlidir. Bu çalışma, özel markalı ürünlerin tercih edilme sıklığında sosyo-ekonomik değişkenlerin etki
payını belirlemenin yanı sıra özel markalı ürünlerin ürün kalitesi ve pazarlanmasına yönelik tüketici fikirlerini
değerlendirilmeyi amaçlamaktadır. Bunun için tüketicilerin sosyo-ekonomik niteliklerini ve özel markalı
ürünlerin kalitesi, ambalajı ve pazarlama stratejileri konusundaki fikirlerini almaya yönelik likert tipi sorulardan
oluşan bir anket hazırlanmış ve Eskişehir merkezinde bulunan 470 kişiye uygulanmıştır. Likert tipi sorulardan
oluşan ölçeğin güvenilirliği Cronbach Alfa katsayısıyla incelenmiş ve   0.70 bulunduğundan ölçeğin
güvenilir olduğuna karar verilmiştir. Daha sonra “Özel markalı ürün satın alma sıklığı” bağımlı değişken,
kişilerin sosyo-ekonomik nitelikleri ve likert tipi sorular bağımsız değişken olarak alınıp elde edilen veriler sıralı
lojistik regresyon analizine tabii tutulmuştur.
Lojistik regresyon, doğrusal regresyonda olduğu gibi bir bağımlı değişken ile bir yada daha çok bağımsız
değişken arasındaki ilişkiyi tanımlayacak en uygun modeli bulmak için kullanılan istatistiksel bir metottur.
Lojistik regresyon modelini doğrusal regresyon modelinden ayıran ise lojistik regresyonda bağımlı değişkenin
kategorik olmasıdır. Eğer lojistik regresyon analizinde bağımlı değişkenin yapısı bu çalışmada olduğu gibi sıralı
kategorik bir yapı izliyorsa, sıralı lojistik regresyon modeli kullanılır.
Lojistik regresyon modeli aşağıdaki gibi verilir:
Π( x ) 
β β x
e 0 1
β β x
1 e 0 1
Burada Π(x) , x verilmişken Y’nin koşullu beklenen değeri yani
dönüşümü aşağıdaki gibi tanımlanır (Hosmer and Lemeshow, 2000):
Π(x) =E(Y\x)
dir.
Π(x) ’in
lojit
 Π(x) 
 = β 0  β1 x
1  Π(x) 
g ( x )  ln 
Lojistik regresyonda bilinmeyen parametreleri tahmin etmek için En Çok Olabilirlik Metodu kullanılır.
Parametreler tahmin edildikten sonra lojistik regresyon modelinin uyum iyiliği ölçütleri, parametre tahminlerinin
istatistiksel testleri ve tahmin edilen olasılıkların geçerliliği incelenir (Peng and So, 2002).
Bu çalışmada modelin genel anlamlılığı Likelihood Oran testi ile araştırılmış ve kurulan lojistik regresyon
modeli istatistiksel olarak anlamlı (LR = 645.701 (p < 0.000)) bulunmuştur. Nagelkerke R 2=0.622 olarak
hesaplanmıştır. Bu değer bağımlı değişkendeki değişimin %62.2’sinin kurulan model tarafından açıklandığını
göstermektedir. Paralel eğriler varsayımı sağlanmış (değer = 546.183 (p > 0.05)) ve tahmin edilen regresyon
katsayılarının bağımlı değişkenin her bir kategorisinde aynı olduğuna karar verilmiştir. Ayrıca kurulan modelin
gözlemlenen bireyleri doğru sınıflandırma oranı %72.76’dır. Model parametrelerinin anlamlılığı Wald istatistiği
159
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ile incelenmiş ve anlamlı bulunan parametrelerin yorumları odds oranları dikkate alınarak gerçekleştirilmiştir.
Özel markalı ürünlerin tercih edilme sıklığında gelir, meslek, yaş ve cinsiyet değişkenleri anlamlı bulunmuştur.
Ayrıca özel markalı ürünlerin kalitesi, kullanım ömrü ve pazarlama stratejilerine ilişkin bazı değişkenlerin de
yine özel markalı ürünlerin tercih edilme sıklığında anlamlı değişkenler olduğu gözlemlenmiştir.
KAYNAKLAR
[1] Ablar B.Ö. and Öksüz G. (2013), Özel Markalı Ürünlerin Pazarlanmasında Tutundurma
Stratejilerinin Etkisi, The Journal of Academic Social Science Studies, 6(7): 869-893.
[2] Hosmer D.W. and Lemeshow S. (2000), Applied Logistic Regression. John Wiley&Sons, Inc. pp:375.
[3] Peng C.Y.J. and So T.S.H. (2002). Logistic Regression Analysis and Repoting: A Primer. Teacing
Articles. Understanding Statistics, 1(1): 31-70.
AN INVESTIGATION OF CONSUMER DEMAND FOR PRIVATE LABEL PRODUCTS WITH
ORDINAL LOJISTIC REGRESION ANALYSIS
Private label products are goods with brand that is owned by the retailer or the distributer and is sold
only in its own outlets. They are often positioned as lower cost alternatives to regional, national or international
brands. But it has been observed that the market share of private label products demonstares an increasing
trend and they become competitor to quality national brand in the recent years. The aim of this study is to
determine the impact of socioeconomic variables on consumers’ preference for private label products and, in
addition, to assess consumers’ perception towards quality and marketing strategies of private label products.
Key Words: Private labels products, Ordinal Lojistic Regression, Consumers’ Preference
160
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SAĞLAM FAKTÖR ANALİZİ VE BİR UYGULAMA
Özlem ALPU*
Gamze GÜVEN
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26480 ESKİŞEHİR
[email protected]
[email protected]
1.
Giriş
Açıklayıcı faktör analizi çok sayıdaki değişkenin ilişki yapısını incelemek ve bu değişkenler arasındaki ilişkileri,
faktör olarak isimlendirilen çok daha az sayıdaki gözlenemeyen gizli değişkenler bakımından açıklamayı
sağlamak üzere düzenlenmiş çok değişkenli istatistiksel bir tekniktir.
Faktör analizinin altında yatan varsayımlar karşılanması oldukça zor varsayımlardır. Bununla birlikte pek
çok araştırmacı bu varsayımların gerekli olup olmadığını araştırmıştır. Klasik kestirimlerin bazı zayıf
varsayımlar altında iyi asimptotik özelliklere sahip olduğunu göstermişlerdir (Mooijaart ve Bentler, 1991;
Browne ve Shapiro, 1988). Klasik faktör analizi örneklem kovaryans veya örneklem korelasyon matrisinin
hesabıyla başlar ve modele göre bu matrisi ayrıştırarak ikinci adıma geçilir. Aykırı değerler birinci adımda
büyük bir etkiye sahip olduklarından bu yaklaşım veri setindeki aykırı değerlere karşı sağlam değildir.
Bu çalışmanın amacı aykırı değerlerin parametre kestirimlerini yanlı yapmayacak özellikte faktör analizi
metodunu kullanmaktır. Bu metot ise sağlam faktör analizi olarak isimlendirilir ve gerçekleşmesi araştırmacılar
tarafından zor bulunan parametrik model varsayımlarını hesaba katar. Sağlam metot aykırı değerlerin etkisini
azaltarak verilerin çoğunluğuna uyan modeli tahmin etmeye çalışır.
2.
Sağlam faktör analizi
Aykırı değerler her hangi bir uygulama alanındaki neredeyse her veri setinde ortaya çıkabilmektedir. Bazen
zararsızdırlar ve analize aykırı değerlerle devam edilse de, analiz öncesi silinse de sonuçları değiştirmeyebilirler.
Klasik çok değişkenli konum ve ölçek kestiricilerinden olan örneklem ortalaması ve örneklem kovaryans matrisi
eğer veriler normal dağılımdan geliyorsa optimaldir, ancak tek bir aykırı değerin varlığına dahi aşırı derecede
duyarlıdırlar. Veri setinde aykırı değer olması durumunda bu iki kestirici etkileneceğinden klasik faktör
analizinin performansı da bağlı olarak kötüleşecektir (Pison ve arkadaşları, 2003). Sağlam faktör analizi aykırı
değerlerin etkisine dirençli olan yapıyı oluşturmayı amaçlamaktadır.
Faktör analizi korelasyon veya kovaryans matrisine dayalı olduğundan, aykırı değerler kadar uç
değerler (extreme values) de faktör analizi üzerinde ciddi derecede etkiye sahip olabilir (Pison ve arkadaşları,
2003). Aykırı değerler istatistiksel analize başlamadan önce gözardı edilebilir, veya aykırı değerlerle başa
çıkabilecek istatistiksel metotlar kullanılabilir, ve uygun dönüşüm metotları aracılığıyla uç değerlerin etkisi
azaltılabilir. Ancak bu yollara nadiren başvurulmaktadır. Nedeni ise sonuçlarının ne olacağı konusundaki bilgi
eksikliği, veya aykırı değerlerin silinmesiyle/uç değerlere az ağırlık verilmesiyle faktörlerde beklenilen
sonuçların ortaya çıkmayacağı düşüncesi, üçüncü bir neden ise aykırı değerlerle kolaylıkla baş edebilecek
yazılımın genellikle mevcut olmamasıdır. Şu an için aykırı değerlerin etkisini azaltmanın en iyi (etkili) yolunun
faktör analizinin sağlam versiyonunu uygulamak olduğu söylenebilir. Böylelikle amaç aykırı değerleri ve uç
değerleri içeren tüm gözlem değerlerine uyan klasik faktör analizi yapmak yerine gözlem değerlerinin
çoğunluğuna uyan modeli tahmin etmek olacaktır. Sağlam faktör analizi kullanıldığında, aykırı değerler
belirlenebilir ve sağlam faktörler üzerindeki faktör skorları yorumlanabilir.
Faktör analizini sağlamlaştırmak için literatürde birkaç farklı metot yer almaktadır. Bu çalışmada
Rousseeuw (1985) tarafından önerilen minimum kovaryans determinantı (MCD) kestiricisi kullanılacaktır. MCD
oldukça sağlam bir kestirici olup bu kestiriciden daha önce popüler olan minimum hacimli elipsoit (MVE)
kestiricisinden daha hızlı bir şekilde yakınsama sağlamaktadır. Ayrıca Rousseeuw ve Van Driessen (1999)
tarafından MCD için geliştirilen yeni algoritma sayesinde çok hızlı bir şekilde hesaplama olanağı sunmaktadır.
Diğer taraftan MCD kovaryans matrisi aykırı değerlere karşı sağlam olduğundan, sağlam faktörlerin elde
edilmesine de olanak vermektedir.
.
161
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Browne M.W. and Shapiro A. (1988), Robustness of normal theory methods in the analysis of linear latent
variable models, British J. Math. Statist. Physchol., 41:193-208.
[2] Mooijaart A. and Bentler P.M. (1991), Robustness of normal theory statistics in structural equation models,
Statist. Neerland., 45:159-171.
[3] Pison G., Rousseeeuw P.J., Filzmoser P. and Croux C. (2003), Robust Factor Analysis, Journal of
Multivariate Analysis, 84, 145-172.
[4] Rousseeuw P.J. (1985), Multivariate estimation with high breakdown point, In W. Grossmann, G. Pflug, I.
Vincze, and W. Wertz (Eds.). (pp. 283-297). Mathematical statistics and applications, Vol. B.
Budapest: AkadCmiai Kiad6.
[5] Rousseeuw P.J. and Van Driessen K. (1999), A fast algorithm for the Minimum Covariance Determinant
estimator, Technometrics, 41:212–223.
ROBUST FACTOR ANALYSIS AND AN APPLICATION
Factor analysis is an important statistical tool in multivariate analysis. Many researchers have used
factor analysis in their researches at almost every branch of science. But the analysis is often applied without
testing whether the data support it, and violate assumptions required for the analysis, or if there are outliers or
not. Researchers might involuntarily misuse the analysis without changing the default settings on widely used
statistical packages, and might be unaware of the package limitations. This paper aims to compare classical
exploratory factor analysis with robust factor analysis in the presence of outliers on real data set.
Key Words: Robust factor analysis, robust estimation, outlier, multivariate analysis
162
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SIFIR DEĞER AĞIRLIKLI REGRESYON YARDIMIYLA MİDYE
PARAZİT SAYISI DAĞILIM FAKTÖRLERİNİN BELİRLENMESİ
Olcay ALPAY1*, Emel ÇANKAYA1, Nazan DANACIOĞLU1, Ahmet ÖZER2
1
Sinop Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü, 57000, Sinop, TÜRKİYE
Sinop Üniversitesi Su Ürünleri Fakültes Su Ürünleri Yetiştiriciliği Bölümü, 57000, Sinop, TÜRKİYE
2
[email protected], [email protected] , [email protected], [email protected]
Ekolojik çalışmaların tür popülasyon takibi uygulamalarında, tür sayılarının pek çok faktöre bağlı olarak aşırı
artış ya da azalış göstermesi ve hatta yok (sıfır değerli) olması durumuyla sıklıkla karşılaşılır. Bu tip sayım
verilerinin sıfır değerde aşırı yoğunluğu nedeniyle sağa çarpık dağılımlı olması, sıfır yayılmalı özel dağılımlar
kullanan regresyon yöntemlerinin geliştirilmesine neden olmuştur.
1.
Poisson Regresyon
Belli bir dönemde sayımla elde edilen verilerin modellenmesinde genellikle Poisson regresyon kullanılır.
Bağımlı değişken olan Y sayım verisi ile X açıklayıcı değişkenler arasındaki ilişki, Poisson dağılım parametresi
E  y x   V  y x   e X 
i
0
1x1i
pxpi)
(1)
ama ve
varyansının eşit olması gerekir. Bu varsayımın ekolojik verilerde sağlanması ise hemen hemen imkansızdır.
Yayılımın beklenenden fazla olması problemi, modele yayılım parametresi eklenmesine olanak sağlayan Negatif
Binom dağılımı ile çoğu zaman aşılabilir.
2.
Negatif Binom Regresyon
Geleneksel negatif binom modeli, poisson-gamma karma dağılımından türetilmiştir. Yirmiden fazla gösterimi
olan negatif binom regresyon modelinin genel formu:
  y   1   i   1 
P(Y  y | x) 

 

y !  1   1  i   1  i 

y
1
y  0,1,...
(2)
şeklinde verilebilir, burada   0 olan yayılım parametresidir.
3.
Sıfır Değer Ağırlıklı (Zero-inflated) Regresyon Modelleri
1992 yılında Lambert tarafından tanıtılan bu modeller, sıfırların sayısının çoğunlukta olduğu durumlarda
verilerin modellenmesini sağlayan diğer bir yöntemdir. Bu modeller bağımlı değişkenin sıfır değeri için
Bernoulli denemesi yapılarak belirlenen bir yoğunluk ve sıfır değerini de içeren sayım değerleri için kesikli bir
, sıfır ağırlıklı regresyon modelleri;
 i  1   i  P( Si  0)

P(Y  yi )  

(1   i ) P( Si  yi )
yi  0
yi  0
(3)
Burada S raslantı değişkenine ilişkin olasılıklar için herhangi bir kesikli dağılım seçilebilir. Genellikle Poisson
ya da Negatif Binom dağılımı tercih edildiğinden modeller ZIP ve ZINB olarak adlandırılır.
4. Hurdle (Engelli) Model
163
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Sıfır ağırlıklı modellere benzer bir model ise hurdle modeldir. İki bileşenin karması olan bu modelin birinci
bileşeni sıfır sayımlara (0) karşı pozitif sayımları (1) gösteren binary cevapları; ikincisi ise yalnız pozitif
sayımları içermektedir. Bernoulli denemeler ile kontrol edilen birinci bileşen sonucu pozitif sayımı gösterdiğinde
engel (hurdle) aşılarak, pozitif sayımların koşullu dağılımı olarak belirlenmiş sıfır değer-sınırlandırılmış
(truncated) kesikli bir dağılım kullanılır. Binary kısım logit, probit veya complementary loglog kullanılarak
modellenmektedir. Bu çalışmada logit bağ fonksiyonu ile ikinci kısım için Poisson ve Negatif Binom kesikli
dağılımları tercih edilmiştir.
 i
(1  wi ) e i
Hurdle (P):
(1  e i ) yi !
P(Y  yi ), yi  0 için modeller:
yi
ve
Hurdle (NB): (1  wi )
  yi   1  1   1 i 
yi !   1 
 ( yi  1 )
  y i y
i
1  1   1 i 

i
1
şeklindedir. Burada wi  P(Yi  0)
5. Uygulama
Türkiye için ekonomik değeri olan midye avcılığı ve yetiştiriciliği, midyenin enfekte olması durumunda önemli
bir kayba uğramaktadır. Bu çalışmada 2012-2013 döneminde Sinop ili İskele, Adabaşı ve Sarıada kıyı
bölgelerinde yakalanan midyelerde görülen dominant bir parazit türü olan Nematopsis legeri sayısı ile midye
kondisyon indeksi, su sıcaklığı, tuzluluğu, pH, Nitrit, Nitrat, Fosfat ölçümlerinin ilişkisinin modellemesi,
verilerin %50’den fazlasının sıfır değerli olması sebebiyle, yukarıda tanıtılan sıfır ağırlıklı kesikli modeller ile
yapılmıştır. Model kıyaslanmasında bilgi ölçütleri yanısıra Voung testinden faydalanılmıştır. İstatistiksel
analizlerde R 3.1.3 programı kullanılmıştır.
KAYNAKLAR
[1] Agresti, A. (1996), An Introduction to Categorical Data Analysis, USA, John Wiley & Sons.
[2] Hilbe, J.M. (2011), Negative Binomial Regression, New York, Cambridge University Press.
[3] Lawless, J.F. (1987), Negative binomial and mixed Poisson regression, The Canadian Journal of Statistics
Vol. 15, No.3, 209-225.
[4] Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A., Smith, G.M. (2009), Mixed Effects Models and
Extensions in Ecology with R, Springer.,
ABSTRACT
DETERMINATION OF FACTORS FOR THE DISTRIBUTION OF MUSSEL PARASITE NUMBERS
USING ZERO-INFLATED REGRESSION MODELS
Zero occurences of species counts appear in many ecological studies and for modelling purposes, new discrete
models that account for such zero values should be preferred to the classical regression models. This study
therefore aims to illustrate and compare the performances of some of the zero-inflated regression models: ZIP,
ZINB, Hurdle-Poisson and Hurdle-Negative Binomial for the determination of important biotic and abiotic
factors on the distribution of the most dominant parasite (Nematopsis legeri) counts, more than 50% of which is
zero-valued, on mussels collected monthly during 2012-2013 from the three coastal regions: Iskele, Adabası and
Sarıada, of Sinop city. Model comparisons were performed via information criterion and the Voung test.
Key Words: Poisson regression, Negative binomial regression, Zero-inflated regression model, Hurdle model
164
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TÜKETİCİLERİN NAYLON POŞET KULLANIMINA İLİŞKİN
TUTUM VE DAVRANIŞLARININ ARAŞTIRILMASI: ESKİŞEHİR İLİ
ÖRNEĞİ
Rana ŞEN DOĞAN Murat DOĞAN * Büşra AYKUT Duygu ÖZEN
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü,
[email protected] [email protected] [email protected] [email protected]
Araştırmanın Amacı ve Uygulanışı
Naylon poşetleri kullanmaya bu kadar alışmışken doğaya ve canlılara verdiği zararlar nedeniyle kullanımını
azaltmamız gereklidir. Naylon poşetlerin kullanımı, çevreye ve sağlığa verdiği zararlar nedeniyle bazı ülkelerde
ve şehirlerde (San Francisco, Paris, Bangladesh, Londra, Kenya, Kanada, Çin, İsrail, Taiwan) insanların
bilinçlendirilmesiyle hızla azalmaya başlamıştır. Alışverişten sonra market çıkışları, açık pazarlar ve AVM’ler
dikkatlice izlendiğinde gereksiz naylon poşet kullanımı görülmektedir. Alışverişlerde kullanılan naylon poşetler
tekrar tekrar başka amaçlar için kullanılmalıdır. Sebze, meyve, et ürünleri naylon ambalaj içerisinde satın
alınmamalı, naylon ambalaj yerine cam kavanozlar kullanılmalıdır. Günümüzde, bez torbaların eskisi kadar
maliyetli olmadığı bilinen bir gerçektir. Bu nedenle artık alış verişe gelirken tüketicilerin yanlarına bez
torbalarını getirmeleri, tekerlekli alışveriş çantası ve sepet kullanmaları tartışılmalıdır. Bu da tüketicilerin
gereksiz naylon poşet kullanımı konusunda bilinçlenmesi ve alışveriş merkezlerinin topluca bu konuda
geliştirecekleri politikalar ve motive edici kampanyalarla gerçekleşebilir.
İstatistiksel Analiz
Eskişehir il merkezinde bulunan Emek Mahallesi, Işıklar Mahallesi, Büyükdere Mahallesi, Hamamyolu,
Doktorlar Caddesi, İkieylül Caddesi, Cengiz Topel Caddesi, Özdilek AVM, Espark AVM ve Kanatlı AVM den
rassal olarak seçilen 321 bireye anket uygulanmıştır. Araştırmada SPSS paket programından yararlanılarak
Eskişehir il merkezindeki ailelerin naylon poşet kullanma niyetleri 24 değişken ile açıklanmaya çalışılmıştır
Anket yoluyla elde ettiğimiz verilere faktör analizi yapmadan önce 42 anket ile güvenilirlik testi yapılmıştır.
Croncbachs’Alpha (α) katsayısı 0.843 ile güvenirlilik sağlanmıştır. Ölçek 5’li likert tipindedir. Güvenilirlik
analizi 42 kişiye uygulanmıştır. Sonuçların güvenilir çıkmasından sonra rassal olarak seçilen 321 kişinin tümüne
faktör analizi uygulanmıştır.5’li Likert ölçeğindeki seçenekler Kesinlikle Katılıyorum, Katılıyorum, Kısmen,
Katılmıyorum ve Kesinlikle Katılmıyorum şeklindedir.
Bulgular
Katılımcılara market alışverişlerinden bir haftada ne kadar naylon poşet getirildiği sorulduğunda
%2,2’sinin hiç, %15.3’ ünün 1-2, %21.2’sinin 3-4, %15.3’ünün 5-6, %16,2’sinin 7-8, %12,8’inin 9-10 ve
%17,11’inin 11 ve üzeri adet naylon poşet getirdiğini belirtmişlerdir. 11 ve üzeri naylon poşet kullanımı cevabı
baz alındığında 1yılda minimum 572 adet naylon poşet kullanıldığı sonucuna ulaşılmaktadır. Maliyeti ise
20.71kr’a denk gelmektedir. Pazar alışverişleri de bu hesaplamalara dâhil edildiğinde 11 ve üzeri poşet kullanımı
için naylon poşetlerin maliyeti minimum 41.42kr ‘a denk gelmektedir.
Ailelerin üç kişi yaşadığı ve toplam alışverişlerinde 20 adet naylon poşet tükettikleri varsayıldığında
Eskişehir İl Merkezinde bulunan Odunpazarı ve Tepebaşı nüfusuna göre 1 yılda 8,788,059.696 tl naylon poşet
kullanımına harcanmaktadır. Bez torba kullandığımızda haftada 6 plastik torbayı kullanımdan çıkardığımız
düşünüldüğünde ayda 24 torba, yılda 312 torba, ortalama bir yaşam sürecince(77 yıl) 22 bin 024 torba
eder. Ülkemizde her beş kişiden biri bunu yaparsa yaşamımız süresince 34 milyar 357 milyon 440 bin plastik
torbadan kurtulmuş oluruz.
KAYNAKLAR
1) Chung, S.,(2008) Using plastic bag waste to assess the reliability of self-reported waste disposal data.
Elsevier. Ss:28
2) Jayaraman, K., Haron, H., Sung, G. B., Lin, S.K., (2011) Consumer reflections on the usage of plastic bags to
parcel hot edible items:An empirical study in Malaysia. Ss:18 3)Ohtomo, S., Ohnuma, S., (2014) Psyhological
interventional approach for reduce resource consumption: Reducing plastic bag usage at supermarkets. Ss:84
165
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
RESEARCHING CONSUMER ATTITUDES AND BEHAVIOR RELATED TO THE USE OF
PLASTIC BAGS: THE CASE OF ESKİŞEHİR
We are used to use so much nylon bag . We should reduce the use of nylon bags because of damaging
nature and biology.Survey was randomly selected 321 individuals from street Emek,Işıklar,Büyükdere,etc in
Eskişehir. The results were explained by 24 variables. Safety testing was conducted by 42 survey before factor
analysis.Cronbach's'alph A reliability coefficient of 0.843 was achieved When asking participants how many
nylon bag was used in a week in market shopping, assuming that the answer 11 and over nylon bags that means
min.572 nylon bags are used in one year. The cost corresponds to 20.71 piastre. When sunday shopping also is
included in these calculations of 11 and above ,total cost of the use of nylon bags is equal to min. 41.42 piastre.
Key Words: Unnecessary Use Of Plastic Bags, Factor Analysis, Cloth Bag
166
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 6
ZAMAN SERİLERİ
167
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÇOK DEĞİŞKENLİ ZAMAN SERİLERİNDE,
SANAYİ ÜRETİM ENDEKSLERİ ÜZERİNDEN,
BİR KISA DÖNEM VE UZUN DÖNEM
UYGULAMASI
Engün Aksüt
Çalışmada, Çok Değişkenli Zaman Serilerinde Kısa Dönem Ve Uzun Dönem İlişkileri hakkında bilgi
verilmiştir. Verilen teorik bilgiler bir uygulama ile hayata geçirildi. Uygulama Almanya, Fransa ve Türkiye için
aylık olarak takip edilen Sanayi Üretim Endeks serileri üzerinden yürütüldü. Serilerin analizinde uzun dönemli
hareketler için “Eşbütünleşme Testi kullanıldı. Serilerin kısa dönemli hareketleri için “Nedensellik Testi”
kullanıldı.
Uygulama için, 2005 Ocak ile 2015 Haziran ayları arasındaki (126 dönemlik) Almanya Sanayi Üretim
Endeksi (ASÜE), Fransa Sanayi Üretim Endeksi (FSÜE) ve Türkiye Sanayi Üretim Endeksi (TSÜE) serileri
kullanıldı. Analizler sonucunda ASÜE, FSÜE ve TSÜE serileri arasındaki uzun dönem ve kısa dönemli ilişkiler
ortaya çıkarıldı.
Sonuçlar Aksüt,2012 çalışması ile birlikte değerlendirildi. Aksüt, 2012 çalışmasından sonraki 45 aylık
vadede ortaya çıkan yeni durum değerlendirildi.
Yapılan değerlendirmelere göre, Almanya, Fransa ve Türkiye arasındaki sanayi sektörü ilişkileri ortaya
çıkartıldı. Ortaya çıkarılan ilişkiler ışığında, Türkiye’nin Avrupa Birliği (AB) üyelik sürecindeki uyumu
yorumlandı.
Anahtar Sözcükler: Çok değişkenli zaman serileri, uzun dönem, kısa dönem, Sanayi Üretim Endeksi
(SÜE), Eşbütünleşme Testi, Nedensellik Testi
168
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAOTİK ZAMAN SERİLERİ ANALİZİ: BIST100 ENDEKSİ
Ayşe İŞİ*, Fatih ÇEMREK**
* Gazi Üniversitesi, P.Sosyal Bilimler MYO, Gölbaşı Yerleşkesi/Ankara, [email protected]
**Eskişehir Osmangazi Üniversitesi Meşelik Kampüsü İstatistik Bölümü /Eskişehir [email protected]
1.
Giriş
Sözlük anlamı, “karışıklık, kargaşa” olan kaos kavramının bilim dünyasında pek çok tanımı olmasına
karşın kaotik verilerin modellenmesine esas teşkil edecek kaos tanımı, Gleick [1]’in “düzenli bir düzensizlik”
ifadesidir. Kaotik sistemlerin en önemli özellikleri, ünlü meteorolog Lorenz tarafından ortaya konan başlangıç
koşullarına hassas bağlılık göstermeleri ve Mandelbrot tarafından tanımlanan fraktal yapıya sahip olmalarıdır.
Başlangıç koşullarına hassas bağlılık gösteren ve fraktal yapıya sahip bir zaman serisinin kaotik yapısının
ortaya konması için öncelikle serinin doğrusal olup olmadığının incelenmesi daha sonra da dinamik sistemlerin
resimleri olarak tanımlanan çekicilerin konumlandığı faz uzayının yeniden yapılandırılması için zaman
gecikmesinin ve gömülü boyutun belirlenmesi gerekmektedir. Son olarak da Korelasyon boyutu ve Lyapunov
üstelleri incelenerek serinin kaotikliği konusunda bilgi sahibi olunmaktadır.
Bu çalışmanın amacı, söz konusu kaotik incelemelerin ampirik çalışmalarda nasıl kullanılacağını
BIST100 endeksi kapanış değerleri üzerinde uygulayarak anlatmaya çalışmaktır.
2.
BIST 100 Zaman Serisinin Kaotik İncelemesi
03.01.2011-20.07.2015 dönemini içeren 1135 gözlemlik BIST100 kapanış endeksi değerlerine ilişkin
Şekil.1’de verilen zaman serisi grafiği incelendiğinde serinin doğrusal olmayan bir yapıya sahip olduğu
görülmektedir. Ayrıca BDS testi ile serinin doğrusallığı incelenmiş ve serinin doğrusal olmayan bir yapıya sahip
olduğu belirlenmiştir.
Şekil 1. BIST100 Serisinin Zaman Grafiği
Doğrusal olmayan dinamik sistemler için en uygun zaman gecikmesi, Fraser ve Swinney [2]tarafından
önerilen ortalama karşılıklı bilgi (Avarage Mutual Information) yöntemi ile belirlenmektedir. BIST100 serisi için
zaman gecikmesinin bir fonksiyonu olan I  I (T ) ortalama karşılıklı bilgi değeri 20. gecikmede ilk minimum
değerini aldığından optimum gecikme değeri (  ) 20 olarak tahmin edilmiştir (Şekil 2).
Şekil 2. T=0,1,…,50 için Ortalama Karşılıklı Bilgi Grafiği
169
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Kaotik bir sistemin gömülü boyutunu belirlemek için Kennel, Brown ve Abarbanel [3] tarafından
geliştirilen Yanlış En Yakın Komşular (False Nearest Neighbours) yöntemi kullanılmaktadır. BIST100 serisi için
en yakın komşu değeri 6. ve 7. gecikme civarında sıfıra yaklaştığından en uygun gömülü boyut değeri, m=6
olarak tahmin edilmiştir ( Şekil 3).
Şekil 3. m=1,…,10 için Yanlış En Yakın Komşu Grafiği
Grassberger ve Procassia (1983) tarafından önerilen korelasyon boyutu, bir çekicinin fraktal boyutunun
belirlenmesi için kullanılmaktadır [4]. Kaotik sistemler için korelasyon boyutu genel olarak birden büyük
olmakta ve kesirli değerler almaktadır. BIST100 serisinin korelasyon boyutu değerlerinin birden büyük ve kesirli
değerler aldığı görülmektedir (Şekil 4).
Şekil 4. m=1,…,10 için Korelasyon Boyutu Grafiği
Bir zaman serisinin kaotik olduğunun kesin olarak belirlenmesi için Lyapunov üstelleri kullanılmaktadır.
En büyük Lyapunov üsteli (  max ) pozitif olduğunda, sistem kaotik olmaktadır. BIST100 serisi için hesaplanan
en büyük Lyapunov üsteli
max  0,0283 olarak tahmin edilmiştir.
Analiz sonuçları, BIST100 zaman serisinin deterministik kaos yapısına sahip olduğunu göstermektedir.
KAYNAKLAR
[1] Gleick, James, 1995, (Çev. Fikret Üçcan), TÜBİTAK.
[2] Fraser, A. M. and Swinney, H. L.,1986, Independent Coordinates for Strange Attractors
from
Mutual İnformation. Physical Reviews A, 33, 1134-1140.
[3] Kennel, M.B., Brown,R., and Abarbanel,H.D.I.,1992, Determining Embedding Dimension for PhaseSpace Reconstruction Using a Geometrical Construction, Physical Review A, 45(6), 3403-3411.
[4] Gkana,A. and Zachillas, L., (2015), Sunspot Numbers: Data Analysis, Predictions and Economic
Impacts, Journal of Engineering Science and Technology Review, 8(1), 79-85.
ABSTRACT
CHAOTIC TIME SERIES ANALYSIS: BIST100 INDICES
We analyze the daily BIST100 Indices closed values from 03.01.2011 to 20.07.2015 for the chaotic analysis. We
use the BDS test to nonlinearity analysis and use Avarage Mutual Information Criteria, False Nearest
Neighbours methods to determine the optimum embedding parameters for the recurrence phase space. Also we
calculate correlation dimension and Lyapunov exponents. The positive maximal Lyapunov exponent and the
results of other analysis indicate that the daily BIST100 closed values is a chaotic time series.
Key Words: Chaos, Chaotic time series analysis, BIST100 Indices.
170
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KESİRLİ SIKLIKLI ESNEK FORM FOURİER BOOTSTRAP BİRİM
KÖK TESTİ
1.
Furkan EMİRMAHMUTOĞLU
Tolga OMAY
Gazi Üniversitesi İ.İ.B.F Ekonometri Bölümü
Beşevler/Ankara
[email protected]
Çankaya Üniversitesi Bankacılık ve Finans Bölümü,
Ankara
[email protected]
Giriş
Literatürde serilerdeki çoklu yumuşak geçişli kırılmaların modellenmesi üzerinde pek çok yöntem
geliştirilmiştir. Becker vd. (2006), Enders ve Lee (2012a,b) ve Rodrigues ve Taylor (2012) tarafından çoklu
yumuşak geçişli kırılmalar Esnek Form Fourier (FFF) Dönüşümler yardımıyla modellenmiştir. Fourier yaklaşımı
ile bilinmeyen yapıdaki deterministik trend fonksiyonunun davranışı yansıtılabilmektedir. Fourier yaklaşımının
avantajı kırılmaların anlık veya yumuşak geçişli olup olmadığına aldırmayan kukla değişken yöntemlerinden
(örneğin Perron (1989, 1997) gibi) daha iyi çalışmakta ve kırılmaların tipi, sayısı ve zamanının seçimi gibi
problemlerden kaçınmaktadır. Fourier yaklaşımını ele alan yukarıdaki çalışmalarda fourier frekansının tam sayı
olduğu varsayılarak birim kök testleri geliştirilmiştir. Öte yandan Omay (2015) Enders ve Lee (2012b)’nin birim
kök testi yaklaşımını Becker vd. (2004)’ün Trig-testini dikkate alarak kesirli sıklıklı esnek formda fourier birim
kök testi olarak geliştirmiştir. Omay (2015) yeni geliştirdiği kesirli sıklıklı esnek formda fourier (FFFFF) birim
kök testinin sınırlı veri kümesinde Enders ve Lee (2012b)’den daha güçlü olduğunu göstermiştir.
Bu çalışmada Chang ve Park (2003) tarafından geliştirilen Sieve Bootstrap yöntemi kullanılarak Omay
(2015)’in kesirli sıklıklı esnek form fourier birim kök testinin bootstrap versiyonu önerilmiştir. Önerilen
bootstrap birim kök testinin sınırlı veri kümesinde testin I. tip hata olasılığı ve gücü incelenmiştir.
2.
FFFFF’li Birim Kök Testi
Omay (2015) aşağıda verilen regresyon eşitliğini kullanarak H 0 : 
 1 birim kök yokluk hipotezini test
etmektedir.
p
 2k * t 
 2k * t 
yt     t  1 sin 
  1 cos 
   yt 1    j yt  j   t
j 1
 T 
 T 
Burada
k*
(1)
kesirli fourier frekansı göstermektedir ve Becker vd. (2004) tarafından önerilen trig-test
yöntemiyle tahmin edilmektedir.
H 0 :   1 yokluk hipotezini test etmek için gereken kritik değerler Omay
(2015) çalışmasında yer almaktadır.
Bu çalışmada Omay (2015)’ten farklı olarak test istatistiğinin ( t ˆ ) ampirik dağılımı Chang ve Park
(2003) tarafından önerilen Sieve Bootstrap yöntemi kullanılarak elde edilecektir.
3.
Sınırlı Örnek Performansı
Sieve Bootstrap yaklaşımına dayanan FFFFF birim kök testi için sınırlı veri kümesinde testin I. tip hata
olasılığı ve gücünün incelenmesi için aşağıda verilen veri üretim süreci (DGP) kullanılmıştır.
 2k * t 
 2k * t 
yt  1 sin 


cos
 1

  xt
 T 
 T 
(2)
171
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
xt   xt 1  ut
(3)
ut  0.4ut 1   t
DGP’de
1  3
ve
 t ~ iid N (0,1)
1  5
(4)
olarak atanmıştır. Aynı zamanda testin I. tip hata olasılığı için
  1 , güç için
ise   0.9 alınmıştır. k değerleri ise 1.1’den başlayarak 1.9’a kadar alınmıştır. Testin sınırlı örneklerde
performansını incelemek için 5000 simülasyon deneyi yapıldı ve her simülasyon deneyinde de 999 bootstrap
tekrarı kullanılarak kritik değerler elde edilmiştir.
*
Sabit Terimli
k* / T
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
50
5.48
5.14
5.04
5.82
4.44
5.46
4.70
5.20
4.90
I. Tip Hata
100 200 500
4.92 4.88 5.02
4.78 5.48 5.80
4.72 5.30 4.78
4.66 5.06 5.34
5.08 5.22 4.78
5.12 4.82 4.78
4.90 4.48 5.02
4.36 4.48 4.98
4.86 4.96 5.26
50
10.22
10.40
10.26
11.12
10.58
10.48
11.16
10.36
10.94
Güç
100 200
16.74 46.76
18.58 49.88
19.36 53.76
20.50 55.88
22.04 58.80
24.18 62.36
23.40 64.78
25.82 66.18
25.48 67.30
Sabit Terim ve Trendli
500
99.82
99.86
99.88
99.94
99.94
99.98
99.96
99.98
100
50
5.26
5.44
4.80
5.28
5.36
4.96
5.36
5.54
4.78
100
4.74
5.44
5.20
4.94
5.50
4.76
5.08
4.98
4.70
200
4.60
4.96
4.90
4.68
5.20
5.62
5.00
5.36
5.22
500
4.78
5.14
5.24
5.24
4.42
4.96
4.34
5.16
5.28
50
5.88
6.72
6.04
6.20
7.16
8.02
7.02
7.64
7.70
II.
100
8.54
8.78
9.42
10.08
11.20
11.30
11.90
12.56
11.96
Tip Hata
200 500
24.90 96.62
25.40 97.00
26.46 96.86
27.06 97.36
28.70 97.72
31.46 98.06
31.76 98.46
33.68 99.04
36.92 99.08
KAYNAKLAR
[1]
Becker, R., Enders, W., Hurn, S. (2004), A General Test for Time Dependence in
Parameters. Journal of Applied Econometrics, 19, 899–906
[2] Chang Y., Park J.Y. (2003), A Sieve Bootstrap for The Test of A Unit Root, Journal of Time Series
Analysis, 24(4), 379-400
[3] Enders, W., Lee, J. (2012b), The flexible Fourier form and Dickey–Fuller Type Unit Root Tests, Economics
Letters, 117, 196–199
[4] Omay T. (2015), Fractional Frequency Flexible Fourier Form to Approximate Smooth
Breaks in Unit Root Testing, Economics Letters, 134, 123-126
ABSTRACT
A BOOTSTRAP UNIT ROOT TEST USING FRACTIONAL FREQUENCY FLEXIBLE
FOURIER FORM
In this study, we propose a unit root based on the sieve bootstrap methodology for Fractional Frequency
Flexible Fourier Form DF-type unit root test proposed by Omay (2015). Proposed test has good size and power
properties.
Key Words: Fractional Frequency Flexible Fourier Form, Structural break, Nonlinear trend, Sieve Bootstrap
172
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
YILLIK SICAKLIK ANOMALİLERİNİN MODELLENMESİ
Hülya ŞEN1 ,Hakkı POLAT2
1
Yrd.Doç. Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
Doktora Öğrencisi Eskişehir Osmangazi Üniversitesi İstatistik Bölümü
1
[email protected], [email protected]
2
1.Günlük Sıcaklık Anomalilerinin Modellenmesi
Sıcaklık anomalileri, küresel iklim değişikliğinin önemli göstergelerinden biridir. Bu nedenle iklimbilimciler
açısından bu anomalilerin analiz edilmesi ve modellenmesi önemlidir. Bu anomalilerin sebepleri ve diğer
etkenlerle ilişkisi bazı çalışmalarda araştırılsa da sahip olduğu karakteristikleri doğrudan istatistiksel yöntemler
ile açıklamaya çalışan araştırma sayısı çok azdır. Bu çalışmada, Amerikan Uzay ve Havacılık Dairesi (NASA)
tarafından dünyanın birçok yerinde günlük olarak ölçülen sıcaklık anomalilerinin modellenmesine çalışılmıştır.
Çalışma sonucunda, Engle (1982) tarafından bulunan Otoregresif Koşullu Değişen Varyans (ARCH) modelinin
sıcaklık anomalilerin zamana bağlı olarak değişen varyansını modellemede de başarılı olduğu görülmüştür.
Meydana gelen sıcaklık anomalilerinin altında yatan sebepleri araştırmak için literatürde birçok çalışma
yapılmıştır. Bu çalışmaların çoğu sıcaklık anomalilerinin altında yatan temel sebep olarak sera gazları etkisini
göstermektedir (Boer vd., 1992; Hegerl vd., 1996; Shindell vd., 1999; Houghton ve Callander, 1992; Boer vd.,
2000; Watson vd., 1996). Söz konusu anomalilerin birçok farklı etkisinin olduğu yapılan çalışmalarda
gösterilmiştir. Anomalilerin, olağandışı sıcaklık artışlarına (Schär vd., 2004) yada azalışlarına (Shindell vd.,
1999), yağış rejimlerinde değişikliklere (Reason ve Mulenga, 1999), fırtına yada hortum gibi güçlü ve yıkıcı
hava olaylarına (Timmermann, vd., 1999) yada atmosfer katmanlarındaki iklim karakteristiklerinin değişmesine
(Chiang ve Sobel, 2002) yol açtığı söylenebilir. Etkilerinin çok farklı ve küresel boyutta olmasından dolayı söz
konusu anomalilerin modellenmesi ve iyi analiz edilmesi son derece önemlidir ve literatürde bu yönde yapılmış
gerçek ve simülatif birçok çalışma da mevcuttur. Reynolds (1988), okyanus ve yüzey sıcaklarında meydana
gelen anomalileri gerçek zamanlı verileri dikkate alan bir modelle açıklamaya çalışmıştır. Bunun yanında temel
istatistiksel yaklaşımları dikkate alan çalışmalarda mevcuttur. Diodato, vd., (2013), İtalya ve Adriyatik denizi
civarındaki ölçüm istasyonlarından elde edilen uzun dönemli sıcaklık anomali verilerini analiz ederek lineer
olmayan bir regresyon modeli ile modellemeyi başarmışlardır. Tatlı ve Şen (1998) Türkiye için Kandilli
Rasathanesinden elde edilen günlük en yüksek sıcaklık değerlerini dikkate alarak zaman serileri analizlerinin
dışında alternatif bir bulanık modelleme yaklaşımı ile modellemeye çalışmışlardır. Söz konusu zamana bağlı bir
değişkenin analiz edilmesi olduğunda zaman periyodunu mümkün olduğunca geniş almakta fayda vardır.
Efstathiou, vd., (2011), 1850-2010 yılları arasında okyanus yüzeyinde meydana gelen sıcaklık anomalilerini baz
alan temel zaman serileri yaklaşımlarını kullanarak trend etkisini araştırmış ve çalışmaları sonucunda trend
etkisini gideren bir model önermişlerdir. Kärner ve Freitas (2010) ise kısa dönemli modeller yerine uzun dönemli
etkileri içeren bir analiz önererek 1855-2009 yılları arasındaki sıcaklık anomalilerini Box&Jenkins metodu ile
modellemişlerdir. Yapılan çalışmalar çok farklı yaklaşımlar ve varyasyonlar içerse de hiç biri söz konusu
anomaliler için zamana bağlı koşullu olarak değişen varyansı açıklamak için bir model önermemişlerdir. Bu
çalışma; Amerikan Uzay ve Havacılık Dairesinin (NASA) sıcaklık anomalilerini ölçen Goddard Uzay
Araştırmaları Enstitüsü (Goddard Institute for Space Studies (GISS)) tarafından derlenen 1880-2014 arası kara
yüzey sıcaklık anomalilerini Engle (1982) tarafından temeli atılan ve daha sonra birçok varyasyonu geliştirilen
ARCH&GARCH modelleri ile modelleyecektir. Çalışma söz konusu veriler için böyle bir yaklaşımı kullanması
açısından literatürde bir ilk olma özelliğini taşımaktadır. Öncelikli olarak Yıllık Küresel Sıcaklık Anomalilerini
içeren serinin kartezyen grafiği aşağıda verilmiştir. Şekil.1 incelendiğinde grafiğin sürekli olarak artan bir trende
sahip olduğu görülecektir. Özellikle 1970’li yıllardan sonraki trenddeki bu artışın daha da belirginleştiği ve 2010
yılına yaklaşıldığında zirve yaptığı görülecektir. Bu aşamadan sonra elde edilen ARCH&GARCH modeline
ilişkin veriler Tablo.1’de verilmiştir. Tablo.1 incelendiğinde ARCH&GARCH modellerinin küresel yıllık
sıcaklık anomalilerini modellemekte başarılı oldukları söylenebilir.
Model
Akaike Hata Kriteri
Schwarz Hata Kriteri
GARCH(1,1)
-1,38
-1,25
GARCH(0,2)
-1,31
-1,18
E-GARCH(1,2)
-1,32
-1,15
Tablo 3.ARCH&GARCH Model Sonuçları
173
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Global Annual Temperature Anomalies
1.2
0.8
0.4
0.0
-0.4
-0.8
80
90
00
10
20
30
40
50
60
70
80
90
00
10
Şekil 4.1880-2014 Yılları Arası Yıllık Küresel Sıcaklık
KAYNAKLAR
[1] Boer, G. J., Flato, G., & Ramsden, D. (2000). A transient climate change simulation with greenhouse gas and
aerosol forcing: projected climate to the twenty-first century. Climate Dynamics, 16(6), 427-450.
[2] Boer, G. J., McFarlane, N. A., & Lazare, M. (1992). Greenhouse gas-induced climate change simulated with
the CCC second-generation general circulation model. Journal of Climate, 5(10), 1045-1077.
[3] Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of econometrics,
31(3), 307-327.
[4] Chiang, J. C., & Sobel, A. H. (2002). Tropical tropospheric temperature variations caused by ENSO and
their influence on the remote tropical climate. Journal of climate, 15(18), 2616-2631.
[5] Diodato, N., Bellocchi, G., Bertolin, C., & Camuffo, D. (2013). Mixed nonlinear regression for modelling
historical temperatures in Central–Southern Italy. Theoretical and applied climatology, 113(1-2), 187-196.
[6] Efstathiou, M. N., Tzanis, C., Cracknell, A. P., & Varotsos, C. A. (2011). New features of land and sea
surface temperature anomalies. International journal of remote sensing, 32(11), 3231-3238.
[7] Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United
Kingdom inflation. Econometrica: Journal of the Econometric Society, 987-1007.
[8] Hegerl, G. C., voN SToRcH, H., Hasselmann, K., Santer, B. D., Cubasch, U., & Jones, P. D. (1996).
Detecting greenhouse-gas-induced climate change with an optimal fingerprint method. Journal of Climate,
9(10), 2281-2306.
[9] Houghton, J. T., & Callander, B. A. (1992). Climate change 1992: the supplementary report to the IPCC
scientific assessment. Cambridge University Press.
[10] Kärner, O., & de Freitas, C. R. (2012). Modelling long-term variability in daily air temperature time series
for southern hemisphere stations. Environmental Modeling & Assessment, 17(3), 221-229.
[11] Lai Y.J. and Hwang C.L. (1992), Fuzzy Mathematical Programming, Berlin-Heidelberg, Springer-Verlag
[12] Reason, C. J. C., & Mulenga, H. (1999). Relationships between South African rainfall and SST anomalies
in the southwest Indian Ocean. International Journal of Climatology, 19(15), 1651-1673.
[13] Reynolds, R. W. (1988). A real-time global sea surface temperature analysis. J. of climate, 1(1), 75-87.
[14] Schär, C., Vidale, P. L., Lüthi, D., Frei, C., Häberli, C., Liniger, M. A., & Appenzeller, C. (2004). The role
of increasing temperature variability in European summer heatwaves. Nature, 427(6972), 332-336.
[15] Shindell, D. T., Miller, R. L., Schmidt, G. A., & Pandolfo, L. (1999). Simulation of recent northern winter
climate trends by greenhouse-gas forcing. Nature, 399(6735), 452-455.
[16] Tatli, H., & Sen, Z. (1999). A new fuzzy modeling approach for predicting the maximum daily temperature
from a time series. Journal of Engineering and Environmental Science, 23, 173-180.
[17] Timmermann, A., Oberhuber, J., Bacher, A., Esch, M., Latif, M., & Roeckner, E. (1999). Increased El Niño
frequency in a climate model forced by future greenhouse warming. Nature, 398(6729), 694-697.
[18] Watson, R. T., Zinyowera, M. C., & Moss, R. H. (1996). Climate Change 1995 impacts, adaptations and
mitigation of climate change: Scientific-technical analysis. Cambridge University Press.
MODELLING ANNUAL GLOBAL TEMPERATURE ANOMALIES
Temperature anomalies an important indicator for global climate changes. Therefore modelling and analyzing
this anomalies is important for climate researchers. Although some researches explain behavior and
relationship with other effect, modelling and directly analyzing by the statistical methods is very rare for thus
anomalies. In this study, working to analyze, annual global temperature anomalies, recording by National
Aeronautics and Space Administration (NASA) from all around the world. Finally it is spotted that, trials
successful for modelling thus anomalisms conditional variances by ARCH model family which developed by
Engle (1982).
Key Words: Annual Global Temperature Anomalies, Climate Changes, Time Series Analysis, Volatility Models
174
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 6
GÜVENİRLİK
175
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
COHEN KAPPA’NIN META ANALİZİ VE BİR TANI TESTİ
UYGULAMASI
Davut CANLI
Yüksel TERZİ
Ordu Üniversitesi
Fen Edebiyat Fakültesi
Matematik Bölümü 52200, ORDU
[email protected]
Ondokuz Mayıs Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü 55139, SAMSUN
[email protected]
Spearman (1904) tarafından ortaya atılan klasik test teorisine göre gözlenen puan, gerçek puan, ile ölçüm
kaynaklı hata puanının toplamı olarak ifade edilir (
) [3]. Güvenilirlik ise bu teoriye dayalı olarak
gerçek puan varyansının gözlenen puan varyansına oranı olarak tanımlanır. Literatürde ölçümlerin güvenilirliğini
tahmin etmeye olanak veren birçok farklı istatistik mevcuttur. Cohen Kappa, güvenilirlik katsayısı da bahsi
geçen istatistikler arasında yer alan çok önemli ve geniş kullanım alanına sahip bir istatistiktir [4]. İlk olarak
Jacob Cohen (1960) tarafından ortaya atılan katsayı, iki kategorili nitel bir değişken için iki puanlayıcı arasındaki
karşılıklı uyumun güvenilirliğini tahmin etmede kullanılır [2]. Şansa bağlı uyumun hesaba katılması sebebiyle
benzer uyum katsayıları ile karşılaştırıldığında daha sağlam sonuçlar verdiği düşünülmektedir.
katsayısı,
matematiksel olarak
gözlenen uyumu ve
şansa bağlı beklenen uyumu göstermek üzere (1)’deki gibi
bulunur.
(1)
Meta analizi ise son günlerde popülerliği gittikçe artan, farklı yer ve zamanda yürütülmüş benzer çalışmaların
sistematik olarak derlenip toplanmasına ve bu çalışmalardan elde edilen sonuçların birleştirilip daha genel bir
sonuç elde etmeye ve yorumlamaya olanak veren istatiksel bir yöntem bilimidir. Çalışmalardan elde edilen özet
istatistikler meta analizinde etki büyüklüğü olarak adlandırılır [1]. Bahsi geçen etki büyüklüklerinin güven
katsayıları olarak ele alınması halinde özel bir takım yöntemler ile meta analiz çalışması sürdürülebilmektedir.
Güven katsayılarına bu meta analitik yaklaşımların uygulanması yıllar öncesine dayansa da Vacha-Haase (1998),
tarafından literatürde güvenilirlik genelleştirmesi olarak kavramlaştırılmış ve sonrasında bu tür çalışmalar bu
kavram ile de anılmaya başlanmıştır. Vacha-Haase, çalışmasında ayrıca bu tür meta analitik yaklaşımların güven
katsayılarına uygulanmasına üç ana neden göstermiş ve bu nedenleri şu şekilde belirtmiştir. “Güvenilirlik
genelleştirmesi, (a) çalışmalarda verilen bir test için puanların karakteristik güvenilirliğini, (b) verilen ölçümler
için güven katsayılarındaki değişkenliğin miktarını ve (c) çalışmalardan elde edilen güven katsayılarındaki
değişkenliğin kaynaklarını” saptamada kullanılır [5].
Bu çalışmada, güvenilirlik katsayısına ilişkin meta analitik yöntemler tanıtılmış ve katsayının güvenilirlik
ölçütü olarak yer aldığı belirli bir tanı testine uygulaması yapılmıştır. Sistematik tarama sonucu ile tanı testinden
elde edilen
tahminleri birleştirilerek testin karakteristik güvenilirliği saptanmaya çalışılmış, güven
katsayılarının çalışmadan çalışmaya gösterdiği değişkenlik ölçülmüş ve değişkenliğin kaynakları araştırılmıştır.
Son olarak mevcut bulgular üzerine yorumlama yapılmıştır.
Anahtar Kelimeler: Cohen Kappa, Puanlayıcılar arası güvenilirlik, Meta-analizi, Güvenilirlik genelleştirmesi
KAYNAKLAR
[1] Borenstein M., Hedges L. V., Higgins J. P. T. & Rothstein H. R., Meta-Analize Giriş Çev. Serkan Dinçer.
Anı Yayıncılık, Ankara 2013.
176
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
[2] Cohen J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and Psychological
Measurement 20: 37-46
[3] Spearman C. E. (1904), The proof and measurement of association between two things The American
Journal of Psychology, 15(1), 72-101.
[4] Sun S. (2011), Meta Analysis of Cohen’s Kappa, Health Services and Outcomes Research Methodology,
Springer-US.
[5] Vacha-Haase T. (1998), Reliability generalization: exploring variance in measurement error affecting
score reliability across studies, Educational and Psychological Measurement, 58, 6-20.
ABSTRACT
META ANALYSIS OF COHEN’S KAPPA AND AN APPLICATION OF A DIAGNOSTIC TEST
In this study, the Meta analytic methods for the reliability coefficient,
was introduced and an
application of a specific diagnostic test reporting coefficient as an estimate of reliability was performed. After
a systematic review, the collected estimates of obtained by this diagnostic test was combined and analyzed to
characterize the typical reliability of the test scores, the amount of the variability in reliability coefficients and
the sources of the existing variability. Finally, an interpretation on present findings was given.
Key Words: Cohen’s Kappa, Inter-rater reliability, Meta-analysis, Reliability generalization
177
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ETKİ-TEPKİ MODELİ İÇİN YENİ BİR GÜVENİLİRLİK SKORU
Gökhan GÖKDERE, Mehmet GÜRCAN
Fırat Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 23119, Elazığ, Türkiye
[email protected], [email protected]
1.
Giriş
Teknik sistemlerin güvenilirliği modern bilimin geldiği bugünkü noktada önemli araştırma konularının
başında gelmektedir. Son zamanlarda yapılan birçok çalışmada bu problem belirlenen bir veya birkaç etki altında
çalışan makinenin çalışma performansının değerlendirilmesi ve sonrasında sistem için bir çalışma endeksinin
hesaplanmasıyla çözülmektedir. Bu noktada
Pr X  Y 
olasılığı temel olarak alınmaktadır. Yapılan bu


çalışmada konuya önemli bir farklılık katacak olan nokta Pr X  Y olasılığının yerine Kullback- Leibler
divergence kullanılmasıdır.
Çok durumlu sistem modellerinde sistem ve sistemi oluşturan bileşenlerin seviyeleri 0,1,2,…,M olabilen
M+1 olası durumda olabilir. Burada “0” tamamen arızalı durumu, “M ” mükemmel çalışan durumu ve diğerleri
farklı seviyelerdeki çalışma durumlarını göstermektedir. Aslında, iki ayırt edici özelliğe sahip (mükemmel
çalışan ve tamamen arızalı) ikili sistem çok durumlu sistemin en basit bir durumudur. İkili sistemde, her bir
bileşen ve sistemin durum uzayı {0,1} olarak kabul edilir.
Etki-dayanıklılık modelleri güvenilirlik analizinde özel bir önem taşımaktadır. Etki- dayanıklılık
modellerinde hem sistemin dayanıklılığını gösteren Y hem de sisteme uygulanan etkiyi gösteren X tesadüfî
değişken olarak ele alınır. Sistemin güvenilirliği,
P X  Y  


 F xdGx   G xdF x



(1)







şeklinde ifade edilmektedir. Burada F x  P X  x , G x  P Y  x ve G x  1  G x dir.
Literatürde etki-dayanıklılık modelleri üzerine yapılmış birçok çalışma mevcuttur [1].
Kullback-Leibler divergence (KLd), iki tesadüfi değişkenin dağılımları arasındaki uzaklığı ölçmek amacıyla
kullanılmaktadır [2]. P ve
Q’
nun yoğunluk fonksiyonları sırasıyla
px 
ve
q x 
olmak üzere P ’den
Q ’nun KLd’si aşağıdaki gibi elde edilir:
DKL PQ    px  log
Burada,
2.
px 
dx .
q x 
(2)
DKL PQ   0 ve DKL PQ   DKL QP dir.
Yeni Güvenilirlik Skoru
Y t  tepkisinin sürekli
Gt x   PY t   x kümülatif dağılım fonksiyonuna sahip olduğu ve zaman içerisinde sabit X 1 ve X 2
Bu bölümde, sisteme uygulanan etkilere karşı ortaya çıkan ve zaman geçtikçe azalan
etkilerinin de sürekli
Fl x   PX l  x, l  1,2 dağılım fonksiyonuna sahip bağımsız aynı dağılımlı
oldukları kabul edildi.
Weibull süreci, zaman içerisinde değişen olayları modellemede kullanışlı olduğundan
  x   
 , x  0
Gt x   1  exp  
   t   
(3)
ve

  x
Fl x   1  exp  


  l






, x  0


(4)
olarak ele alındı. Bu varsayımlar altında (1), (3) ve (4) kullanılarak güvenilirlik fonksiyonu
178
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Rl t   PX l  Y t  
şeklinde hesaplanabilir.
1
1   l  t 
, t 0

Y t  ’den X l ’nin
(5)
KLd’sini hesaplayabilmek için (3) ve (4)’ün olasılık yoğunluk
fonksiyonları (2)’de kullanılırsa

  t  
  
  1
DKL Y t X l   log l   

  t  
 l 

(6)
elde edilir. (5) ve (6)’da
 t  
Rl t  
ve DKL Y t X l   log
1
1  t l c 

c
t
alınırsa sırasıyla
olur. Yukarıda verilen eşitliklerde ilk olarak

 c
 t l 
  
 c 
 t l


  1

c , t ,  ve  l parametrelerinin seçilmiş değerleri için tablolar
  t2 
  t 1  
oluşturulup ve daha sonra da tablo değerleri için  t   1   t 
u1
 u2 
 t1
eşitliği kullanılırsa yeni bir güvenilirlik skoru elde edilebilir. Yukarıda verilen eşitlikte
1,  t1  0
DKL Y t X 1 , t1  t  t 2 2 u1 , t 2  t
1







0



, t
, t
ve


t
1
0,
t  t1

 0, t  t 2
0,  t  0
 t1  
ul  supt DKL Y t X l  olarak ele alındı. Ayrıca t1 ve t 2 sırasıyla DKL Y t X 1  ve DKL Y t X 2 
değerlerinin sıfıra eşit oldukları anlar olarak kabul edildi.
KAYNAKLAR
[1] Kotz S., Lumelskii Y. and Pensky M. (2003), The Stress-Strength Model and its Generalizations. Theory and
Applications, Singapore: World Scientific.
[2] Kullback S. and Leibler R. A. (1951), On information and sufficiency. Ann.Math.Statist.
NEW RELIABILITY SCORE FOR STRESS-STRENGTH MODEL
ABSTRACT
The reliability of technical systems is one of the most important research subjects in the point reached by
modern science today. In many recent studies this problem is solved by evaluating the operation performance of
determined one or more machines operating under stress and then calculating an operation index. At this point,
Pr X  Y  is taken as a basis. In this study the point that will add an important difference to the subject is
that Kullback- Leibler Divergence will be used instead of Pr X  Y  .
Key Words: Stress-Strength model, Multi-state systems, Kullback-Leibler divergence.
179
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İKİ-BAĞIMLI-BİLEŞENLİ KARARLI YEDEĞE ANAHTARLAMA İLE
GEÇİŞ YAPAN SİSTEMİN GÜVENİRLİK ÖZELLİKLERİ
Mehmet YILMAZa , Muhammet BEKÇİb, Birol TOPÇUc
a
Ankara Üniversitesi Fen Fakültesi İstatistik Bölümü, Tandoğan,ANKARA,
b
Cumhuriyet Üniversitesi, Fen Fakültesi, İstatistik Bölümü, SİVAS
c
Namık Kemal Üniversitesi, Tıp Fakültesi, Biyoistatistik Anabilim Dalı, TEKİRDAĞ
[email protected], [email protected], [email protected]
1.
Giriş
Parçanın yaşam zamanı ile birlikteliği olan bir diğer yaşam zamanlı parçanın oluşturduğu paralel sisteme
anahtarlama yapılarak bir sistem oluşturulmaktadır. Bu sisteme göre, anahtar I konumunda iken parçanın
sadece kendisi verilen işlevi yürütmek ile görevlendirilmiştir. Anahtar II konumunda iken birlikteliği olan bir
diğer parça ile paralel bağlı olacak biçimde verilmiş olan işlevi yürütmektedirler (bkz. Şekil1).
Şekil 5 Anahtar ile bağımlı paralel sisteme geçiş
2.
Sistemin Yapısının Oluşturulması
Asıl parçanın (A) yaşam zamanı , sisteme sonradan dahil olan parçanın (B) yaşam zamanı
olmak üzere, bu
iki yaşam zamanının ortak yaşam fonksiyonu Farlie- Gumbel- Morgenstern dağılım ailesinden geldiği
varsayılmaktadır.
ve
biçiminde tanımlanmak üzere,
(1)
rasgele vektörünün yaşam fonksiyonunu temsil etmektedir (Morgenstern, 1956, Gumbel, 1960). Burada
birliktelik parametresini göstermektedir. Parçaların yaşam zamanları sırası ile
ortalamalı üstel dağılım
olarak ele alınmıştır.
Anahtarın konumunu (I ve II) belirleyen ve ikili değer alan rasgele değişken
şeklinde tanımlansın. Bu rasgele değişken parçaların çalışma zamanlarından bağımsız olarak değer almaktadır
yani anahtarın konumunu değiştirmesi parçaların çalışma durumlarından bağımsızdır. Sistemin yaşam zamanı ise
rasgele değişkeni ile ifade edilsin;
Sistemin yaşam fonksiyonu,
şeklinde ifade edilir. Yukarıdaki tanımlamalara ve varsayımlara dayanarak
180
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
sistemin yaşam fonksiyonunun açık şekli elde edilir.
3.
Sistemin Güvenirlik Özellikleri
Önerilen sistemin bozulma oranı anahtarın konum geçiş olasılığı
göstermektedir.
ve birliktelik parametresine
göre esneklik
Şekil 6 Çeşitli anahtar olasılıklarına ve birliktelik parametresi değerlerine göre sistem yaşam zamanına
iatbozulma oranı grafikleri
Bu bağlamda, böyle bir kurgusu olan sistemin güvenirlik özelliklerinin incelenmesi (bozulma oranı, ortalama
kalan ömür) ve bazı sıralamaların elde edilmesi amaçlanmaktadır.
KAYNAKLAR
[1] Gumbel, E. J. (1960). Bivariate exponential distributions, Journal of American Statistical Association, 55,
pp. 698-707.
[2] Morgenstern, D. (1956). Einfache Beispiele zweidimensionaler Verteilungen, Mitteilungsblatt fuÈr
Mathematische Statistik, 8, pp. 234-235.
[3] Joo, S., Mi, J. (2010). Some properties of hazard rate functions of systems with two components. Journal of
Statistical Planning and Inference, 140(2), 444-453.
ÖZET
RELIABILITY PROPERTIES OF THE SYSTEM CONSTRUCTED BY SWITCHING
BETWEEN ONE COMPONENT AND TWO-DEPENDENT UNIT REDUNDANT STANDBY SYSTEM
In this work, we consider a system with switching towards to standby redundant system composed of two
dependent components. Marginal distributions of component lifetimes are exponential and joint distribution
belongs to Farlie-Gumbel-Morgenstern family. We examine reliability properties of switching system such as
shape of hazard rate function, mean residual lifetime and investigate some stochastic orders under determined
circumstances on parameter spaces.
Key Words: Switching system, Farlie-Gumbel-Morgenstern distribution, redundant system, hazard rate
181
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TUTARLI SİSTEMLERİN ORTAK GÜVENİLİRLİK ve ORTAK ARIZA BİLEŞEN
ÖNEM ÖLÇÜMLERİ
Yunus BULUT1, Yusuf KIRAÇ2, Mehmet GÜNGÖR3, M. Şamil ŞIK 4
Açık İletişim Adresi: 1,3,4İnönü Üniversitesi, İİBF, Ekonometri Bölümü, 44280, Malatya, 2Siirt Üniversitesi,
TBMYO, 56100, Siirt
E-mail: [email protected], [email protected], [email protected], [email protected]
1.
GİRİŞ
Tutarlı sistemlerin geliştirilmesinde ve tasarımında kritik rol oynayan bileşen önem ölçüleri arasında en
çok kullanılan Birnbaum Güvenilirlik Önem Ölçümü’dür. Birnbaum önem ölçümü, Marjinal Güvenilirlik Önem
Ölçümü (MRI) olarak da bilinmektedir. MRI, sistemdeki herhangi bir bileşenin güvenilirliğindeki değişimin,
sistem güvenilirliğindeki değişime oranı olarak tanımlanır [2]. En yüksek MRI ölçümüne sahip bileşenlerin
güvenilirliğindeki gelişmeler sistem güvenilirliğinde en büyük artışa neden olur. Fakat; MRI, sisteminde yer alan
birden fazla bileşenin, sistem güvenilirliğini nasıl etkilediği hakkında bilgi vermez. MRI’nin bu eksikliğini
ortadan kaldırmak için, Ortak Güvenilirlik Önem Ölçümü (JRI) tanımlanmıştır. MRI ve JRI, bileşen ve sistemin
çalışması üzerine kurulmuştur. MRI ve JRI ile benzer şekilde Marjinal Arıza Önem Ölçümü (MFI) ve Ortak
Arıza Önem Ölçümü (JFI), tanımlanmıştır [1,3]. Fakat, MFI ve JRI, bileşen ve sistemin çalışmaması üzerine
kurulmuştur [3]. Bu çalışmada, JRI ve JFI, tutarlı sistemler için incelenmiştir.
2. TUTARLI SİSTEMLERİN ORTAK GÜVENİLİRLİK ve ORTAK ARIZA BİLEŞEN ÖNEM
ÖLÇÜMLERİ
n tane bileşenden oluşan bir tutarlı sistemin güvenilirliği
ölçümü,
MRI(ci )=
R  p 
pi
R  p
olmak üzere, ci bileşenlerinin MRI
;i=1,2,3,...,n
ile tanımlanır. Burada, ci bileşeninin güvenilirliği pi olmak üzere,
oluşturan bileşenler aralarında bağımsız ise esas ayrışım yardımı ile
p   p1 ,p2 ,...,pn  ’dir[5].
Sistemi
MRI(ci )=R 1i , p  -R  0i , p 
eşitliği yazılabilir. Burada, R 1i , p  , i. bileşenin çalışması şartı altında sistemin güvenilirliğini ve R  0i , p  ,
i. bileşenin arızalı olma şartı altında sistemin güvenilirliğini belirtmektedir[5]. Bu çalışmada, benzer ifadeler
için aynı yorumlar yapılacaktır.
Bir tutarlı sistemde; i. ve j. bileşenler için JRI,
JRI  ci ,c j  
2 R  p
pi p j
;i  j ve i,j=1,2,3,...,n
şeklinde tanımlanmıştır [4]. JRI, sistem güvenilirliğinin belirlenmesinde hangi bileşenlerin etkileşimde olduğunu
gösterir. Bağımsız c1
ve c2 bileşenleri için esas ayrışım yardımı ile JRI,
JRI  c1 ,c2   R 11 ,12 , p   R 11 , 02 , p   R  01 ,12 , p   R  01 , 02 , p 
şeklinde de yazılabilir [4].
c1 ,c2 ve c3 gibi üç bileşenin JRI ölçümü
182
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
JRI  c1 ,c2 , c3  
3 R  p 
p1p2p3
eşitliği ile tanımlanır.
c1 ,c2 ve c3 bileşenleri bağımsız ise esas ayrışım yardımı ile
JRI  c1 ,c2 , c3   R 11 ,12 ,13 , p   R 11 ,12 , 03 , p   R 11 , 02 ,13 , p  -R  01 ,12 ,13 , p 
 R 11 , 02 , 03 , p +R  01 ,12 , 03 , p   R  01 , 02 ,13 , p   R  01 , 02 , 03 , p 
eşitliği yazılabilir[4].
JFI de JRI’ye benzerdir. JFI’de bileşenlerin ve sistemin arızalı olması durumu göz önüne alınır. Her
hangi bir
ci bileşeninin Marjinal Arıza Önem Ölçümü (MFI)
MFI  ci =
şeklinde tanımlanır.
R  q 
c1 ve c2 bileşenlerinin JFI ölçümü de
JFI  c1 , c2 =
qi
2 R q 
q1q2
ile tanımlanmıştır [3].
JRI&MRI, JRI&JFI ve JFI&MFI arasında bazı ilişkiler kurulmuştur [3].
KAYNAKLAR
[1] Armstrong, M.J., Joint reliability-importance of components, IEEE Transactions on Reliability 44 (3)
,408–411, 1995.
[2] Barlow, R.E. and F. Proschan, Importance of system components and Fault Tree evens, Stochastic
Process and Their Applications 3 (1), 153–173, 1975.
[3] Gao, X. , Cui, L. and J. Li, Analysis for joint reliability importance of components in coherent
systems,European Journal of Operational Research182, 282–299, 2007.
[4] Hong, J.S. , Koo, H.Y. and Lie, C.H. Joint reliability importance of k-out-of-n systems, European
Journal of Operational Research 142 539–547, 2002.
[5] L.W. Birnbaum, On the importance of different in a multi-component system, in: Krisnaiah
(Ed), Multivariate Analysis II, Academic Press., pp. 581-592, 1966.
ABSTRACT
JOINT RELIABILITY IMPORTANCE AND JOINT FAILURE IMPORTANCE OF COHERENT
SYSTEMS’ COMPONENTS
In this study, we examined the relationships of marginal (joint) reliability importance and marginal
(joint) failure importance of coherent systems’ components.
Key Words: System Reliability, Coherent Systems, Marginal Reliability Importance, Joint Reliability
Importance, Joint Failure Importance
183
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 7
MULTIVARIATE STATISTICS
184
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
PAIRWISE TO MULTI-CLASS CLASSIFICATION USING SUPPORT
VECTOR MACHINES
Engin TAŞ
Afyon Kocatepe Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü, Afyonkarahisar
[email protected]
Abstract
Any binary or multi-class classification problem can be transformed into a pairwise prediction problem. This
expands the data and brings an advantage of learning from a richer set of examples, in the expense of increasing
costs when the data is in higher dimensions. Therefore, this study proposes to adopt an online support vector
machine to work with pairs of examples. This modified algorithm is suitable for large data sets due to its online
nature and also can handle the sparsity structure existing in the data. Performances of the pairwise setting and the
direct setting are compared in two problems from different domains. Results indicate that the pairwise setting
outperforms the direct setting significantly. We also demonstrated the effect of sample size on the classification
performance in a document classification task and observed that the classification performances are increased
linearly with the sample size.
Keywords: online learning; pairwise learning; support vector machines; kernel methods; multi-class
classification
1.
Introduction
The central idea of Support Vector Machine (SVM) is to construct an optimal separating hyperplane
over linearly separable data [1]. It can also learn a large margin hyperplane over linearly inseparable data by
using kernels and soft margin formulations. However, SVM is originally designed for binary classification and
there are two principal approaches for extending SVM to the multi-class scenario. One approach is to generalize
the binary algorithm to multi-class [2, 3], another approach is to decompose the multiclass problem into a series
of binary problems. The earliest and one of the most widely used implementations is the one-against-all
approach (see, for example, [4]) which constructs M binary SVM classifiers, each of which separates one class
from all the rest. The ith SVM is trained with all the training examples of the ith class with positive labels, and
all the others with negative labels. Pairwise classification is an alternative technique for solving multiclass
problems by considering pairwise comparisons obtained from each of the two-class problems [5]. A test
observation is assigned to the class that wins the most pairwise comparisons.
We compared the classification performance of the pairwise setting and the direct setting according to the
classification accuracy (ACC) and the area under the ROC curve (AUC). Figure 1 summarizes results from 20Newsgroups dataset using 3x5 cross validation. We see that the pairwise settings achieved significantly better
classification performances than the direct setting. There is statistically insignificant little difference between
performances of MLPK and TPPK, but MLPK leads to slightly better results than TPPK in the first set of
experiments. In the second set of experiments, we tried to see the effect of enriching the original data by forming
pairs using several combinations of documents. Therefore, we generated training pair data sets with sample sizes
ranging from 10000 to 250000. Results indicated that indirect setting performs significantly better than the direct
setting. Among the pairwise kernels, TPPK has better ACC and AUC scores. We also tested the gaussian kernel
in conjunction with pairwise kernels and see that the gaussian kernel performs poor in this data set. This is due to
the curse of dimensionality, gaussian kernel has lost the sense of locality. In the second set of experiments
MLPK is slightly better than TPPK. We think that this difference arose from the fact that MPLK imposes a
symmetry on the pairwise relations.
185
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Figure 1. Classification performances in 20-newsgroups data set using criteria a)ACC b)AUC
References
[1] B. Boser, I. Guyon, V. Vapnik, A training algorithm for optimal margin classifiers, in: Proceedings of the
Fifth annual workshop on Computational learning theory, ACM, pp. 144-152.
[2] J. Weston, C. Watkins, Support vector machines for multi-class pattern recognition, in: Proceedings of the
seventh European symposium on artificial neural networks, volume 4, pp. 219-224.
[3] E. Mayoraz, E. Alpaydin, Support vector machines for multi-class classification, Engineering Applications of
Bio-Inspired Artificial Neural Networks (1999) 833-842.
[4] T. Dietterich, G. Bakiri, Solving multiclass learning problems via error correcting output codes, Journal of
Artificial Intelligence Research 2 (1995) 286.
[5] J. Friedman, Another approach to polychotomous classification, Technical Report, Technical report, Stanford
University, Department of Statistics, 1996.
186
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Performance Comparison of Some Classification Techniques**
ZEHRA KARHAN1, Taner TunÇ2
Ondokuz Mayıs Üniversitesi, SAMSUN/TÜRKİYE
[email protected] , [email protected]
The right decisions in the field of health is very important to be able to effectively and quickly. [1]. With the
increase of patient data it has accumulated a large amount of health records. Therefore be processed data
generated by health care operations are very complex and can not be analyzed by conventional methods is
voluminous. At this stage, the data into useful information for healthcare decision-making data mining has
become increasingly more important to convert these mounds[2]. The most difficult point encountered in
medical science is the process of discovery of useful information[3]. Diagnostic analysis of the process
parameters is difficult and time consuming. Therefore, data mining techniques have been developed to design
automated diagnostic systems. This issue of the medical diagnostic field of health benefits due to the use of
classification techniques is increasing[4-5]. Data mining and classification techniques with this aspect of
statistics, database technology, signal and signal processing, artificial intelligence and is used in many fields [6].
In this paper, the masses in mammograms data and blood values in the lungs data make it possible to reach a
judgment about the disease. Disease process related classification; k-nearest neighbor, Naive Bayes, support
vector machines, neural networks, logistic regression algorithms are implemented using.Classification process
related disease k-nearest neighbor, Naive Bayes, support vector machines, neural networks, algorithms are
implemented using logistic regression. After the classification process on two separate data success rates were
compared between classification algorithms.
The experimental results showed that classification techniques give different results on two different datasets.
Therefore, the classification technique which showed the highest accuracy rate and lowest error rate over two
datasets has been selected as the best classification technique. Results demonstrated that the SVM classifier is
faster and significantly more reliable than other classification techniques on mammographic mass and lung
cancer datasets. This technique can be applied on medical datasets to help physicians to make more accurate
decisions about determination of classification.
REFERENCES
[1]. The Henry J Kaiser Family Foundation, http://kff.org/health-costs/
[2]. H.C. Koh and G. Tan, “Data mining applications in healthcare,” Journal of Healthcare Information Management,
Vol.19 (2), pp.64-72, 2005.
[3]. S. Gupta, D. Kumar, and A. Sharma, “Performance analysis of various data mining classification techniques on
healthcare data”
International Journal of Computer Science & Information Technology (IJCSIT), Vol. 3(4), August 2011.
[4].V. Anuja Kumari, R.Chitra, “ Classification Of Diabetes Disease Using Support Vector Machine”, International
Journal of Engineering
Research and Applications (IJERA), Vol. 3(2), pp.1797-1801, March -April 2013.
[5]. N. Hirokawa and R. Takemura, "Biochemical and molecular characterization of diseases linked to motor
proteins," Trends Biochem Sci, Vol. 28, pp. 558-65, Oct 2003.
[6]. Özekeş S. , “Veri Madenciliği Modelleri Ve Uygulama Alanları” İstanbul Ticaret Üniversitesi Dergisi 2003.
Abstract
In this study, done using some classification algorithms classification data on lung cancer and mammograms
audience was given a comparative performance data. Age of patient data in the lungs and some blood
parameters used information; mammogram data contained in the independent categorical variables were used.
187
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
These variables; mammograms in the form of mass, the edge information is information on the intensity of the
patient's age. Normalization process necessary before the classification is made on the variables. Classification
phase of the data mining classification algorithms commonly used in the k-nearest neighbor, support vector
machines, neural networks, Naive Bayes and logistic regression methods were used. Accuracy rate of between
classifiers, sensitivity, precision criteria are given as comparative. As a result, the accuracy of the classification
is performed on these two separate data that showed the best results compared to other algorithms used support
vector machine.
Keywords
K-Nearest Neighbor, Naive Bayes, Support Vector Machines, Neural Networks, Logistic Regression.
*Note of the Editors:
The full version of this extended abstract (5 pages) is supposed to be submitted to the Journals proposed by the
Conference. The original 5 page abstract is shortened due to the requirements of Extended Abstract announced at
the website of the Confremce.
188
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
STATISTICAL ANALYSIS OF GENE EXPRESSION
Pelin AKIN
Ondokuz mayıs üniversitesi ,Fen Edebiyat Fakültesi ,istatistik bölümü ,55139 Samsun/Türkiye
E-mail :[email protected]
The data are taken from Hodgman et al. work which is uncovering a regulatory switch controlling the
tomato fruit ripening. AP2 is a major regulator of tomato fruit ripening and in the fruit pericarp, AP2a regulates
the expression of CNR in a negative attitude [1]. Levels of CNR and AP2 gene expression in Wild-type tomato
and Mutant type tomato were compared in order to investigate the mechanism of ethylene action [2]. Every type
is divided eight break points. In Wild type is observed two variables in the each first and third breakpoints and
in other each breakpoints have three variables. Totally, Wild type has twenty two variables. Another type has
three observation for each breakpoints, totally it has twenty four variables. The aim of the study is investigating
whether significant to breakpoints and Wild and Mutant types for CNR and AP2 level. Linear model is used for
data and looking significance of the time and types (Wild, Mutant).
In this project, type and time columns are made. Type column is included the “0” and “1”. “0” represents
the Wild type and “1” representing the Mutant type. Time column is included the “0,1,...,7” which represents
breakpoints. Firstly, it is looked model for CNR. General model is; R–squared is approximately 85 % of
variation in CNR can be explained by our model (Time and type). First fitted model is If we look p value all
significant over the model. It was made a graph which is shown mean level of CNR for Wild and Mutant types.
Wild and Mutant types of CNR are oscillations look like sine and a period of oscillations is 2 days for Wild type,
3 days for Mutant type. The other linear model is transformed with a sine function and R–squared is
approximately 85 % of variation in CNR can be explained by our model. Model ’s p value is small and model is
significant. The other model is weighted least squares. The reason of using it is Wild type has twenty two
variables, however Mutant type has twenty four variables so the model can be non-constant variance of error. R
squared is approximately 84%. All p values are smaller than 0.05 so all parameters are significant. Akaike
Information criterion values and the first model (727.2861) is smaller than the second model (728.9092) and
third model (731.5996) so the first model is the best model. In summary, oscillations are not significant for CNR
level.
Secondly, linear model and weighted least square are used for AP2 level of Wild and Mutant type. Linear
model does not transform with other functions because the graph of the mean level of AP2 for Wild and Mutant
is demonstrated the oscillations are not clear. Firstly, it is checked general linear model. The result of R squared
81 %. In addition , time is not significant so time (breakpoints) is not important when the model explanations for
AP2 level in the model. The second model is weighted least squares and can be described 80% of variation in
AP2 with type point. The last model’s Akaike Information Criterion valuable are smallest in this model
(639.1420). As a result, time is not significant for the level of AP2 and weighted least model is beneficial than
the linear model. The last model is weighted least model only with type points. Akaike information about the
last model is the smallest in this model.
The result of linear model time and type variables are significant for CNR level. In addition, we reached
constant variance and oscillations are not significant for the CNR level of Mutant and Wild types. AP2 level of
the Wild and Mutant types have non-constant variance of errors so in this project applied the linear model and
weighted least model. Two of the models are time is not significant so time (breakpoints) is not important when
the model explanations for AP2 level.
REFERENCES
[1] Karlova, R., et al.: Transcriptome and metabolite profiling show that apetala2a is a major regulator of
tomato fruit ripening. The Plant Cell, 23:923,941, March 2011.
[2]Chung, M. et al.: A tomato (solanum lycopersicum) apetala2/erf gene,slap2a, is a negative regulator of
fruit ripening. The Plant Journal, 2010.
189
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
PROGRESS OF MONITORING AFTER DECOMPRESSION – TIME
SERIES AND CLUSTER ANALYSIS
Karel HRACH
J.E.Purkyne University in Usti nad Labem, Faculty of Health Studies, 40096 Usti nad Labem, CZECH REP.
[email protected]
1.
Introduction
In our study during observing neurological patients lactate/pyruvate ratio (LPR), glycerol (GLY), glucose (GLU)
and oxygen (PTI) values are monitored. One of the goals was to find out the similarities among these variables.
Some of the statistical results were published e.g. at the ISCB congress (Hrach, 2014). This contribution is
dedicated to the data processing of the first three patients. Their parameters had been monitored after the
decompression surgery for at least five days (the maximum was nine days).
2.
Statistical methods
The over-four-hour averages were calculated and standardised (because of different scales). Resulting time series
represent the day means. The line plot (see Figure1) and cluster analysis (see Figure2) were applied to these time
series to illustrate and to detect the similarities among them. SW STATISTICA was used.
Line Plot of multiple variables
STAND5-DAYAVERindep 20v*5c
1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
0
1
2
3
4
5
Figure1. Day means for five days after the surgery (standardised variables)
190
6
sGLU
sGLY
sPTI
sLPR
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Tree Diagramfor 4 Variables
Single Linkage
Euclidean distances
sGLU
sLPR
sGLY
sPTI
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
Linkage Distance
Figure2. Results of clustering (standardised variables)
3.
Statistical results
Based on these first three patients, glycerol (GLY) and oxygen (PTI) showed very similar (mostly) decreasing
trend. LP ratio (LPR) started with a decrease during the first day of monitoring, but it showed an increasing trend
then. Firstly, glucose (GLU) looked like LP ratio but in the end it decreased again.
Applying two-means clustering glycerol and oxygen belonged to the first cluster, while LP ratio and glucose
joined within the second cluster. Glycerol and oxygen were significantly correlated (r=0.89).
The study is conducted in the co-operation between Krajská zdravotní, a.s. (Neurosurgery Clinic) and J. E.
Purkyně University in Ústí nad Labem (the Faculty of Health Studies), with the support of a project grant from
the Czech Ministry of Health (NT13883-4/2012).
REFERENCES
[1] Hrach K. (2014), Progress of bilateral monitoring - case study, Abstract Book, 35th ISCB Congress,
Vienna, 24.-28. 8. 2014.
191
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 7
VERİ MADENCİLİĞİ
192
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MÜŞTERİ KAMPANYA GERİ DÖNÜŞ ORANLARININ RFM
YÖNTEMİ İLE ARTIRILMASI
M. Özgür DOLGUN*, Derya ERSEL
DATAMIND, Bestekar Sokak, 42/1, Kavaklıdere, Ankara, Türkiye
Hacettepe Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06800, Ankara, Türkiye
E-mail: [email protected], [email protected]
1.
Giriş
Son yıllarda, birçok sektörde baskı ve rekabetin hızla artması nedeniyle firmalar kitle pazarlama yöntemleri
yerine doğrudan pazarlama yöntemlerini daha çok tercih etmektedirler. Doğrudan pazarlama, bir firmanın olası
müşteri kitlesini belirlemesi ve bu müşteri kitlesine ürettiği ürünün tanıtımını yapmasıdır.
Bir doğrudan pazarlama yöntemi olan RFM (Recency, Frequency, Monetary) analizi ile müşterilerin en son ne
zaman (recency), ne sıklıkta (frequency) ve ne kadarlık harcama (monetary) yaptıkları incelenerek müşterilerin
davranış ve değer segmentleri belirlenmeye çalışılır. Veri depolama tekniklerinin gelişmesi ve büyük veri
tabanlarının ortaya çıkması ile birlikte RFM analizinin gerçekleştirilmesinde veri madenciliği yöntemleri sıklıkla
tercih edilmektedir. RFM analizi ile veri madenciliği tekniklerinin bir arada kullanılması şimdiki ve olası
müşteriler hakkında ayrıntılı ve yararlı bilginin elde edilmesini sağlar. RFM analizi sonucunda elde edilen RFM
skorları kullanılarak, araştırmanın amacına göre kümeleme, sınıflandırma, birliktelik analizi gibi veri
madenciliğinde kullanılan tüm tekniklerinden yararlanılabilir [1, 2].
Bu çalışmada, bir süper marketin gerçekleştireceği bir kampanyaya geri dönüş yapacak müşterilerin
belirlenmesinde RFM analizi ile birlikte sınıflandırma yöntemlerinden karar ağacı algoritmalarından CHAID,
C&R Tree ve C5.0 yöntemleri kullanılmıştır.
2.
Plan ve Yöntem
Verilere sahip olan firmanın;
i.
ii.
iii.
iv.
v.
Müşteri veri tabanı,
Kampanya veri tabanı,
İşlemsel veri tabanı,
Ürün veri tabanı ve
Finansal veri tabanlarında
yer alan verilere erişilip birleştirilerek analiz aşamasında kullanılacak olan ilgili data mart elde edilmiştir. Nihai
olarak kullanılacak olan verilere ilişkin ekran çıktıları aşağıda verişmiştir.
Şekil 1. İşlemsel Veriler
Şekil 2. Müşteri Verileri
193
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Şekil 3. Kampanya Verisi
Şekil 4. RFM Verisi
Analiz sonucunda;
1. Kampanyaya geri dönüş yapmayı etkileyen önemli değişkenler,
2. Kampanyaya geri dönüş yapan müşteri profili,
3. Müşteri değer segmentleri ve
4. Kampanyaya geri dönüş olasılığı yüksek olan hedef liste
elde edilmiştir.
KAYNAKLAR
[1] Birant, D. (2011), Data Mining Using RFM Analysis, Knowledge-Oriented Applications in Data Mining,
Prof. Kimito Funatsu (Ed.), ISBN: 978-953-307-154-1, InTech.
[2] Han J., Kamber M. and Pei, J. (2011), Data Mining: Concepts and Techniques, The Morgan Kaufmann,
Third Edition.
ABSTRACT
INCREASE CAMPAIGN RESPONSE RATES WITH RFM ANALYSIS
In recent years, due to the rapid increase in pressure and competition in many sectors, companies tend to
prefer direct marketing instead of mass marketing. Direct marketing is determining a company's potential
customers and promoting its products to them. With RFM analysis which is a direct marketing method, the best
customers are determined by investigating how recently customers has purchased, how often they purchase and
how much they spends. In this study, RFM analysis and data mining classification methods are used to
determine the customers who will likely to return to the campaign which will be performed by a supermarket.
Key Words: RFM Analysis, Classification, Decision Trees, Neural Networks, Data Mining
194
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KÜMELEME ANALİZİ YARDIMIYLA OECD ÜLKELERİNİN YEŞİL
BÜYÜME GÖSTERGELERİNE GÖRE DEĞERLENDİRİLMESİ
Murat ÇOLAK, Ali İhsan BOYACI, Gülşen AKMAN
Kocaeli Üniversitesi, Endüstri Mühendisliği Bölümü, Umuttepe Yerleşkesi,41380, Kocaeli
[email protected],[email protected],[email protected]
Günümüzde artan nüfus ve üretim ihtiyacı sanayi faaliyetlerinin artmasına neden olmaktadır. Sanayi
faaliyetlerinin artmasının bir sonucu olarak CO2 salınımının yüksek seviyelere çıktığı görülmektedir. Bu
durumda başta küresel ısınma olmak üzere birçok çevresel soruna yol açmaktadır. Bu bağlamda ülkeler CO2
salınımını en aza indirecek üretim teknolojilerini daha çok tercih etmektedirler. Son zamanlarda yaşanan
çevresel ve ekonomik problemlerin bir sonucu olarak yeşil büyüme ve yeşil ekonomi kavramları ortaya
çıkmıştır. Yeşil büyüme çevreye en az zarar verecek ürün ve hizmetlerin üretim ve tüketimini teşvik eden bir
bakış açısı olarak tanımlanabilir. Bu yaklaşım ile çevresel sürdürülebilirlik, ekonomik gelişmişlik ve istihdam
imkanlarının artması mümkün görülmektedir. Ekonomik Kalkınma ve İşbirliği Örgütü (OECD) yeşil büyüme
kavramına önem vermekte ve sürdürülebilir kalkınma ile yeşil büyüme arasında iyi bir ilişki olduğunu
belirtmektedir. OECD ortaya koyduğu yeşil büyüme göstergeleri ile üye ve üye olmayan ülkelerin yeşil büyüme
verilerini ortaya koymaktadır. Bu çalışmada OECD üyesi olan 34 ülkenin ortaya koyulan 20 kriter açısından
yeşil büyümelerine göre değerlendirilmesi amaçlanmıştır. Bir OECD ülkesi olan Türkiye’nin yeşil büyüme
konusunda nerede olduğunu ve diğer ülkelerle karşılaştırıldığında ne durumda olduğunu incelemek
hedeflenmiştir. Faktör analizi yardımı ile 20 değişken 7 değişkene indirgenmiştir. Sonraki aşamada faktör analizi
sonucunda elde edilen değişkenler yardımıyla kümeleme analizi yapılmıştır. Kümeleme analizinde kümeler arası
benzerliğin minimum küme içi benzerliğin maksimum olması amaçlanmış ve K-ortalamalar yöntemi
kullanılmıştır. Çalışmanın adımlarına ilişkin akış şeması Şekil 1’de verilmiştir:
Değerlendirmede Kullanılacak Kriterlerin ve
Ülkelerin Belirlenmesi
Verilerin Toplanması ve Analize Uygun Hale
Getirilmesi
Faktör Analizi Yardımıyla Kriter Sayısının
Azaltılması
Kümeleme Analizinin Yapılması
Sonuçların Değerlendirilmesi ve Türkiye’nin Diğer
OECD Ülkeleri İle Karşılaştırılması
Şekil 1. Akış Şeması
195
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çalışmada kullanılan değerlendirme kriterleri OECD verilerinden elde edilmiş ve Çizelge 1’de
sunulmuştur:
Çizelge 1. Değerlendirmede Kullanılan Kriterler
Değerlendirme Kriterleri
C2:
C11: Mera Oranı
C1: Gayri Safi Yurtiçi Hasıla
Kilometrekare
Başına
Nüfus
Yoğunluğu
C12: Orman Oranı
C3: Üretime Dayalı CO2 Salınımı
C4:
Verimliliği
C5:
Yoğunluğu
Üretime
Dayalı
CO2
Üretime
Dayalı
CO2
C13: Nüfus İle İlgili Atık Su Miktarı
C14:
Harcamaları
Çevresel
AR-GE'de
Halk
C15: Yeşil Patent Sayısı
C16: Hibrit ve Elektrikli Araç Patent
Sayısı
C17: Binalarda Enerji Verimliliği İle İlgili
Patent Sayısı
C6: Talep Tabanlı CO2 Verimliliği
C7: Yenilenebilir Enerji Tedariği
C8: Yenilenebilir Enerjiye Dayalı Elektrik
Enerjisi Üretim Miktarı
C18: Yenilenebilir Enerji Patent Sayısı
C9: Toplam Tatlı Su Çıkarımı
C19: Toplam Resmi Kalkınma Yardımı
C10: Ekilebilir Arazi ve Tarla
C20: Toplam Çevre Vergileri
Oranı
Kümeleme analizi sırasında farklı küme sayıları denenmiş ve ANOVA tablolarının incelenmesi sonucu
küme sayısı 5 olarak belirlenmiştir. 34 OECD ülkesinin yer aldığı kümeler Çizelge 2’de verilmiştir:
Çizelge 2. OECD ülkelerinin yeşil büyümelerine göre yer aldığı kümeler
K
K
Ülke
Ülke
üme No
üme No
Almanya
Belçika
Birleşik Krallık
Çek Cumhuriyeti
Hollanda
İsrail
İtalya
Kore
Macaristan
Polonya
Şili
Türkiye
Amerika
Japonya
Avusturalya
Estonya
Finlandiya
1
1
1
1
1
1
1
1
1
1
1
1
2
2
3
3
3
Kanada
Lüksemburg
Yeni Zelanda
Avusturya
Danimarka
Fransa
İrlanda
İspanya
İsveç
İsviçre
Meksika
Norveç
Portekiz
Slovakya
Slovenya
Yunanistan
İzlanda
3
3
3
4
4
4
4
4
4
4
4
4
4
4
4
4
5
ABSTRACT
EVALUATION OF OECD COUNTRIES ACCORDING TO GREEN GROWTH INDICATORS USING
CLUSTERING ANALYSIS
In this study, it is aimed to assess 34 OECD countries in terms of 20 criteria which are green growth indicators.
After reducing 20 criteria to 7 factors using factor analysis, a clustering analysis is performed with these
factors. Countries are collected in five groups. Finally Turkey is compared with other countries as a OECD
country.
Key Words: Green Growth, OECD Countries, Clustering Analysis, Factor Analysis.
196
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BANKA SADAKATİNE İLİŞKİN BİR YAPISAL EŞİTLİK MODELİ
ÖNERİSİ
Erkan ARI*
Dumlupınar Üniversitesi, İ.İ.B.F Ekonometri Bölümü, Kütahya. e-posta:[email protected]
Veysel YILMAZ; Rana DOĞAN
Eskişehir Osmangazi Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Eskişehir. eposta:[email protected]; [email protected]
1. GİRİŞ
İçinde bulunduğumuz hızla gelişen bilgi ve teknoloji çağında, işletmelerin çağın gerisinde kalmamak ve
sektördeki diğer rakiplerine üstünlük sağlamak için dikkat etmesi gereken hususlardan en önemlisi müşterilerini
iyi tanımaları, onların beklentilerini ve bu beklentilerin nasıl karşılanabileceğini bilmeleridir (Gençtürk vd.,
2011:62). Bu bağlamda bankacılık; halkla ilişkiler faaliyetlerinin en gelişkin olduğu iş kollarından birisidir ve
teknolojik gelişmeleri anında uygulamaya sokan bankacılık işkolu, değişime öncülük etmektedir. Halkla ilişkiler
faaliyetlerinin yoğunluğuna karşın, bu faaliyetlerin önemi hiçbir zaman azalmamakta ve her geçen gün daha da
önem kazanmaktadır (Özdemir, 2012:5).
Son dönemlerdeki sıkı rekabet nedeniyle müşteri memnuniyeti, müşteri tutma ve müşteri hizmetlerine
odaklanmak herhangi bir bankanın varlığını devam ettirebilmesi için daha da önemli hale gelmiş ve bankacılık
işlemlerinde müşteri memnuniyet anahtar faktör olarak kabul edilmiştir (Kaytancı vd., 2013: 802).
2. YÖNTEM
2.1. Araştırma Modeli ve Hipotezler
Araştırma modeli, banka müşterilerinin bankalar tarafından sunulan hizmetlerden algıları ile
bankalarına duydukları memnuniyetleri ve sadakatleri arasındaki ilişkiyi betimlemek amacıyla Servqual
boyutlarına dayanılarak oluşturulmuş bir modeldir. Önerilen model Şekil 1’de verilmiştir.
A-Müşteriye Sağlanan Güvence; B- Bankaya Olan Güvenilirlik; D-Bankaya Erişilebilirlik; G- Bankanın ATM Hizmeti, EMemnuniyet;
F- Sadakat
Şekil 1. Bankacılık Hizmet Kalitesi ile Memnuniyet ve Sadakat Arasındaki İlişki İçin Önerilen
Model
Araştırma modeline dayalı olarak oluşturulan araştırma hipotezleri aşağıda verilmiştir.
Bankaya duyulan güvence arttıkça bankaya duyulan memnuniyet artar.
Banka çalışanlarının sunduğu hizmetlerindeki güvenilirlik arttıkça müşterilerin bankaya duydukları
memnuniyet artar.
:Bankayla erişilebilirlik olanakları kolaylaştıkça, müşterilerin bankadan duydukları memnuniyet artar.
Bankanın sunmuş olduğu ATM hizmetlerinden memnuniyet arttıkça, bankaya duyulan genel
memnuniyet artar.
Bankaya duyulan genel memnuniyet arttıkça, müşterilerin bankaya olan sadakatleri artar.
197
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
3. BULGULAR
Çalışmada banka müşterilerinin bankaya duydukları memnuniyet ve sadakate ilişkin ilgili Servqual
boyutlarını ortaya çıkarmak ve yapı geçerliliğini kontrol etmek amacıyla Doğrulayıcı Faktör Analizi yapılmıştır.
0,50’den düşük faktör yüklerine sahip değişkenler analizden çıkartılmıştır. Yapılan testi sonucunda ,
,
desteklenmiştir.
A STRUCTURAL EQUATION MODEL PROPOSALON BANKING LOYALTY
ABSTRACT
In the study, it is aimed to reveal the relationship between the factors that affect the satisfaction and
loyalty of bank costumers' by the help of Servqual service quality a proposed research model. For this purpose a
survey conducted to 229 bank costumers live in Ankara city center in March 2015 In analyzing the data
Structural Equation Model (SEM) used in order to evaluate the coherence of the model and to reveal the factors
that affect the relationship between the satisfaction and the loyalty of bank costumers. As the result of SEM
analyze, it is concluded, the parameters of the assurance provided to costumer, bank reliability, bank
accessibility, the ATM services affect the satisfaction parameter positively, and satisfaction affects the bank
loyalty positively as well.
Keywords: Banking Sector, Servqual, Loyalty, Structural Equation Model (SEM).
KAYNAKÇA
GENÇTÜRK, M., KALKAN, A., OKTAR, Ö.F. (2011). Bireysel Bankacılıkta Müşteri
Memnuniyetini Etkileyen Faktörler: Burdur ve Isparta İllerinde Bir Uygulama. SDÜ İktisadi İdari Bilimler
Fakültesi Dergisi,16(2), 59-77.
KAYTANCI, B.G., ERGEÇ, E.H., TOPRAK, M. (2013). Katılım Bankası Müşterilerinde Bankacılık
Ürün ve Hizmetlerine Yönelik Memnuniyet: Türkiye Örneği. International Conference on Eurasıan Economies,
801-811.
ÖZDEMİR, İ. (2012). Bankacılıkta Halkla İlişkiler ve Müşteri İlişkileri (2012). Bankacılık ve
Sigortacılık Araştırmaları Dergisi, 1(3), 4-15.
198
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
AYLIK KÜMES HAYVANCILIĞI ÜRETİM İSTATİSTİKLERİNDE
VERİ MADENCİLİĞİ YÖNTEMLERİ İLE VERİ ANALİZİ
Fethi Şaban ÖZBEK, Kadir Korhan BABADAĞ, Murat ATA, Hatice Burcu ESKİCİ, Necmettin
Alpay KOÇAK, İrfan UZUNPINAR
Devlet Mah. Necatibey Cad. No: 114 06650 Çankaya/Ankara
[email protected]
1.
Giriş
Türkiye İstatistik Kurumu (TÜİK)4 tarafından yürütülen aylık kümes hayvancılığı üretim istatistikleri
çalışmaları; kümes hayvancılığı sektörünün kısa dönemlerle gelişiminin izlenmesini sağlamak ve uluslararası
karşılaştırmalara olanak vermek amacıyla istatistikî birimi kümes hayvancılığı üretimi yapan sanayi işletmeleri,
coğrafi kapsamı tüm Türkiye olan istatistikî çalışmalardır (TÜİK, 2015).
Kümes hayvancılığı üretim istatistikleri çalışmasında, damızlık tavuk sayısı, üretilen kuluçkalık yumurta sayısı,
kümes hayvanı sayısı, üretilen yumurta sayısı, kuluçkaya giren yumurta sayısı, kullanım için ayrılan civciv sayısı
ile kesilen kümes hayvanı sayısı ve üretilen beyaz et miktarı değişkenlerine ait veriler derlenmektedir.
Kümes hayvancılığı üretim istatistikleri çalışması aylık olarak derlenen ve büyük boyutlarda veri setine sahip bir
çalışmadır. Çalışmanın hem yayımlanma sıklığı hem de büyük boyutlarda veri setine sahip olması verinin etkin
ve hızlı bir şekilde analiz edilmesini gerektirmektedir. Bu kapsamda, veri madenciliği yöntemleri uygun bir
çözüm olarak karşımıza çıkmaktadır. Veri madenciliği, "büyük miktarda veri içinden gelecekle ilgili tahmin
yapılmasını sağlayacak bağıntı ve kuralların bilgisayar programlan kullanarak aranması" şeklinde de
tanımlanabilir (Babadağ, 2003).
Bu çalışma ile daha kaliteli istatistikler üretilmesi amacıyla “Kümes Hayvancılığı Üretim İstatistikleri”nde
TÜİK’de uygulanan veri madenciliği yöntemleri değerlendirilmiştir.
2.
Veri Madenciliği Süreci
Kümes hayvancılığı üretim verileri TÜİK Bölge Müdürlükleri aracılığıyla işletmelerden elektronik anket
aracılığıyla aylık olarak derlenmektedir. Veri girişinden, haber bülteninin yayımlanmasına kadar geçen sürede,
yapılacak analizlerin detaylı ve etkin olması istatistik üretim süreci açısından büyük önem taşımaktadır. Aynı
zamanda tespit edilen hatalı/şüpheli kayıtların çok hızlı bir şekilde alana döndürülmesi gerekmektedir. Tüm bu
kısıtlar dikkate alındığında, veri analizinde veri madenciliği yöntemlerini kullanmanın büyük avantaj sağlayacağı
açıktır. Veri girişinin yapılması ile birlikte, veri madenciliği süreci başlamakta ve analizler gerçekleşmektedir.
Yapılan analizlerden bazıları şunlardır: (i) Karar ağacı modelleri kullanılarak Türkiye, bölge, istatistikî birim
bazında tahminlerin elde edilmesi, (ii) Uç ve aykırı değer tespiti, (iii) Anomali tespiti (iv) Önceki ay/yıl ile
kontroller (v) Büyük değişim gösteren kayıtların yanında hiç değişim göstermeyen kayıtların incelenmesi, (vi) Veri
setinde olmayan değişkenlerin türetilmesi ile daha etkin sonuçların alınması
Modelleme sürecinde, yorumlanabilir ve görselleştirilebilir olması açısından karar ağaçları kullanılmaktadır.
Analizlerde karar ağaçları yöntemlerinden biri olan CHAID (Chi-Squared Automatic Interaction Detection)
modeli kullanılmaktadır. Bu model, bağımlı değişkendeki varyasyonu bölümler içi minimum, bölümler arası
maksimum olacak şekilde farklı alt gruplara veya bölümlere tekrarlı olarak parçalayan bir yöntemdir
(Zırhlıoğlu, 2011). En iyi bölmeyi hesaplamak için tahmin değişkenleri hedef değişkene uyan bir çiftin içinde
istatistik olarak anlamlı bir fark kalmayıncaya kadar birleştirilmektedir. En uygun bölümleri seçmek için Ki-kare
testi kullanılmaktadır (Albayrak ve Yılmaz, 2009; Ritschard, 2010).
Çalışmada tahmin edilmek istenen değişken hedef değişken olarak tanımlanmakta ve bu değişken üzerinde etkili
olduğu düşünülen diğer değişkenler girdi değişken olarak belirtilmektedir. Model tahmin değeri ile gerçekleşen
değerler istatistiksel ölçümler kullanılarak kontrol edilmekte ve farkın yüksek olduğu kayıtlar tekrar kontrol
edilmek üzere alana gönderilmektedir. Kurulan modeller hem tüm Türkiye verisi üzerinden kurulmakta hem de
bölgesel farklılıklar olacağı dikkate alınarak bölgesel seviyede de kurulmaktadır.
Burada ifade edilmesi gereken önemli noktalardan birisi de yapılan tüm analizlerin alandan veri girişi ile paralel
olarak hareket etmesidir. Yazılan arayüz sayesinde alanda veri girişi yapıldıktan sonra veritabanları üzerinde veri
madenciliği süreci başlamakta ve analiz sonrası tespit edilen şüpheli kayıtlar bu arayüz ile veri kontrolünü
4
Bu çalışmada yer alan bulgular ve değerlendirmeler, yazarların kendi görüşleri olup hiçbir şekilde TÜİK’i
bağlamamaktadır.
199
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
yapacak kişinin bilgisayar ekranında listelenmektedir. Bu sayede, alan uygulaması devam ederken şüpheli
kayıtların kontrolü mümkün olmaktadır.
3.
Sonuç
TÜİK tarafından uygulanan veri analiz yöntemleri ile anket yolu ile derlenen kümes hayvancılığı üretim
verilerinde; firma ve Türkiye/bölge modeli yapısından farklı davranış gösteren kayıtlar, yıl içindeki değişimi
yüksek/düşük olan kayıtlar, önceki aya göre değişimi fazla olan kayıtlar gibi analizler veri madenciliği
yöntemleri kullanılarak sistematik bir şekilde tespit edilmektedir. Böylelikle veri seti içerisindeki aykırı değerler
tespit edilmekte ve ilgili çalışmanın alan uygulaması devam ederken cevaplayıcı birimler tarafından düzetilmesi
ya da doğrulanması sağlanmaktadır.
KAYNAKLAR
[1]Albayrak A.S. ve Koltan Yılmaz Ş. (2009). Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri
üzerine bir uygulama, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 14(1): 31-52.
[2]Babadağ, K. (2003). Veri madenciliği yaklaşımı ve veri kalitesinin artması için kullanılması, Devlet
İstatistik Enstitüsü Uzmanlık Tezi, Ankara.
[3]Ritschard
G.
(2010).
CHAID
and
earlier
supervised
tree
methods,
http://www.unige.ch/ses/metri/cahiers/2010_02.pdf.
[4]Türkiye
İstatistik
Kurumu
(2015).
Kümes
hayvancılığı
üretimi
haber
bülteni,
(http://www.tuik.gov.tr/PreHaberBultenleri.do?id=18737#.
[5]Zırhlıoğlu G (2011). İnternet bağımlılığının CHAID analizi ile incelenmesi: Van ili örneği, Eğitimde ve
Psikolojide Ölçme ve Değerlendirme Dergisi, 2(2): 182-190.
DATA ANALYSIS AND MODELING ON MONTHLY POULTRY PRODUCTION STATISTICS
The study on monthly poultry production statistics, which has been executed by Turkish Statistical Institute
(TurkStat), is the statistical study that allows for monitoring poultry sector development in short terms, and
allows for international comparisons. TurkStat has been using data mining applications in data analyses for
monthly poultry production statistics. In current study, data analyses methods (e.g. outliers and anomalous data
detection, CHAID (Chi-Squared Automatic Interaction Detection) model, change ratio), used for producing
poultry production statistics more accurate and in high quality, are examined.
Key Words: CHAID, data analyze, data mining, outliers, poultry statistics
200
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 7
UYGULAMALI İSTATİSTİK 4
201
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HACETTEPE ÜNİVERSİTESİ İSTATİSTİK BÖLÜMÜ
MEZUNLARININ MEZUNİYET SÜRELERİNİ ETKİLEYEN
FAKTÖRLERİN YAŞAM ÇÖZÜMLEMESİ İLE İNCELENMESİ
Hatice IŞIK*, Nihal ATA TUTKUN, Durdu KARASOY
Hacettepe Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06800, Ankara, TÜRKİYE,
[email protected], [email protected], [email protected]
1. Giriş
Yaşam çözümlemesinde, bir birimin belirli bir başlangıç zamanı ile başarısızlığı arasında geçen zamana “yaşam
süresi” ya da “başarısızlık süresi“ adı verilmektedir. Birçok durumda incelenen yaşam süresinin başka faktörler
tarafından da etkilenebileceği göz önünde bulundurulduğunda, yaşam süresi üzerinde açıklayıcı değişkenlerin de
etkilerinin modellendiği regresyon modelleri yaşam çözümlemesinde önemli bir yer almaktadır. Yaşam
verilerinin modellenmesi için en çok kullanılan yaşam modeli Cox regresyon modelidir. Cox regresyon
modelinin kullanılabilmesi için orantılı tehlikeler varsayımının sağlanması gerekmektedir. Varsayım
sağlanmadığında kullanılan alternatif Cox regresyon modelleri ve parametrik modeller mevcuttur.
2. Cox Regresyon Modeli ve Alternatif Modeller
Yaşam sürelerinin olasılık dağılımının belirli bir biçimi olmaması nedeniyle Cox regresyon modeli
parametrik regresyon modellerine göre daha avantajlıdır. Cox regresyon modeli,
biçimindedir. Burada x açıklayıcı değişkenler vektörü,
regresyon katsayıları vektörü,
ise temel tehlike
fonksiyonudur.
Orantılı tehlikeler varsayımı sağlanmadığında kullanılan parametrik olmayan modeller ve veri kümesinin
dağılımı belirli bir olasılık dağılımına uyduğunda kullanılan parametrik regresyon modelleri Cox regresyon
modeline göre daha etkili parametre tahminleri verir.
Yaşam çözümlemesinde hızlandırılmış başarısızlık süresi (HBS) modelleri, parametrik orantılı tehlikeler
(OT) modellerinin de alternatifi olarak kullanılır. OT modellerinde açıklayıcı değişkenlerin tehlike üzerine etkisi
ölçülürken, HBS modellerinde tehlike yerine yaşam süresi üzerine açıklayıcı değişkenlerin direk etkisi
değerlendirilebilir.
HBS modelde
açıklayıcı değişkenleri için, yaşam olasılıkları
biçimindedir. Burada,
temel yaşam fonksiyonu,
biçiminde ifade edilir.
Yaşam fonksiyonu ve tehlike fonksiyonu ilişkisine göre, (
tehlike fonksiyonu
hızlandırma faktörüdür. Hızlandırma faktörü,
açıklayıcı değişkenli bir birimin
biçiminde verilir. HBS modelinin karşılık gelen logaritmik doğrusal formu
biçimindedir. Burada,
rastgele bir değişkendir.
kesişim,
ölçek parametresi ve
202
ise belirli bir dağılıma sahip olduğu varsayılan
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Bu çalışmada, Hacettepe Üniversite İstatistik Bölümü’nün kuruluş yılı olan 1967 yılından 2015 yılına
kadar mezun olan öğrencilerin mezun olma süreleri ve öğrenci bilgileri kullanılarak mezuniyet süresini etkileyen
faktörler yaşam çözümlemesi yöntemleri ile incelenmiştir. Bu çalışma, daha sonra mezun olacak öğrencilerin
mezun olmaları gereken sürede mezun olabilmeleri için alınması gereken önlemlere ışık tutması
amaçlanmaktadır.
KAYNAKLAR
[1] Bruinsma, M.J. and Ellen P.W.A. (2009), When will I Succeed in my First‐Year Diploma? Survival
Analysis in Dutch Higher Education, Higher Education Research & Development, 28(1), 99-114.
[2] Cox, D.R. (1972), Regression Models and Life-Tables, Journal of the Royal Statistical Society, Series B, 34,
187-220.
[3] Lawless, J.E. (1982), Statistical Models and Methods for Lifetime Data, New York: John Wiley &
Sons, Inc.
[4] Van der Berg S., Ronelle B. (2002), Education and Socio-Economic Differentials: A Study of School
Performance in the Western Cape, South African Journal of Economics, 71(3), 496-522.
[5] Wei, L.J. (1992), The Accelerated Failure Time Model: A Useful Alternative to the Cox Regression
Model in Survival Analysis, Statistics in Medicine, 11, 1871-1879.
ABSTRACT
ANALYZING FACTORS AFFECTING THE GRADUATION TIME OF HACETTEPE UNIVERSITY
DEPARTMENT OF STATISTICS STUDENTS USING SURVIVAL ANALYSIS
Survival analysis is defined as a set of statistical techniques that are used for the analysis of random
positive definite variables. It is a useful method for examining the events both in social and natural sciences. The
factors that affect the survival time is analyzed by semi-parametric and parametric survival models.
With this study, it was aimed to examine the graduation time of students from the departments of Statistics
at Hacettepe University and determine the factors that affect the graduation time by survival analysis methods.
Therefore, the data of students who graduate from the department from the foundation of the department to 2015
was used.
Key Words: Censoring, Cox regression model, Accelerated failure time, Graduation time, Survival analysis.
203
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SENDROMİK İZLEMEDE KULLANILAN ERKEN UYARI ALGORİTMALARININ
KARŞILAŞTIRILMASI
İmren SAYGIR, Dursun AYDIN
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi,İstatistik Bölümü, Muğla-Türkiye
[email protected]* ; [email protected]
1. Giriş
Bulaşıcı hastalıkların izlenmesi halk sağlığını ilgilendiren önemli bir konudur. Bu amaçla yüzyıllar
boyunca çeşitli izleme yöntemleri uygulanmış, teknolojinin ve bilgi sistemlerinin giderek gelişmesi ile ilkel
izleme yöntemleri yerini modern yöntemlere bırakmıştır
İzlemenin ortak bir tanımı şu şekilde verilmiştir:
“Halk sağlığı uygulamalarının planlanması, değerlendirilmesi ve uygulanması için kullanılan sonuca
özgü verilerin sistematik olarak toplanması, analiz edilmesi ve yorumlanmasıdır.” Analizi kolaylaştırmak
için anormalliği belirleyen algoritmalara başvurmadan önce bu veriler genellikle «sendromlar» olarak
adlandırılan gruplar içinde sıralanır. Böylece hastalık izlemenin bu türü «sendromik izleme» olarak
adlandırılmıştır. Halk sağlığı izlemenin daha ilgi çekici yönü ise yüksek ölüm ve hastalıklılık oranına neden
olan bulaşıcı hastalıkların erken tanısıdır. Son yıllarda kuş gribi gibi ölümcül virüslerin ortaya çıkmasından
dolayı hastalık izleme daha fazla gündeme gelmiştir. Teknolojinin gelişmesi, bilgisayarların
yaygınlaşmasından sonra izleme için kullanılabilecek programlama dilleri ve algoritmalar geliştirilmiştir.
Kamu ve yerel sağlık kuruluşlarında EARS (Early Aberration Reporting Systems), ESSENCE (Electronic
System for the Early Notification of Community-based Epidemics) gibi modern izleme sistemi
uygulamaları yaygınlaşmaya başlamıştır.
2. EARS C1 C2 C3 METHODLARI
C1, C2, C3 methodları CUSUM benzeri methodlar olarak tasarlanmıştır. C1 ve C2 her gözlemi standardize
etmek için hareketli örneklem ortalaması ve örneklem standart sapmasını kullanan Shewhart methoduna
benzemektedir.
C1 methodu, örneklem ortalaması ve örneklem standart sapmasını hesaplamak için mevcut gözlemin 7 gün
öncesini kullanır. C2 methodu da C1 methodununa benzerdir fakat 7 gün öncesini iki günlük gecikme ile
kullanır. C3 ise C2 methodunun bilgileri kullanılarak hesaplanır.
, t ile temsil edilen bir periyottaki gözlem sayısı olsun. (Örneğin t günde spesifik bir sendromla
hastanelerin acil servislerine bireysel varışların sayısı)
Burada
ve
istatistiği aşağıdaki gibi hesaplanır:
sırasıyla hareketli örneklem ortaması ve standart sapmasıdır.
204
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
C1 istatistiği örneklem ortalamsının 3 standart sapma üstüne sabitlenen bir eşik değerini aştığında sinyal
verir,
.
C2, C1 ile benzer durumda sinyal verir,
.
C3 istatistiği örneklem ortalamsının 2 standart sapma üstüne sabitlenen bir eşik değerini aştığında sinyal
verir,
.
KAYNAKLAR
1) Lombardo J.S., Ross D. (2007) Disease Surveillance, a Public Health Priority, 1-39, Lombardo J.S. ,
Buckeridge D.L, Disease Surveillance, A Public Health Informatics Approach, the United States of
America, 458s.
2) Fricker R.D., Hegler B.L., Dunfee D.A. (2008) Comparing syndromic Surveillance detection methods:
EARS’ versus a CUSUM-based methodogy, Statist. Med. 27:3407–3429
3) Hagen K.H., Fricker R.D., Hanni K.D., Barnes S., Michie K. (2011) Assessing the Early Aberration
Reporting Sysyem’s Ability to locally detect the 2009 influenza pandemic, Statistics, Politics, and
Policy, 2:1
ABSTRACT
In this paper, we consider some of the syndromic surveillance systems implemented by the Centers for
Disease Control and Prevention’s (CDC) BioSense program. The focus of this study is based on compare the
performance of three detection methods, entitled C1, C2, and C3, that are implemented in the early aberration
reporting system (EARS) versus EWMA chart (exponentially weighted moving average chart). A real example is
used to demonstrate the performances of the methods employed in syndromic surveillance algorithms.
Key Words: CDC, EARS, EWMA Chart, C1, C2, C3
205
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SANSÜRLÜ VERİ İÇEREN BİR VERİ SETİNİN DAĞILIMININ
BELİRLENMESİ
Hayrinisa DEMİRCİ BİÇER*
Cenker BİÇER
Cemal ATAKAN
Kırıkkale Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü
Kırıkkale/Türkiye
Kırıkkale Üniversitesi
Fen Edebiyat Fakültesi
İstatistik Bölümü
Kırıkkale/Türkiye
Ankara Üniversitesi
Fen Fakültesi
İstatistik Bölümü
Ankara/Türkiye
[email protected]
[email protected]
[email protected]
Verilen bir veri setinin hangi dağılım ile modelleneceği oldukça önemlidir. Literatürde verilen bir veri
setinin tam veri (sansürlü veri içermemesi) olması durumunda bilinen iki olasılık dağılımından hangisi ile
modelleneceği ile ilgili birçok çalışma mevcuttur. Dey ve Kundu (2012), II.tip sansürlü veri içeren bir veri
setinin Weibull veya Log-Normal dağılımlarından hangisi ile modelleneceği konusunu ele almışlardır.
Bu çalışmada, II.tip sansürlü veri içeren bir veri setinin Weibull ya da Gamma dağılımlarından hangisi ile
modelleneceği problemi ele alınmıştır. Yapılan simülasyon çalışması ile elde edilen doğru seçim olasılıklarına
göre yorumlar yapılmıştır.
KAYNAKLAR
[1] Bain, L. J. and Englehardt, M. (1980), Probability of correct selection of Weibull versus Gamma based on
likelihood ratio, Communications in Statistics, Series A. vol. 9. 375–381.
[2] Dey, A. K. and Kundu, D. K. (2012), Discriminating between Weibull and Log-Normal distributions for
type-II censored data, Statistics, 46, 197-214.
[3] Dumonceaux, R. and Antle, C.E. (1973), Discriminating between the Log-Normal and Weibull distribution,
Technometrics, vol. 15. 923–926
[4] Kundu, D. and Manglick, A. (2004), Discriminating between the Weibull and Log-Normal
distributions,Naval Research Logistics, 51, 893-905.
[5] Gupta, R. D. and Kundu, D. K. (2003), Discriminating between Weibull and generalized exponential
distributions, Computational Statistics and Data Analysis, 43, 179–196.
ABSTRACT
DISTIRBUTION DETERMINATION FOR A DATA SET WHICH CONTAIN THE
CENSORED DATA
In order to make true statistical inference, it is important to know the underlying distribution of set of
observed data. An extensive number of works has been published related to distribution determination which a
selection from two probability distributions for a given data set, hitherto. The problem of discriminating between
Weibull and Log-Normal distributions for type-II censored data was considered by Dey and Kundu (2012).
In this study, we are consider to the problem of discriminating between Weibull and Gamma
distributions for type-II censored data. Also, obtained results of the work are verified through a simulation
study and some comments are given.
Key Words: Weibull distribution, Gamma distribution, Likelihood ratio tests, Probability of correct
selection
206
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TIPTA UZMANLIK ÖĞRENCİLERİNİN İSTATİSTİK VE BİLİMSEL
ARAŞTIRMA DERSLERİNE YÖNELİK TUTUM VE KAYGILARI
Adnan KARAİBRAHİMOĞLU1*, Nazan KARAOĞLU1
1
1.
Necmettin Erbakan Üniversitesi, Meram Tıp Fakültesi, TEBAD, 42080, Konya, TÜRKİYE
[email protected] , [email protected]
GİRİŞ
Biyoistatistik bilgisi sağlık profesyonellerinin eğitim sırasında lisans düzeyinin ilk yıllarında
aldıkları ancak uzmanlık, yüksek lisans ve doktora döneminde mutlaka kullanmaları gereken
bir bilgi olması, sağlık profesyonellerinin meslek dersleri ile biyoistatistik arasındaki bağın
çok farkında olmamaları gibi nedenlerle kaygı yaratmaktadır. Özellikle tez aşaması, bilimsel
araştırma tasarlama ve yürütme süreçlerinde, toplanan verilerin nasıl yorumlanacağı konuları
biyoistatistik bilgisini zorunlu kıldığından endişeyi artırmaktadır. Bu kaygı nedeniyle
araştırma planlama sürecinde aksamalar olması pek çok araştırmada yanlış, gereksiz veri
toplanmasına, ihtiyaçtan fazla malzeme kullanımına ve tabiî ki en önemlisi yanlış yorumlar
ile akademik yanılgılara, hatalara sebep olunmaktadır [1].
2. AMAÇ
Bu çalışmanın amacı, Meram Tıp Fakültesi hastanesinde çalışan tıpta uzmanlık öğrencilerinin istatistik ve
bilimsel araştırma yöntemlerine yönelik tutum-davranış ve kaygılarını tespit etmektir.
3. YÖNTEM ve GEREÇ
Bu çalışma, kesitsel ve tanımlayıcı bir çalışmadır. Meram Tıp Fakültesi ve hastanesi sorumluluk alanı
içerisinde çalışan uzmanlık öğrencileri gönüllülük esasına göre çalışma evrenini oluşturmuştur. Etik
onaylı çalışmada kullanılan anket üç bölümden meydana gelmektedir. Birinci bölüm uzmanlık öğrencilerinin
sosyo-demografik bilgilerini içeren sorulardan oluşmaktadır. Anketin ikinci bölümü 33 ifadeden oluşan
“İstatistiğe Yönelik Tutum Ölçeği”; üçüncü bölüm ise 12 ifadeden oluşan “Araştırmaya Yönelik Kaygı
Ölçeği”nden oluşmuştur [2,3]. Her iki ölçek de beşli Likert ile değerlendirilen (1- Kesinlikle katılmıyorum, 2Katılmıyorum, 3-Emin değilim, 4- Katılıyorum, 5- Kesinlikle katılıyorum) bir yapıdadır. Ölçeklerdeki ters
ifadeler ters puanlanmıştır. Tanımlayıcı ölçülerin hesaplanmasının yanı sıra grup karşılaştırma testleri ve anketin
geçerlik ve güvenirlik testleri de yapılmış, p<0.05 anlamlı kabul edilmiştir.
4. BULGULAR
Anket uygulamasına katılan 138 uzmalık öğrencisinin yaklaşık %52’si erkek (n=72), %60’ı Konya
dışından (n=82), %75’i orta düzey ekonomik duruma sahip (n=101) ve %60’ı (n=82) tez konusunu henüz
almamıştır. Uzmanlık eğitimlerinin ilk üç yılında olan %80 civarında katılımcı varken diğerleri 4. ve 5. yıl
içerisindeydiler. Tezine henüz başlamamış olanlar ile tezini bitirenlerin oranları birbirlerine eşit ve katılımcıların
%20’sini oluşturmuştur. Anket puanlarının gruplara ilişkin ortalama değerleri Çizelge.1’de verilmiştir.
Ölçeklerin güvenirlik katsayıları %92 civarındadır. Faktör analizi sonucu elde edilen KMO ve Bartlett testi
sonuçları önemli düzeyde anlamlıdır. Uzmanlık eğitim süresinin son yılında istatistiğe yönelik kaygı puanı
yüksek iken, bilimsel araştırma yöntemlerine yönelik kaygı puanı ters orantılı olarak düşüktür (r=-0,554;
p<0,001).
207
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Çizelge.1 Anket puanlarına ilişkin tanımlayıcı ölçüler
Cinsiyet
Memleket
Ekonomik Durum
Tez konusu
Erkek
Bayan
Konya
Konya dışı
İyi
Orta
Aldı
Almadı
Ortalama±ss
Ortalama±ss
Ortalama±ss
Ortalama±ss
Ortalama±ss
Ortalama±ss
Ortalama±ss
Ortalama±ss
İstatistiğe Yönelik Tutum
Ölçeği
(Min-Maks=33-165)
p
100,32±19,254
0,561
98,35±20,50
97,32±30,25
0,316
100,78±19,50
98,57±22,06
0,750
99,82±19,24
97,68±16,69
0,407
100,54±21,71
Araştırmaya Yönelik Kaygı
Ölçeği
(Min-Maks=12-60)
p
31,31±10,04
0,387
32,74±9,33
31,16±8,93
0,407
32,56±10,21
31,26±10,22
0,671
32,07±9,54
33,93±9,66
0,053
30,67±9,56
Şekil.1 Anket puanlarının eğitim süresine göre ortalamaları
5. TARTIŞMA ve SONUÇ
İstatistiğe yönelik kaygı puanlarının tüm gruplarda yüksek olduğu, buna karşın bilimsel araştırma yöntemlerine
yönelik kaygının orta düzeyde olduğu göze çarpmaktadır (Şekil.1). Özellikle eğitim sürecinin son yılında tezin
sonuçlanması veya bilimsel yayın çalışmalarının artması öğrencilerde bir kaygı oluşturmaktadır. İlk yıllarda
yüksek olan bilimsel araştırma kaygı puanı daha sonra yerini analiz kaygısına bırakmaktadır.
.
KAYNAKLAR
[1] Hannigan, A., Hegarty, AC. & McGrath, D. (2014), Attitudes Towards Statistics of Graduate Entry
Medical Students:The Role of Prior learning Experiences. BMC Medical Education, 14(70):1-7
[2] Yaşar, M. (2014), “İstatistiğe yönelik tutum ölçeği: Geçerlilik ve Güvenirlik Çalışması”,
Pamukkale Üniversitesi Eğitim Fakültesi Dergisi, 36(2): 59-75
[3] Büyüköztürk, Ş. (1997), “Araştırmaya yönelik kaygı ölçeğinin geliştirilmesi”, Eğitim Yönetimi,
3(2): 453-464
Anahtar kelimeler: İstatistik, tıpta uzmanlık eğitimi, bilimsel araştırma, tutum, kaygı
ATTITUDES AND ANXIETY OF RESIDENTS OF MERAM MEDICAL SCHOOL TOWARDS
STATISTICS AND SCIENTIFIC RESEARCH METHODS
The importance of biostatistics and the basic knowledge about research methods in the health sciences are
known, but generally understood after graduation. The purpose of this study is to determine the attitudes and
anxiety levels of postgraduate medical students towards statistics and scientific research methods using SAS and
SRMAS scales in Meram Medical School. According to the results, the level of anxiety towards statistics is
getting higher in education.
Key Words: Statistics, postgraduate medical education, scientific research, attitude, anxiety
208
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 7
EKONOMETRİ 2
209
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TURİZM GELİRLERİ ve EKONOMİK BÜYÜME: TÜRKİYE için ARDL
ANALİZİ
Ersin YILMAZ, Aytaç PEKMEZCİ, Kurtuluş BOZKURT*
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Kötekli, MUĞLA
*Adnan Menderes Üniversitesi, Söke İşletme Fakültesi, Bankacılık ve Finans Bölümü, Söke, AYDIN
[email protected], [email protected], [email protected]
Turizm sektörü 20. yüzyılın ikinci yarısından itibaren, özelliklede 2. Dünya Savaşının bitmesiyle
birlikte dünya genelinde hızla gelişen, hizmet sektörünün en önemli alt sektörlerinden birisi olarak karşımıza
çıkmaktadır. Günümüzde ise gerek gelişmiş gerekse gelişmekte olan ülkeler için önemli bir döviz kazandırıcı
sektör konumundadır. Bunun dışında özellikle imalat ve tarım ana sektörü başta olmak üzere diğer birçok
sektöre de önemli dışsallıklar sağlamakta, çevreye duyarlı bir sektör olarak ta sürdürülebilir kalkınmanın
sağlanması noktasında başat bir rol oynamaktadır.
Dünya Turizm Örgütünün 2020 yılında dünya turizm gelirinin 2 trilyon dolar olacağına ilişkin
projeksiyonu ülkelerin turizm arz potansiyellerini geliştirerek bu pastadan pay alma veya aldıkları payı büyütme
mücadelesine girişmelerine neden olmuştur. Turizm sektörünü geliştirerek ülkelerin gelişmişlik seviyelerine göre
ulaşmak istediği hedeflerin farklılık gösterdiğini söylemek mümkündür. Gelişmiş ülkelere bakıldığında söz
konusu ülkelerin turizm sektörünün gelir yaratıcı etkisinden yararlanmaya çalıştıkları, gelişmekte olan veya az
gelişmiş ülkelerin ise, sektörün döviz kazandırıcı ve yeni istihdam olanakları yaratabilme gücünden
yararlanmaya çalıştıkları gözlenmektedir. Zira gelişmekte olan ülkelerin ihracat yapabilmeleri büyük oranda ara
ve yatırım malı ithalatına bağlı olduğu için döviz ihtiyacı nedeniyle turizm sektörü önemli bir döviz tedarikçisi
sektör olarak değerlendirilmektedir.
Türkiye açısında turizm sektörüne bakılacak olursa 1980 yılında ekonomik hayatta yaşanan dışa açılma
sürecinin turizm sektörü içinde bir dönüm noktası olduğu söylenebilir. Zira sektörün gelişim profili
incelendiğinde 1980 sonrası dönemde ciddi oranda sektöre yönelik yatırımların yapılmaya başlandığı, kronik
olarak dış ödemeler bilânçosu açığı veren bir ülke konumunda olan Türkiye açısından döviz kazandırıcı bir
sektör olarak gerek istihdamda gerekse yaratmış olduğu net katma değer bağlamında genel ekonomi içerisindeki
ağırlığının arttığı görülmektedir.
Dolayısıyla turizm sektörü, Türkiye için önemli bir döviz kaynağı olmasının yanında, yeni istihdam
olanaklarının oluşturulmasına imkan sağladığı için Türkiye için kronik hale gelen işsizliğin doğal işsizlik oranı
seviyelerine düşürülmesinde ve özelikle de yine kronik hale gelen ödemeler dengesi problemlerinin
giderilmesinde başat bir rol üstlenmektedir ve bu nedenle de Türkiye’nin ekonomik kalkınma stratejisinde
önemli bir konuma sahiptir.
ARDL(Autoregressive-Distributed Lag) ekonomik zaman serilerinde uzun dönem ilişkiyi gösterebilmek
için son zamanlarda kullanılan çok değerli bir araçtır. En basit şekliyle ARDL regresyon modeli Eşitlik 1’deki
gibidir;
(1)
yt   0  1 yt 1  .....   p yt  p   0 xt  1 xt 1   2 xt 2  .... q xt q   t
Burada modelin otoregresif olması demek y’nin bir parça da olsa kendi gecikmeleriyle açıklanabilmesidir.
Regresyon modelinde açıklayıcı değişken olarak x değişkeninin gecikmeleri kullanılır. Bazı x değerlerinin,
gecikmelerin dağılımından çıkartıldığı durumlar olabilir. ARDL modelinin tahmininde OLS yöntemi
kullanıldığında regresyon katsayıları yanlı tahmin edilmektedir. Ayrıca OLS tahminleri tutarsız olmaktadır.
ARDL yönteminin kullanılmasının en önemli nedenlerinden biri düzeyde durağan olan ve olmayan
serilerin birlikte analiz edilebilmesidir. Ayrıca veri sayısının çok az olduğu durumlarda da kullanılabilmektedir.
Fakat yine de çok az veri olduğunda ARDL yöntemi seriler arasında eşbütünleşme araştırırken yetersiz
kalmaktadır. ARDL yöntemini kullanarak uzun süreli ilişki belirlemek için birkaç varsayım ve kurala uyulması
gerekmektedir. Bunların başında gelenlerden bir tanesi hataların serisel bağımsız olmasıdır. Ayrıca düzeyde
durağan olmayan serilerin en fazla birinci farkları alındığında durağan olmaları gerekmektedir. Ayrıca modelin
dinamik kararlı olması gerekmektedir.
Çalışmanın analiz kısmında, Türkiye için 2003:01 - 2015:01 dönemini kapsayan Türkiye İstatistik
Kurumunun İstatistik Veri Tabanlarından elde edilen turizm gelirleri ve GSYİH (Gayri Safi Yurtiçi Hâsıla)
serilerinin logaritmik değerleri kullanılarak bir veri seti oluşturulacaktır. Ayrıca ARDL analizi yapılarak
değişkenler arasında uzun dönemli ilişki olup olmadığı analiz edilecektir.
210
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Bahar, O. and Kozak M. (2007). “Advancing Destination Competitiveness Research: Comparison
Between Tourists and Service Providers”, Journal of Travel and Tourism Marketing, 22 (2): 6171.
[2] Bahar, O. ve Bozkurt, K. (2010). “Gelişmekte Olan Ülkelerde Turizm-Ekonomik Büyüme
İlişkisi: Dinamik Panel Veri Analizi”, Anatolia: Turizm Araştırmaları Dergisi, 21 (2): 1-11.
[3] Pesaran, Shin and Smith, (2001), Bounds Testing Approaches to the Analysis of Level Relationships
Journal of Applied Econometrics. 16: 289326.
[4] Bozkurt, K. ve Pekmezci, A. (2015), “Turizm Talebi Ve Döviz Kuru Şokları: Türk Turizm
Sektörü İçin Ekonometrik Bir Analiz”, Osman Gazi Ün. İİBF Dergisi, Ağustos, Cilt: 10-2.
[5] Bozkurt, K. ve Bahar, O. (2015). “Talep Şokları: Türk Turizm Sektörü İçin Bir Analiz”, Anatolia:
Turizm Araştırmaları Dergisi, 26 (1).
TOURISM RECEIPTS AND ECONOMIC GROWTH: THE ARDL
ANALYSIS FOR TURKEY
ABSTRACT
The process of globalization that has come within inevitable changes about countries’ sectoral
situations. One of that changes is a passing through the service sector from the industry sector. Especially
management, technique that based on a information and technology and professional individuals are in a service
sector. With this on the other hand tourism sector that is may be called a sub-service sector have enhanced itself
for foreign exchange earnings. In this context the objective of this study that analyzes a relationship between
tourism receipts and economic growth between two dates that 2003:01-2015:01. For that, time series have been
created that compass between 2003:01-2015:01 and ARDL analysis has been done.
Key Words: Tourism Receipts, Economic Growth, ARDL Analysis.
211
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Petrol Fiyatlarının Seçilmiş Petrol İhracatçısı ve İthalatçısı Ülkelerin
Makroekonomisine Etkileri: Panel Veri Analizi
Nezir KÖSE*
Gazi Üniversitesi, İ.İ.B.F., Ekonometri
Bölümü, 06500, Ankara, Türkiye, [email protected]
Sabit BAİMAGANBETOV
Hoca Ahmet Yesevi Üniversitesi, Ekonomi
Bölümü, Türkistan, Kazakhistan,
[email protected]
Petrol fiyatlarındaki dalgalanmaların ekonomik faaliyetler üzerinde etkili olduğuna dair geniş bir literatür
bulunmaktadır. Özellikle, 1973 yılında petrol fiyatlarında meydana gelen şokun devamında gelişmiş ülkelerde
yaşanan ekonomik durgunluk, petrol fiyatlarının ekonomik büyüme üzerindeki etkilerini ampirik olarak araştıran
çalışmaların yapılmasına neden olmuştur. Petrol ithalatçısı ve ihracatçısı ülkelere göre etkilerin farklılık
göstereceği beklenmektedir. Petrol fiyatlarındaki artışlar ihracatçı ülkeler için iyi haber iken ithalatçı ülkeler için
kötü haber olmaktadır. Buna karşın petrol fiyatlarında düşüş olduğunda durum tersine dönmektedir.
Hamilton (1983) çalışmasında İkinci Dünya Savaşı sonrasında Amerika Birleşik Devletleri’nde yaşanan
sekiz ekonomik durgunluktan yedisinin petrol fiyatlarında yaşanan büyük artışlara bağlı olarak açıklanması,
petrol ithalatçısı gelişmiş ülkeler üzerine yapılan ampirik çalışmalarda hızlı bir gelişime neden olmuştur. Bu
çalışmalardan bazıları Gisser ve Goodwin (1986), Mork (1989), Lee vd. (1989), Bernanke vd. (1997), Hamilton
(2003), Hamilton and Herrera (2004), Jimenez-Rodriguezand Sanchez(2004), Hsing (2009) olarak sıralanabilir.
Bu çalışmalardan elde edilen bulgular, petrol fiyatlarındaki artışların petrol ithalatçısı ülkelerin ekonomik
büyümesi üzerinde negatif etkiye sahip olduğuna işaret etmektedir. Buna karşın petrol ihracatçısı ülke veya
ülkeler grubu üzerine yapılan ampirik çalışmalar petrol fiyatları ile ekonomik büyüme arasındaki ilişkinin genel
olarak pozitif yönde olduğunu göstermektedir. Örneğin, Ortadoğu ve Kuzey Afrika ülkelerinin incelendiği
Berument vd. (2010) çalışması, Bahreyn, Mısır, Lübnan, Fas ve Yemen hariç petrol ihracatçısı ülkelerden
dokuzu için petrol fiyatlarındaki şokların ekonomik büyüme üzerinde pozitif etkisi olduğunu göstermiştir.
Petrol fiyatlarının ülkelerin makroekonomik göstergelerine etkilerini panel veri analizine dayalı olarak
araştıran çalışmalar sınırlı sayıdadır. Bu çalışmalardan bazıları Lescaroux ve Mingo (2008), Jayataman ve Lau
(2011), Mehrara ve Mohaghegh (2011), Akıncı, Aktürk ve Yılmaz (2012), M. S. Mohammadi ve H.
Mohammadi (2013), Yardımcıoğlu ve Gülmez (2013), Mercan ve Göçer (2014) olarak sıralanabilir.
Bu çalışmada 14 petrol ihracatçısı ve 15 petrol ithalatçısı ülkenin 2001-2014 yılları arasındaki üçer aylık
zaman serisi verileri kullanılarak petrol fiyatlarının ekonomik büyüme, reel döviz kuru ve enflasyon üzerindeki
etkileri panel veri analizi ile incelenmiştir. Bu ülkeler ekonomik gelişmişlik düzeylerine göre gruplara ayrılarak
panel veri analizleri gerçekleştirilmiştir. Buna göre gelişmekte olan petrol ihracatçısı ülkeler Azerbaycan,
Nijerya, İran, Ekvator, Kolombiya, Kazakistan, Malezya, Meksika ve Venezüella iken gelişmiş petrol ihracatçısı
ülkeler ise İngiltere, Kanada, Norveç, Rusya ve Suudi Arabistan olarak sınıflandırılmıştır. Gelişmekte olan petrol
ithalatçısı ülkeler Hindistan, Çin, Türkiye iken gelişmiş petrol ithalatçısı ülkeler grubu ABD, Almanya,
Avustralya, Belçika, Güney Kore, Fransa, İtalya, Hollanda, Japonya, Norveç, İsveç ve Singapur olarak
sınıflandırılmıştır.
Analizde kullanılan değişkenlerle ilişkin veriler Uluslararası Para Fonu’nun (IMF) Uluslararası Finans
İstatistikleri (IFS), Datestream, Bloomberg, Türkiye Cumhuriyeti Merkez Bankası, NBK, Venezüella Merkez
Bankası, İran İslam Cumhuriyeti Merkez Bankası, Hindistan Merkez Bankası, Azerbaycan Merkez Bankası,
Bank for International Settlements (BİS) veri tabanlarından alınmıştır. Brent ham petrol fiyatına ilişkin veriler
Uluslararası Enerji Ajansı veri tabanından alınmıştır.
Birinci nesil panel birim kök testleri hata terimleri arasında yatay-kesit bağımlılığın olmadığı varsayımı
altında yapılmakta iken ikinci nesil panel birim testleri bu bağımlılığı dikkate almaktadır. Bu nedenle yatay-kesit
bağımlılık Friedman (FR), Frees (FRS) testleri ile araştırılmıştır. FR ve FRS testleri sonucunda sıfır hipotezi
reddedilmiş ve böylece yatay-kesit bağımlılığın var olduğu kabul edilmiştir. Çalışmada ele alınan değişkenlerin
bütünleşme sıraları yatay-kesit bağımlılığı dikkate alan Pesaran (2007) panel birim kök testi ile araştırılmıştır.
Bu testten elde edilen bulgular reel gayri safi yurt içi hâsıla, reel döviz kuru ve tüketici fiyat endeksi serilerinin
birinci sıra fark durağan diğer bir ifadeyle bütünleşme sıralarının 1 olduğunu göstermiştir.
212
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Brent petrol fiyatı ve çalışmada ele alınan makroekonomik göstergeler arasındaki uzun dönemli ilişkiler
Westerlund (2007) eş-bütünleşme testi ile araştırılmıştır. Elde edilen bulgular petrol ihracatçısı ülkelerin
ekonomik büyüme ve reel döviz kuru üzerinde petrol fiyatların etkili olduğunu göstermiştir. Buna karşın
gelişmekte olan petrol ithalatçısı ülkelerin ekonomik büyüme, reel döviz kuru ve hatta enflasyonu üzerinde
petrol fiyatlarının anlamlı bir etkiye sahip olmadığı belirlenmiştir. Bu sonuçlar petrol fiyatlarındaki gelişmelerin
özellikle petrol ihracatçısı ülkelerin makroekonomik performansı üzerinde etkili olduğuna işaret etmektedir.
Anahtar Kelimeler: Petrol fiyatları, Panel eşbütünleşme, Yatay kesit bağımlılığı
Kaynaklar
1. Akıncı, M., E. Aktürk ve Ö. Yılmaz (2013), “Petrol Fiyatları İle Ekonomik Büyüme Arasındaki İlişki: OPEC
ve Petrol İthalatçısı Ülkeleri İçin Panel Veri Analizi”, Uludağ Üniversitesi İktisadi ve İdari Bilimler Fakültesi
Dergisi, Cilt/Vol. XXXI, Sayı/No. 2, 1-17
2. Berument, H., N. B. Ceylan, and N. Dogan (2010) “The Impact of Oil Price Shocks on the Economic Growth
of the Selected MENA countries”, The Energy Journal. 31(1), 149-176.
3. Lescaroux, F. and V. Mignon (2008) “On the Influence of Oil Prices on Economic Activity and Other
Macroeconomic and Financial Variables”, CEPII, Working Paper No: 2008 - 05
4. Mercan, M. ve İ. Göçer (2014), “Ticari Dışa Açıklığın Ekonomik Etkileri: Orta Asya Ülkeleri İçin Ampirik
Bir Analiz”, Uluslararası Yönetim İktisat ve İşletme Dergisi, Cilt 10, Sayı 22, 27-44
5. Westerlund J. (2007), “Testing for Error Correction in Panel Data”, Oxford Bulletin of Economics and
Statistics,Vol. 69, Issue 6, pages 709–748.
The impact of oil price on macroeconomics in the selected oil
importing and oil exporting countries: A panel data analysis
The effects of oil price on macroeconomics are expected to be different in oil importing and in oil
exporting countries. Namely, an oil price increase (decrease) should be considered good (bad) news in oil
exporting countries and bad (good) news in oil importing countries. This paper assesses empirically the effects
of real Brent oil price on the economic growth, real exchange rate and inflation for the quarterly period 20012014 in 14 oil importing and in 15 oil exporting countries by using Westerlund (2007) panel co-integration test.
The empirical findings show that the oil prices have an impact on economic growth and real exchange rate for
oil exporting countries. On the other hand, oil prices have not significant impacts on macroeconomics for oil
importing countries.
Key Words: Oil prices, Panel cointegration, Cross section dependency
213
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Kendinden Uyarımlı Eşik Otoregresif Modeller (Self-Exciting Threshold
Autoregressive Models) Kapsamında Doğrusal Olmayan Döviz Kuru
Modellemesi
Emrah Hanifi FIRAT
Fırat Üniversitesi, İİBF, İktisat Bölümü, Elazığ, Türkiye
[email protected]
Dışa açık ekonomilerde makroekonomik bir değişken olarak döviz kurlarının sayısal değeri, özellikle
ekonomiler arası karşılıklı bağımlılık dikkate alındığında büyük önem arz etmektedir. Politik ekonomi
cephesinden tahlil edildiğinde makroekonomik tasarımdaki fotoğrafı bozmamak için çaba sarf eden ve özellikle
ihracat güdümlü büyüme karakteristiğine sahip olan ekonomilerde döviz kurlarının hedeflenen seviyesi hayati
önem taşımaktadır. Küresel ölçekte bakıldığında döviz kuru rejimi ve politikalarının paritelere yansıyan sayısal
değerleri, kur politikasını uygulayan ülkeden diğer ülkelere doğru resesyonist bir etki dahi doğurabilmektedir.
Bu anlamda egemen ekonomilerin takip edecekleri kur politikaları diğer dünya ekonomilerini manipüle edecek,
global ekonomik projeksiyonu bir anda değiştirebilecektir. Makro politikalar bakımından bu kadar önemli olan
döviz kurları diğer makro ekonomik değişkenler ile de yakın temas halindedir. Ancak bu durum döviz kurunun
(t+1). dönemdeki değerinin ne olacağı problemini halletmemekte, stokastik niteliği bulunan bir değişkeni yine
stokastik başka bir değişkenle izah etmek anlamına gelmektedir. Bu durumda sorun çığ gibi büyüyecektir. Tam
bu noktada döviz kuru tahmininin neden önemli olduğunu anlatmaktan daha öteye gitmemiz gerekmektedir.
Ayrıca konuyu sadece ekonometrik bir neden sonuç olayı olarak düşünmek de kısıtlı sayıda veya bilinemeyecek
olan stokastik bağımsız değişkenlerle uğraşmak anlamına gelecektir. Bu yüzden ekonometrik boyuta ilaveten
zaman serileri analizi boyutunun da modelleme sürecine dâhil edilmesi gerekmektedir. Her zaman serisinin
kendi içsel dinamiklerine (bazen bu dinamikler zaman serisi bileşenleri olarak da ifade edilir) duyarlı bir
yapısının olduğu düşünüldüğünde bu dinamikler tahmin açısından koordinat vermekte ve başka dışsal
değişkenlere olan zaruri bağımlığı ciddi oranda ortadan kaldırabilmektedir. Bu çalışmada tam olarak yapılan da
budur.
Forex (foreign exchange) piyasası bahsi geçen döviz kurlarının alınıp satıldığı anlık veya uzun vadeli
işlem yapılabilen spot bir döviz kuru piyasasıdır. Dünyanın en büyük işlem hacmine sahip piyasası konumundaki
Forex piyasası zaman serileri deneyiminin herhalde en güzel yaşanabileceği veri madenlerinden biri
durumundadır. Forex piyasası tasarruf sahipleri açısından da büyük kaldıraç oranları eşliğinde çok ciddi bir
hareket sahası sağlamaktadır. Buradan aslında şu önemli noktaya vurgu yapmak istenilmektedir. Ekonomilerdeki
döviz kuru paritelerinin önemi sadece dış ticarete verdikleri hareketlilikle kalmamakta aynı zamanda bireysel ve
kurumsal tasarruf sahiplerinin de ciddi anlamda ilgisini çekmektedir.
Bu yüzden bu çalışmada döviz kuru paritelerinin tahmini, yatırımcılar için de farklı ve çok ciddi bir
teknik analiz niteliği taşımaktadır. Bu çalışmada tahmini gerçekleştirilen modelleme yaklaşımının çok uzak
olmayan bir gelecekte Forex yatırım platformlarına da dahil olacağı beklentisi ayrıca muhafaza edilmektedir.
Bu çalışmada öncelikle konu ile alakalı doğrusal zaman serileri analizi kapsamlı bir şekilde verilmiş, bu
analize dair sonuçlar ile betimsel istatistikler ilgili döviz kuru pariteleri için ayrı ayrı zaman dilimlerinde
verilmiştir. Ardından, doğrusal olmayan zaman serileri analizine öncelikle doğrusallık testleri bağlamında
değinilmiş ve doğrusallık testleri yine tüm pariteler için ayrı ayrı zaman dilimleri için uygulanmıştır. Daha sonra
çalışmanın konu başlığı olan SETAR modellemesi detaylı olarak doğrusal olmayan örüntüyü açıklamak için
tatbik edilmiştir. SETAR modelleme süreci ve bu modele ait diğer tanısal istatistiki analizler, tüm paritelerde
ayrı ayrı zaman dilimleri için uygulanmıştır.
KAYNAKLAR
[1] Dickey, David A., Fuller Wayne A. (1979), “Distribution of the Estimators for Autoregressive Time
Series With a Unit Root,” Journal of the American Statistical Association, Vol. 74, No. 366, pp. 427-431
[2] Nelson, C.R., Plosser C.I. (1982), “Trends and random walks In Macroeconomic Time Series”,
Journal of Monterey Economics, 10, pp.139-162
[3] Gimeno R., Manchado B., Minguez R. (1999), “Stationarity Test for Financial Time Series,” Physica,
A 269 (1999) 72-78
[4] Zivot, E. and Andrews, K. (1992), “Further Evidence On The Great Crash, The Oil Price Shock, and
The Unit Root Hypothesis”, Journal of Business and Economic Statistics, Vol. 10, No: 3, pp. 251–70.
214
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Amerika Makro Veri Açıklamalarının Altın Fiyatları Üzerine Etkisi
Emre SARI
T.C. Merkez Bankası, Piyasalar Genel
Müdürlüğü, 06100, Ankara, Türkiye,
[email protected]
Yeliz YALCIN*
Gazi Üniversitesi, İktisadi ve İdari Bilimler
Fakültesi, Ekonometri Bölümü, 06500, Ankara,
Türkiye, [email protected]
Yüksek frekanslı verilerin ulaşılabilir olmasıyla birlikte makroekonomik verilerin piyasalarda yarattığı
etki daha hassas bir şekilde incelenebilmektedir. Literatürde makroekonomik veri açıklamalarının döviz
piyasalarına, hisse piyasalarına, bono piyasaları ve onların oynaklıklarına etkilerini inceleyen çalışmalar son
yıllarda artmaktadır (i.e. Balduzzi, Elton, and Green, 2001; Boyd, Hu, and Jagannathan, 2005; Andersen,
Bollerslev, Diebold, and Vega, 2003). Ancak bu açıklamaların altın, gümüş gibi emtia fiyatları üzerine etkisini
incleyen çalışmaların sayısı sınırlıdır (i.e. Hess ve diğerleri, 2008; Roache ve Rossi, 2010; Elder ve diğerleri,
2012). Düşük oynaklığa sahip olan altının bu verilerle olan etkileşimini analiz edebilmek için uygun bir modelle
birlikte yüksek frekanslı verinin kullanılması önemlidir. Çalışmalar genel olarak incelendiğinde döviz, hisse
senedi ve bono piyasalarına nazaran emtia piyasalarını anlamlı düzeyde etkileyen makroekonomik açıklamaların
daha az sayıda olduğu görülmektedir (Hess ve diğerleri, 2008). Emtia fiyatları üzerine yapılan çalışmaların ve
elde edilen bulguların kısıtlı olmasının en büyük nedeni yüksek frekanslı gün içi verilere ulaşma zorluğudur.
Bununla birlikte, özellikle altınla ilgili yapılan çalışmaların çoğunda günlük veri kullanılması nedeniyle
makroekonomik açıklamaların etkileri gün boyu gerçekleşen diğer olayların etkileriyle karışmış, bu durum da
anlamlı değişken sayısını azaltmıştır.
Çalışmanın amacı, merkez bankaları için önemli bir yatırım aracı olan altının fiyatının hangi
makroekonomik açıklamalardan daha fazla etkilendiğini anlamak, özelde altın piyasasının davranışını incelerken
diğer piyasalar hakkında da bazı genel çıkarımlar yapmak, bir makroekonomik açıklamanın piyasada neden
olduğu etkiyi şiddeti, yönü ve hızı açısından incelemek, olumlu ve olumsuz gelen verilerin muhtemel asimetrik
etkisini incelemek, nispeten kısıtlı çalışmanın olduğu bu alanda literatüre katkı sağlamak ve altın piyasasının
yeni bilgiyi işlemede etkin olup olmadığını araştırmaktır. Ocak 2008– Şubat 2015 yılları arasında altın spot fiyatı
ile ABD’de açıklanan makroekonomik veriler arasındaki ilişki EGARCH (1,1) modeli ile analiz edilmiştir.
Çalışmada altın fiyatı olarak Bloomberg tarafından sağlanan 15 dakikalık ABD Doları cinsinden altın spot fiyatı,
ayrıca ABD Doları endeksi, ABD’ye ait 17 adet makroekonomik değişken gerçekleşmeleri ve beklentileri
kullanılmıştır.
Makroekonomik haberlerden kaynaklanan fiyat hareketlerini analiz edebilmek için makroekonomik
beklentilerde değişikliklere neden olabilecek sürpriz haberlerin incelenmesi gerekmektedir. Sürprizlerin
büyüklüğü ile fiyat hareketlerinin büyüklüğü arasında doğru orantılı bir ilişki olması beklenmektedir.
Makroekonomik veriler farklı birimlerdedir. Örneğin işsizlik oranı yüzde ile ifade edilmekte iken tarım dışı
istihdam milyonlarla ifade edilen bir sayıdır. Sürprizlerin büyüklüklerinin kolayca karşılaştırılabilir olması için
sürpriz değişkenlerinin uygun şekilde tanımlanması gerekmektedir. Çalışmada Balduzzi ve diğerleri (2001) ve
Andersson ve diğerleri (2009) tarafından da tercih edilen
Tanımlama kullanılmıştır. Burada
: t periyodunda i makroekonomik verisinin sürpriz değişkeni değeri;
: t periyodunda i makroekonomik verisinin gerçekleşen ve beklenen değeri;
i makroekonomik verisinin tahmin hatasının standart sapmasıdır.
Sürpriz değişkenlerin altın spot fiyatlarındaki ve oynaklığı üzerindeki etkilerini görebilmek için
EGARCH(1,1) modeli
kullanılmıştır. Asimetrik etkiyi dikkate alan EGARCH modeli ilk olarak Nelson (1991) tarafından
önerilmiştir. Modeldeki α katsayısı simetrik etkinin büyüklüğü ile ilgili bilgi vermektedir. δ katsayısı ise
oynaklıktaki süreklilik eğilimi hakkında bilgi verir. Eğer δ katsayısı büyükse bir şok ardından yaşanan oynaklık
215
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
artışının normale dönmesi uzun zaman alacaktır (Alexander, 2009). γ terimi ise getiri şoklarının neden
olabileceği asimetrik etki hakkında bilgi verir. Örneğin getiri ile oynaklık arasında ters yönlü bir ilişki varsa γ <
0 olur. Asimetrik etkinin olmadığı durumlarda γ = 0’dır. γ < -1 olması durumunda ise negatif şoklar oynaklığı
artırırken pozitif şoklar oynaklığı azaltmaktadır.
Çalışma sonunda ABD’de açıklanan verilerin büyük çoğunluğunun altın getiri ve oynaklığını etkilediği
anlaşılmıştır. Açıklamalar içinde özellikle ekonomik istihdam ve ekonomik aktivite seviyesi hakkında bilgi
içerenlerin ve enflasyon oranının altın fiyatı üzerinde daha etkili olduğu anlaşılmıştır. Elde edilen bulgular altın
piyasasının etkin çalıştığı tezini desteklemektedir.
Kaynaklar
Balduzzi, P.,Elton, E ve Green, C. (2001). Economic News and Bond Prices: Evidence from the U.S. Treasury
Market. Journal of Financial and Quantitative Analysis, vol. 36,No.04, pp 523-543.
Nelson, B. D. (1991). Conditional Heteroskedasticity in Asset Returns: A New Approach. Econometrica, 59, pp.
347–70.
Nowak, S., Andritzky, J., Andreas, J. ve Tamirisa, N. (2009). “Macroeconomic Fundamentals, Price Discovery
and Volatility Dynamics in Emerging Markets”. Erişim 15 Ocak 2014, IMF Working Papers, vol. , pp.
1-30. https://www.imf.org/external/pubs/ ft/wp/2009/wp09147.pdf.
Anahtar Kelimeler: EGARCH Modelleri, Altın Getirisi, Makroekonomik Açıklamalar
The Effects of US Macroeconomic Announcements on Gold Prices
Abstract:
In this study, the impact of US macroeconomic announcements on gold spot price is examined for 20082015 period. Impact of announcements on return and volatility of gold spot price, the time needed for price
adjustment, the asymmetric effects of positive and negative macroeconomic news are analyzed using high
frequency data with an EGARCH model. In addition USD Index is added to the model to control for exchange
rate effect. The primarily results reveal that, majority of US news affects both return and volatility of gold price.
Gold market is efficient in absorbing new information.
Keywords: EGARCH Models, Gold Return, Macroeconomic Announcements
216
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 7
ÇEŞİTLİ KONULAR 2
217
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HESAPLAMALI YAKLAŞIM METODUYLA İNVERSE GAUSSİAN
DAĞILIMININ ÖLÇEK PARAMETRELERİNİN HOMOJENLİĞİ İÇİN
BİR TEST
Hasan Hüseyin GÜL, Hülya BAYRAK, Fikri GÖKPINAR, Esra Yiğit GÖKPINAR, Hakan Tahiri
MUTLU
Gazi Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06500, Ankara, Türkiye
[email protected], [email protected] , [email protected], [email protected], [email protected]
 ve  parametreli Inverse Gaussian (IG) dağılımının olasılık yoğunluk fonksiyonu aşağıdaki gibidir:
  
f ( x,  ,  )  
3 
 2x 
1/ 2



exp 
( x   ) 2 ,
2
 2 x

x  0,  ,   0
burada  ortalama parametresi ve  ise ölçek parametresidir. Olasılık dağılımı ile ilgili ilk olarak Schrödinger
ve Smoluchowski tarafından verilen Brownian hareketi ile bahsedilmiştir. Tweedie, IG dağılımının kümülant
üreten fonksiyonu ile normal dağılımın kümülant üreten fonksiyounu arasında ters bir ilişki olduğunu
göstermiştir. Wald ardışık olabilirlik oran testinin ortalama örnek sayısının (ASN) dağılımı ile IG dağılımının
ilişkisini elde etmiştir. Bu sebepten dolayı IG dağılımı Wald dağılımı olarak da bilinir. IG dağılımı kardiyoloji,
finans ve yaşam testleri gibi birçok alanda karşımıza çıkan sağa çarpık verilerin analizinde geniş şekilde
kullanılmaktadır.
IG dağılımı ile ilgili yaygın olarak ele alınan problemlerden biri ortalamaların eşitliğinin test edilmesidir. Bu
problemle ilgili en çok kullanılan testlerden biri ANORE F testidir. Heterojenlik altında ortalamaların eşitliğinin
tesi için Weeranhandi genelleştirilmiş test önermiştir. Heterojenlik altında ölçek parametrelerinin ortalamalarının
eşitliğinin test edilmesi için Tian [1] genelleştirilmiş p değerine dayanan bir test ileri sürmüştür. Ma ve Tian [2]
bu problem için bir parametrik bootstrap yaklaşımı önermiştir. Gökpınar ve ark. [3] heterojenlik altında
ortalamaların eşitliğinin testi için yeni bir hesaplamalı yaklaşım testi geliştirmişlerdir.
Bu çalışmada k IG ölçek parametrelerinin homojenliğinin test edilmesi problemi ele alınmıştır.
i ölçek
i
ortalamalı,
parametreli, i=1,2,…,k, k bağımsız IG yığını olsun. X i1 , X i 2 ,..., X ini , IG(  i , i ), i=1,2,…,k,
dağılımından rasgele bir örneklem olsun. Homojenlik testi için hipotezler aşağıdaki gibidir:
H 0 : 1  2  ...  k
H1 : en az bir i farklı.
Ölçek parametrelerinin homojenliğinin test edilmesi problemi için Chhikara ve Folks [4] tarafından Bartlett
yaklaşımını kullanarak yaklaşık  testi (CFT) geliştirilmiştir. Liu ve He [5] tarafından Weerahandi’nin
genelleştirilmiş test metoduna dayalı olarak genelleştirilmiş olabilirlik oran testi (GLR) önerilmiştir. Son
zamanlarda, hesaplamalı yaklaşım testi birçok farklı istatistik problemine uygulanabilmektedir. Bu yöntem
yokluk hipotezinin doğruluğu altında kısıtlı en çok olabilirlik tehmin edicisine dayalı olup test istatistiğinin
dağılımını teorik olarak elde etmek gerekmemektedir.
2
Bu çalışmada, IG dağılımının ölçek paramterelerinin homojenliğinin test edilmesi için yeni bir hesaplamalı
yaklaşım testi önerilmiştir. Önerilen bu test istatistiği CFT ve GLR testleri ile farklı örnek çapları, ortalama ve
ölçek parametreleri altında I. tip hata ve testin gücü balımından bir karşılaştırılması yapılmıştır. Simülasyon
sonuçlarında, önerilen test istatistiği I. tip hata oranı bakımından tatminkar, testin gücü bakımından ise hemen
hemen her durumda diğer testlerden daha iyi sonuçlar vermiştir.
218
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] L. Tian. (2006), Tesitng equality of inverse Gaussian means based on the generalized test variable,
Computational Statistics and Data Analysis 51, pp. 1156-1162.
[2] C. Ma, and L. Tian. (2009), A parametric bootstrap approach for testing equality of inverse Gaussian means
under heterogeneity, Communication in Statistics-Simulation and Computation, 38, pp. 1153-1160.
[3] E.Y. Gökpınar, E. Polat, F. Gökpınar, and S. Günay. (2013), A new cumputational approach for testing
equality of inverse Gaussian means under heterogeneity, Hacettepe Journal of Mathematics and Statistics, 42 (5),
pp. 581-590.
[4] R.S. Chhikara, and J.L. Folks. (1989), The inverse Gaussian distribution, New York: Dekker.
[5] X. Liu, and D. He. (2012), Testing homogeneity of inverse Gaussian scale parameters based on generalized
likelihood ratio, Communications in Statistics-Simulation and Computation, 42, pp. 382-392.
ABSTRACT
A NEW TEST FOR HOMOGENEITY OF SCALE PARAMETERS FOR INVERSE GAUSSIAN
DISTRIBUTION BASED ON COMPUTATIONAL APPROACH TEST
In this study, a new testing prodecure based on computational approach test is proposed for testing homogeneity
of scale parameters from k inverse Gaussian populations. Simulation results are presented to compare the
performances of the proposed method and existing methods in terms of type I error rates and powers of tests.
Our simulations results indicate that our proposed test has excellent type I error rates and power performance.
Key Words: Inverse Gaussian distribution, ANORE F test, cumputational approach test
219
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HOMOJEN OLMAYAN VARYANS VARSAYIMI ALTINDA
VARYANS ANALİZİ İÇİN YENİ BİR HESAPLAMALI YAKLAŞIM
TESTİ
Hakan Tahiri MUTLU , Fikri GÖKPINAR, Esra GÖKPINAR, Hasan Hüseyin GÜL
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü
[email protected] , [email protected], [email protected], [email protected]
Tek yönlü varyans analizi (ANOVA) normal dağılımdan seçilen ikiden fazla bağımsız grubun
ortalamaları arasındaki farkın anlamlılığının test edilmesinde kullanılır. Bu yöntemde, herbiri normal dağılımdan
gelen k adet yığından n hacimli bağımsız tesadüfi örnekler seçildiğinde, bu örneklerin ortalamalarından hareketle
yığın ortalamalarının birbirinden farklı olup olmadığı test edilirken yokluk ve alternatif hipotezler aşağıdaki gibi
olur:
H0: Ortalamalar arasında fark yoktur.
H1: En az iki ortalama arasında anlamlı bir farklılık vardır.
Tek yönlü varyans analizi normallik, bağımsızlık ve yığın varyanslarının homojenlik varsayımına
dayanır. Bu varsayımlar arasından özellikle varyansların homojenliği varsayımı sağlanmadığında ve örnek
çapları farklı iken klasik F testinin kullanılması uygun olmamaktadır. Çünkü yapılan çalışmalarda klasik F
testinin bu durumdan çok etkilendiği ve deneysel 1.nci tip hatasının nominal değerinin çok üzerinde çıktığı
gözlemlenmiştir. Bununla birlikte varyanslar arasındaki fark çok büyük olduğunda, klasik F testinin gücü bu
durumdan etkilenmekte ve oldukça düşmektedir.
Böyle bir durumda veriler dönüşüm yoluyla varyans analizi tekniğine uygun hale getirilebileceği gibi
uygun bir parametrik olmayan yöntemle de çözülebilir. Bunula birlikte varyans analizine alternatif parametrik
yöntemler de kullanılabilir. Literatürde bu problemi ortadan kaldırmak için kesin, asimptotik ve yeniden
örneklemeye dayalı birçok test istatistiği geliştirilmiştir. Bu test istatistiklerinin bazılarının dağılımı tam olarak
bilinirken bazılarının dağılımı simülasyon yoluyla yaklaşık olarak bulunmaktadır.
Varyansların homojenliği varsayımının sağlanmadığı durumda normal dağılımdan gelen ikiden fazla
yığının ortalamalarının eşitliği hipotezinin testi Behrens-Fisher problemi olarak bilinmektedir. Bu problemin
çözümü için önerilen ilk testlerden Welch (1947)’in geliştirdiği test, kesin testlerde yaygın olarak kullanılan
yöntemlerden birisidir. Welch (1951) bu testi k yığının ortalamasının eşitliğine ait hipotezin testi için
genelleştirmiştir. Daha sonraları bu problemin çözümü için Scott ve Smith (1971) tarafından yine kesin
testlerden biri olan Scott-Smith test istatistiği geliştirilirken, Brown-Forsythe (1974) tarafından klasik F testinin
bir uyarlaması olan Brown-Forsythe testi önerilmiştir. Ayrıca Weerahandi (1995), yeniden örneklemeye dayalı
Genelleştirilmiş F testini geliştirmiştir.
Bu konuda yapılan çalışmalar incelendiğinde Gamage ve Weerahandi (1998) simülasyon yoluyla
Genelleştirilmiş F testini, klasik F, ağırlıklandırılmış F, Welch ve BrownForsythe testleri ile karşılaştırmışlardır.
Gerami ve Zahedian (2001) ise çalışmasında Welch testi, Scott-Smith testi, Weerahandi’nin Genelleştirilmiş F
testi ve Chen ve Chen (1998) tarafından önerilen Tek Aşamalı testlerin karşılaştırmasını simülasyon yoluyla
yapmışlardır. Yakın zamanda da Gökpınar ve Gökpınar (2012) hesaplamalı yaklaşım testine dayalı önerdikleri
test istatistiği ile Welch, Brown-Forsythe, Genelleştirilmiş F ve parametrik bootstrap yöntemlerini
karşılaştırmışlardır.
Bu çalışmada, bu sorunun çözümü için parametrik bootstrap yönteminin özel bir hali olan hesaplamalı
yaklaşım testine (Computational Approach Test-CAT) dayalı yeni bir test istatistiği önerilmiştir. Bu yöntem,
yokluk hipotezinin doğruluğu altında kısıtlı en çok olabilirlik tahmin edicisine dayalıdır. Ayrıca, test
istatistiğinin dağılımını teorik olarak bulmak gerekmediğinden ve p değerini doğrudan elde ettiğinden dolayı
kullanımı kolay bir yöntemdir.
220
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Bu çalışmada önerilen CAT yöntemine dayalı yeni test istatistiği farklı yığın çapları, yığın ortalamaları ve
yığın varyansları altında deneysel I.tip hata oranı ve testin gücü bakımından diğer testlerle karşılaştırılmıştır.
Elde edilen sonuçlarda, önerilen bu testin diğer testlerden birçok durumda daha iyi sonuçlar verdiği görülmüştür.
KAYNAKLAR
[1] Brown, M.B. ve Forsythe, A.B. (1974). The small sample behavior of some statistics which test the equality
of several means. Technometrics 16, 129-132.
[2] Gamage, J. ve Weerahandi, S. (1998). Size performance of some tests in one-way ANOVA Communications
in Statistics and Simulations 27(3), 625-640.
[3] Scott, A.J. ve Smith, T.M.F. (1971). Interval estimates for linear combinations of means. Applied Statistics
20(3), 276-285.
[4] Weerahandi, S. (1995). Exact statistical method for data analysis. Springer-Verlag, NewYork, 2-50.
[5] Welch, B.L. (1947). The generalization of student’s problem when several different population variances
are involved. Biometrika 34, 28-35.
ABSTRACT
A New Computational Approach Test For ANOVA Under Heteroscadasticity
This paper proposes a new test statistic based on the computational approach test (CAT) that is a special
case of the parametric bootstrap. This proposed test was compared with other tests in type I error and power
under different combinations of variances, means, population numbers and sample sizes. In the result, it was
observed that the proposed test yields better results than other tests in many cases.
KeyWords: Computational approach test, one-way anova, Generalized F test, Parametric Bootstrap test
221
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HETEROJENLİK ALTINDA ÇOK DEĞİŞKENLİ İKİ GRUP
ORTALAMA VEKTÖRLERİ FARKI İÇİN YENİ TEST
Sezen KARANFİL, Fikri GÖKPINAR, Esra GÖKPINAR, Hakan Tahiri MUTLU
Gazi Üniversitesi Fen Fakültesi İstatistik Bölümü
[email protected], [email protected],[email protected], [email protected]
Çok değişkenli analiz yöntemlerin en önemlilerinden biri olan çok değişkenli varyans analizi
(MANOVA), bir kategorik değişkenin birden çok bağımlı değişken üzerine etkisini araştırır. Bu analizde,
kategorik değişkenin düzeyleri gruplar gibi düşünüldüğünde, bu değişkenler bakımından, grup ortalamaları arası
farklılık çok değişkenli varyans analizi ile test edilir.
Çok değişkenli varyans analizinde temel varsayımlar aşağıdaki gibi verilebilir.
1) Rasgele örnekler çok değişkenli normal dağılımdan gelir.
2) Tüm gruplar için çok değişkenli normal dağılımının kovaryans matrisleri homojendir.
3)Gözlemler birbirinden bağımsızdır.
Çok değişkenli varyans analizinde, kovaryans matrislerinin eşitliği varsayılarak, ortalama vektörlerinin
eşitliğini test etmek için bazı popüler testler kullanılmaktadır. Bunlar; Roy’un en büyük kök istatistiği (1945),
Lawley-Hotelling iz istatistiği(1938), Wilks’in Lambdası (1932) ve Pillai-Bartlett iz istatistiği (1955)’dir.
Bu test istatistikleri içinde en çok kullanılan ve bilinen ilk kez Wilks (1932) tarafından tanımlanan Wilks
Lambda istatistiğidir. Grup sayısı 2,3 veya değişken sayısı 1,2 olduğunda tam F dağılımı gösterir.
Tek değişkenli analizde, iki örnek ortalaması, çok değişkenli analizde ise iki örnek ortalama vektörü
arasındaki farkın sıfır olduğuna dair kurulan hipotezin testinde, yığınların varyansını ifade eden varyansların
veya varyans-kovaryans matrislerinin homojen olmadığı durumlarda kullanılabilecek test istatistiğinin dağılımı
ve ortaya çıkacak problemlerle ilgili ilk çalışmalar; Behrens(1929) ve Fisher(1939) tarafından yapılmıştır.
Bilindiği üzere yığının varyansı veya varyans-kovaryans matrisleri eşit olduğu durumlarda; tek değişkenli
analizde, bağımsız iki örnek ortalamasının karşılaştırılmasında Student t- testi, çok değişkenli analizlerde ise iki
ortalama vektörünün karşılaştırılmasında Hotelling T 2 istatistiği kullanılmaktadır. Yığınların varyansları farklı
olduğu zaman bu istatistiklerin dağılımı değişmektedir. Bu durum kısaca Behrens-Fisher problemi olarak bilinir.
Çok değişkenli Behrens-Fisher problemi için birçok test önerilmiştir. Bunlardan en önemlileri
Bennett(1951), Brown and Forsythe (1974), Jame (1954), Yao (1980), Johansen (1980), Nel and Merwe (1986)
ve Kim (1992)’in testleridir.
Günlük yaşantıda kovaryans matrislerinin eşit olduğu durumlarla çok az karşılaşılmaktadır. Bu nedenle
homojen olmayan kovaryans matrisi için çok değişkenli varyans analizi önem kazanmaktadır.
Bu çalışmada, çok değişkenli varyans analizin özel bir hali olan iki grup otalama vektörleri
karşılaştırılmasını dikkate alınmıştır. Bu durum için hesaplamalı yaklaşım testine dayalı yeni bir test istatistiği
önerilmiştir. Bu yaklaşım kısaca parametrik bootstrap yönteminin özel bir halidir. Bu yöntem, yokluk
hipotezinin doğruluğu altında kısıtlı en çok olabilirlik tahmin edicisine dayalıdır. Ayrıca, test istatistiğinin
dağılımını teorik olarak bulmak gerekmediğinden ve p değerini doğrudan elde ettiğinden dolayı kullanımı kolay
bir yöntemdir.
Bu çalışmanın ilk kısmında çok değişkenli normal dağılıma sahip ancak homojen kovaryans matrisleri
varsayımı sağlanmadığında iki yığın ortalama vektörünün eşitliği hipotezinin testi için geliştirilen bazı test
istatistiklerine yer verilmiştir. Daha sonra hesaplamalı yaklaşım testine dayalı yeni bir test istatistiği için
prosedür verilmiştir. Çalışmanın son kısmında ise test istatistikleri karşılaştırılarak sonuçlar yorumlanmıştır.
Elde edilen sonuçlara göre yeni önerilen test diğer testlere göre testin gücü bakımından birçok durumda oldukça
iyi sonuçlar verimiştir.
Anahtar Kelimeler: Hesaplamalı yaklaşım testi, Çok değişkenli varyans analizi, Bennett testi, Johansen
testi
222
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Keskin, S., Ankaralı, A., (2007),“Çok Değişkenli Varyans Analizinde Gruplar Arasındaki Farkın
Tespiti: Bir Uygulama”, Turkiye Klinikleri J MedSci.
[2] Kotz, S., Johnson, N.L., “Encyclopedia of Statistical Sciences.”Vol:6 John Wiley&Sons, New York.
[3] Willam, F. Christensen ve ark.,(1997), ” A comparison of Type I error rates and power levels for
seven solutions to the multivariate Behrens-Fisher problem”,Communications in Statistics – Simulation and
Computation, 26(4), 125 1-1273.
[4] Welch, B.L., (1947), “Thegeneralization of student’s problem when several different population
variances are involved”, Biometrika, 34:28-35.
[5] HirokazuYanagihara, Ke-HaiYuan, (2005), “Three Approximate Solutions to the Multivariate
Behrens–Fisher Problem”, Communications in Statistics—Simulation and Computation, 34: 975–988.
ABSTRACT
A NEW TEST FOR THE EQUALITY OF TWO MEAN VECTORS UNDER ETEROSCEDASTICITY
This paper proposes a new test statistic for the equality of two mean vectors under heteroscedasticity
based on the Computationa Approach test method. This proposed test was compared with other tests in type I
error and power under different combinations of covariance matrix, mean vectors and sample sizes. In the
result, it was observed that the proposed test yields better results than other tests in many cases.
KeyWords: Computational approach test, Multivariate analysis of variance, Bennett test, Johansen test
223
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MARJİNAL DAĞILIMLARIN NORMAL OLMASI DURUMUNDA
KAPULA REGRESYON MODELLERİ
Sıddık Arslan
Bu çalışmanın birincil amacı, Y , X T  rastgele vektörünün marjinal dağılımlarının bilinmesi durumunda
kapula tabanlı regresyon fonksiyonunun tahmin edilmesidir. Çalışmanın ikinci amacı, elde edilen regresyon
fonksiyonunu kullanarak istatistiksel sonuç çıkarımı yapılmasıdır.
T
Tanım kümesi I d , değer kümesi I olan
C :Id  I
u  C u 
fonksiyonuiçin; temelli fonksiyon, a  b olan a, b  I
(1)
d
için VH a, b  0 ve u ’nun bir tane u k hariç
tüm bileşenleri 1 ise C u  uk koşulları sağlandığında C ’ye d boyutlu kapula denir.
Sklar
(1959)’ın
çalışmalarına
Y , X 
T T
göre,
rastgele
vektörünün
dağılım
Fx  F1 x1 ,...,Fd xd  olmak üzere, C F0  y , Fx kapulası ile ifade edilir.
fonksiyonu,
Y bağımlı değişken, X 1 , X 2 ,...,X d bağımsız değişkenler olmak üzere, X  x olarak verildiğinde Y ’nin

koşullu beklenen değeri (regresyon fonksiyonu) kapula Y , X 1 , X 2 ,...,X d
cinsinden
 

m x   E Y w F0 Y , Fx  


olarak yazılır. Burada c u 1 ,u 2 ,...,u d 
olmak üzere


rastgele vektörünün kapulası
e Fx 
cX Fx 
 d C u 1 ,u 2 ,...,u d
u 1  u 2 ...u d
,
(2)
C kapulasına karşılık gelen kapula yoğunluğu
  e u  EY c F Y , u  F u c u , ud u
wu , u  
ve

c u 
1
c u 0 ,u
1
0
0
0
X
0
0
0
0
(3)
dir.
Rastgele değişkenlerin dağılımları arasında, yaygın kullanılan dağılımlardan birisi normal dağılım
olduğundan; regresyon fonksiyonu, regresyon fonksiyonunun tahmin edicisi ve istatistiksel sonuç çıkarımı,
marjinal dağılımların normal dağılım olmasıyla sınırlandırılmıştır.
Çalışmada uygulama olarak hem simülasyon, hem de gerçek veriler kullanılarak sonuçlar tartışılacaktır.
KAYNAKLAR
Arslan, A. 2013. Arşimedyen Kapulalar Üzerine Bir Çalışma. Doktora tezi (basılmamış).Ankara Üniversitesi
111s, Ankara.
Nelsen, R. B., 2006. An Introduction to Copulas. Springer, 270s., New York.
Sungur, A. E. 2005. Some Observations on Copula Regression Functions, Communications in Statistics
Theoryand Methods 34: 1967–1978.
Noh, H.,Ghouch, A. ve Bouezmarni, T. 2012. Copula – Based Regression Estimation and Inference, Journal of
the American Statistical Association Volume 108, Issue 502: 676-688.
224
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
COPULA REGRESSION MODEL WHEN MARGINAL DISTRIBUTION BEING NORMAL
STATE
Abstract
The primary purpose of this study to estimate copula based regression function when marginal
distribution of Y , X T  random vector was known by certainty. Secondary purpose of the study is to utilyze the
obtained regression function to make statistical inferences.
T
Given the defination set of I d ,value set of I; forthefunction of
C :Id  I
u  C u 
(1)
The copula based function of a  b and given as a, b  I for VH a, b  0 and for u having only
d
one u k except all other members is 1 then if C u  uk conditions has been satisfied C called as d dimensional
copula.
Y , X 
T T
According tosklar’s study (1959),
random vector’s distribution function, comprised of
Fx  F1 x1 ,...,Fd xd  and is defined by C F0  y , Fx copula.
When Y being dependent variable, X 1 , X 2 ,...,X d are independent variables and if X  x is given, y’s


conditioal expected value (regression function), the copula of Y , X 1 , X 2 ,...,X d could be stated as in terms of
random vector’s copula:
 

m x   E Y w F0 Y , Fx  


Where, c u 1 ,u 2 ,...,u d 


 d C u 1 ,u 2 ,...,u d
u 1  u 2 ...u d
e Fx 
cX Fx 
 , corresponding copula C
(2)
as a copula density is given as;
 ccu u, u ve e u  EY c F Y , u   F u c u , ud u
1
w u 0 ,u 
1
0
0
0
X
0
0
0
0
(3)
Among the random variable distribution, since one of the commonly utilyzed distribution is normal
distribution; regression function, predictor of regression function and statistical infereces has been constrained
by marginal distribution is being as normal distribution.
In the study, as an applicaiton both smulation and real World data will be used and the result will be
discussed.
Key Words: Copulas, Gaussian Copulas, Archimedean copulas, Regression, Copula – Based Regression.
225
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 8
APPLIED STATISTICS 3
226
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Comparison of Some Imputation and Deletion Methods through MSE
of Estimation
Onur TOKA, Meral ÇETİN
Hacettepe University, Department of Statistics, 06800, Beytepe, Ankara, TURKEY
[email protected], [email protected]
1. INTRODUCTION
Statistical methods are being used in many fields of disciplines. A clear majority of researchers ignore the
missing value or outlier problems. Both missing data and contamination cannot be solved with classical
imputation methods. Therefore, some robust imputation methods have been being suggested by researcher to
overcome mentioned issues. This paper investigates commonly used data imputation applications under the
presence of missing values and outliers. Simulation studies are conducted to collect missing and contaminated
data and the results of imputation methods are compared by mean squared error (MSE). To compare missing
data methods, imputation error is used in another presentation in 2012 (Toka and Çetin, 2012). In this study,
mean vector estimation results are used to compare methods through mean squared error.
2. MISSING DATA METHODS
Listwise deletion and pairwise deletion can only be answer to get data without missing part. Moreover,
getting full data matrix with listwise deletion method implies to take all missing part of data out of analysis.
Similarly, pairwise deletion method can deal with data to analyze get all observed part of variables separately
and combine the results. Mean/median imputation is to get mean/median of observed values for every variable
and then impute all missing part of variables with their own means/medians. Demspter et all. (1977), proposed
EM algorithm -iterative methods- with the part of expectation (E-step) and maximization (M-step). Little and
Smith (1987) proposed ER (expectation robust) algorithm to EM algorithm. They changed M-step to get more
resistant estimators in contaminated data. Verboven et. al (2007) proposed sequential imputation (SEQimpute).
Covariance matrix and determinant play an important role in this method. Branden and Verboven (2009)
proposed robust version of SEQimpute and they called it as robust imputation (ROBimpute) method. All of the
steps are same as SEQimpute method but the initial robust mean and robust covariance matrix of the complete
data matrix are used.
3. SIMULATION STUDY
In the simulation study, a data matrix with three variables and 50 observations were generated from
multinomial normal distribution
. Data was contaminated with proportion 10% and 20% respectively by
data generating from multinomial normal distribution
. Otherwise, missingness was formed by
excluding some values missing at randomly for every data sets with the proportion 5% and 10% respectively.
Imputation methods were compared by mean squared error for 500 iteration. For all data structures, MSEs of
imputation methods are also given in Figure 1.
For contamination, it can be seen ER algorithm and robust imputation method are better methods than the
other ones.
4. RESULTS
Missingness is not a big problem if you know how can handle it. In this study, some missing methods that
can be used in continuous data type were given and compared. The results showed that ER algorithm and robust
imputation can be answer for missing data in case of outliers and contamination
227
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Figure 1 MSEs of Imputation and Deletion Methods
.
REFERENCES
[1] Toka, O. and Çetin, M. (2012), Comparison of Some Classic and Robust Imputations, 8th International
Statistics Day Symposium, Eskişehir, Turkey.
[2] Dempster, A. P., Laird, N. M., Rubin, D. B., 1977, Maximum likelihood from incomplete data via the
EM Algorithm, Journal of the Royal Statistical Society, Series B, 39, 1–38.
[3] Little, R. J. A., Smith P. J., 1987, Editing and imputing for quantitative survey data, Journal of the
American Statistical Association 82, 58-68.
[4] Verboven, S., Branden K.V., Goos, P., 2007, Sequential imputation for missing values, Computational
Biology and Chemistry, 31, 320-327.
[5] Branden , K. V., Verboven S., 2009, Robust data imputation, Computational Biology and Chemistry,
33(1), 7-13.
Key Words: Robust imputation, ER and EM algorithm, Sequential imputation, Missing data.
228
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
PARAMETRIC BOOTSTRAP AND GENERALIZED APPROACH
FOR ONE-WAY ANOVA UNDER UNEQUAL VARIANCE WITH
NONNORMALITY
Evren ÖZKİP1, Berna YAZICI2,Ahmet SEZER3
Milli Eğitim Bakanlığı, Merkez Kız İmam Hatip Lisesi, Yozgat, TURKEY
2,3
Department of Statistics, Science Faculty, Anadolu University, Eskisehir, TURKEY
1
[email protected], [email protected], [email protected]
1
1. Introduction
Classical ANOVA test is conducted to compare means of groups under the following hypothesis:
,
Independent samples from i. population
without any restriction is as follows:
and
(1)
. The classical one-factor model
,
,
In order to test the hypothesis in Eq. 1, the following assumptions are required:
1.
2.
3.
The samples come from normally distributed populations.
The variances are homogenous for the different samples and populations.
The samples are random and independent from each other.
When variances are unequal, classical tests provides invalid result (e.g., too many type I errors, reduced
power) for the one-way ANOVA. There are numerous solutions for testing equality of means for normal data
under heterogeneity, such as Welch’s (1951) test, Weerahandi’s (1995) generalized F-test, Krishnamoorthy et
al.’s (2007) parametric bootstrap test and so on. Hovewer, literature lacks of evaluating the performances of
these tests when distributions are nonnormal and variances are unequal.
Several procedures have been recommended for analyzing the data from one-way ANOVA when
distributions are nonnormal and variances are unequal (Cribbie et al. 2007; Cribbie et al. 2012). In this study, we
investigate the performances of parametric bootstrap approach and generalized F-test under conditions of
nonnormality and variance heterogeneity.
2. Proposed Tests
When variances are unequal, the Generalized F-test by Weerahandi (1995), the parametric bootstrap (PB)
approach by Krishnamoorthy et al. (2007) for ANOVA have been developed. We propose these tests and we
examine performances of these tests when data are nonnormal and variances are unequal.
3. Conclusion
When the data is normal distribution, the PB test seems to have a type I error rate close to nominal level
and GF test exceeds the nominal level. When the data is lognormal distribution, the type I error rates of the PB
and GF tests slightly exceed the nominal level. When the data is gamma distribution, the type I error rate of the
PB test closer to nominal level than GF test.
The GF test appears to be more powerful than the PB test regardless of sample sizes, unequal variances
and distributions. Especially, when data followed lognormal and variances are unequal, the power of PB test is
far worse.
References
1. Cribbie, R.A.,Fikensenbaum, L., Keselman, H.J. and Wilcox, R.R. (2012). Effects on Nonnormality on
Test Statistics for One-Way Independent Groups Designs. British Journal of Matematical and Statistical
Psychology 65, 56-73.
2. Cribbie, R.A., Wilcox, R.R. Bewell, C. and Keselman, H.J. (2007). Tests for treatment group equality
when data are nonnormal and heteroscedastic. Journal of Modern Applied Statistial Methods 6, 117-132.
3. Krishnamoorthy K., Lu F. and Mathew T. (2007). A parametric bootstrap approach for ANOVA with
unequal variances: fixed and random models. Computational Statistics and Data Analysis 51, 5731–5742.
4. Weerahandi, S. (1995). ANOVA under unequal error variances. Biometrica 38, 330-336.
229
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
5. Welch, B.L. (1951). On the comparison of several mean values: An alternative approach. Biometrica
38, 330-336.
230
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Shrinkage Ridge-Type Estimators in Linear Models
Bahadır YÜZBAŞI1, S. Ejaz AHMED2 and Mehmet GÜNGÖR3
1,3
Department of Econometrics, Inonu University, Malatya 44280, Turkey
Department of Mathematics and Statistics, Brock University, St. Catharines, ON L2S 3A1, Canada
1
[email protected], [email protected] and [email protected]
2
1. Introduction
Consider a linear regression model
(1)
where
are responses,
is design points,
is vector
denoting unknown coefficients, ’ are unobservable random errors and the superscript
denotes the
transpose of a vector or matrix. Further,
has a cumulative distribution function
;
and
, where
is finite and is an identity matrix of dimension
In the existence of multicollinearity may lead to wide confidence intervals for individual parameters or
linear combination of the parameters and may produce estimates with wrong signs, etc.. In literature, to
overcome this problem, many studies have been made. Ridge estimation is proposed by [2,3], is one of the most
effective methods to solve the problem of multicollinearity.
In this study, we consider a linear regression model (1) in a more realistic situation when model is
assumed to be sparse. Under this assumption, the vector of coefficients can be partitioned as
where
is the coefficient vector for main effects, and
is the vector for nuisance effects or insignificant
coefficients. We are essentially interested in the estimation of
when it is reasonable that
is close to zero.
2. Estimation Strategies
The ridge estimator can be obtained from the following model
(2)
where is inversely proportional to ,
model or unrestricted ridge estimator
of
is given by
and
. From (2), full
where
A sub-model or restricted model with a general restriction is defined as:
where
is an
restriction matrix, and is an
vector of constants. In this study, we let
, where
is an
sub-matrix containing the regressors of interest and
is an
submatrix that may or may not be relevant in the analysis of the main regressors. Similarly,
be the
vector of parameters, where
and
have dimensions
and , respectively, with
,
for
. In order to obtain relevant hypothesis, we consider
and
where is a
matrix of
zeroes and is the identity matrix. If
then we have the following restricted linear regression model
(3)
For model (3), the sub-model or restricted estimator
231
of
has the form
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Generally speaking,
performs better than
when
close to zero. However, for
away from
the zero,
can be inefficient. But, the estimate
is consistent for departure of
from zero. The pretest
test estimator was introduced by [1]. This estimator is a combination of
and
through an indicator
function
where
is appropriate test statistic to test
versus
Moreover,
is an
level critical value using the distribution of
We define test statistics as follows:
where
is consistent estimator of
,
and
. Under , the test statistic
follows chi-square distribution with
degrees
of freedom for large values. Now, we can choose an
level critical value
and introduce pretest test ridge
regression estimator of
defined by
Hence,
choose
when
is tenable; otherwise,
The shrinkage or stein-type ridge regression estimator of
is chosen.
defined by
The estimator
is general form of the Stein-rule family of estimators, where shrinkage of the base
estimator is towards the restricted estimator
Shrinkage estimator is pulled towards the restricted estimator
when the variance of the unrestricted estimator is large.
The
positive
part
of
the
shrinkage
ridge
regression
estimator
of
defined
by
where
REFERENCES
[1] Bancroft, T. A. (1944). On biases in estimation due to the use of preliminary tests of significances.
Annals of Mathematical Statistics, 15, 190 – 204.
[2] Hoerl, A. E.. Kennard, R. W. (1970). Ridge Regression: Biased estimation for non-orthogonal
problems. Technometrics, 12. 55 – 67.
[3] Hoerl, A.E., Kennard, R.. W. and Baldwin, K.F. (1970). Ridge regression: Applications to
Nonorthogonal Problems. Technometrics, 12(1), 69 – 82.
ABSTRACT
In this paper, we establish pretest ridge regression, shrinkage ridge regression and positive shrinkage
ridge regression estimators for a multiple linear regression model. Monte Carlo studies were conducted to
compare their performance with some penalty estimators which are lasso, adaptive lasso and SCAD. Finally,
asymptotic risk properties of the suggested estimators have been showed.
Key Words: Ridge Regression, Shrinkage Estimation, Penalty Estimation.
232
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
VENTRICULO-PERITONEAL SHUNT SURGERY AND DIFFUSION
TENSOR IMAGING - STATISTICAL RESULTS
Karel HRACH
J.E.Purkyne University in Usti nad Labem, Faculty of Health Studies, 40096 Usti nad Labem, CZECH REP.
[email protected]
1.
Introduction
Our data of diffusion tensor imaging (DTI) is presented by two groups. The group A consists of 27 patients (a
female 37 %) after implantation (ventriculo-peritoneal shunt surgery) and the group B consists of 24 controls (a
female 46 %) recruited as volunteers. The groups were comparable in the mean age (A=72.4, B=69.3). The
following variables were observed as fractional anisotropy (FA) and mean diffusivity (MD), both at posterior
limb of internal capsule (PLIC), anterior limb of internal capsule (ALIC) and corpus callosum (CC). The
variables were measured twice in the group A (before and after the surgery) and once in the group B. The
statistical analysis presented here includes paired tests (comparison within the group A) and two-sample tests
(comparing the group B with the values for the group A before or after the surgery, respectively) for each
variable.
2.
Paired tests
As concerns paired tests of the patients´ group A, the only variable FA at PLIC performed statistically significant
difference (p≤0.001). Its average values are 0.70 before the surgery and 0.63 after the surgery. The results can be
found in Table1.
Table1.
FA (fractional anisotropy) – paired tests and descriptive characteristics (patients´ group A)
location (p-value)
PLIC (3∙10-9)
ALIC (0.111)
CC (0.296)
before
after
before
after
before
after
minimum
0.63
0.54
0.53
0.50
0.53
0.52
maximum
0.75
0.74
0.68
0.70
0.71
0.72
average value
0.70
0.63
0.61
0.60
0.62
0.61
standard deviation
0.04
0.04
0.04
0.05
0.05
0.05
MD (mean diffusivity) – paired tests and descriptive characteristics (patients´ group A)
location (p-value)
PLIC (0.890)
ALIC (0.717)
CC (0.335)
before
after
before
after
before
after
minimum
0.58
0.59
0.57
0.57
0.57
0.55
maximum
0.79
0.77
0.73
0.72
0.74
0.74
average value
0.68
0.68
0.66
0.65
0.65
0.65
standard deviation
0.05
0.05
0.05
0.04
0.05
0.06
3.
Two-sample tests
Descriptive characteristics for the control group B together with the p-values of the two-sample tests (F-test and
t-test in one-tailed version) can be found in Table2. Based on F-tests, the variances are comparable between the
groups for FA at PLIC before as well as after the surgery. For remaining statistical variables their variances
differ significantly. Based on t-tests, all the mean values are significantly lower in the control group, regardless
of whether before or after the surgery.
4.
Discussion
In conclusion, the ventriculo-peritoneal shunt surgery did not affect the monitored variables except the
significant change (decrease) of fractional anisotropy (FA) at posterior limb of internal capsule (PLIC). This
change of FA at PLIC is consistent with results of previously published studies, e.g. Nicot et al. (2014). All the
mean values were before the surgery and remained after the surgery significantly higher than in the control
group. Ongoing further analysis should confirm the usefulness of the disproportionately enlarged subarachnoidspace hydrocephalus (DESH) indicator as e.g. in Hashimoto et al. (2010).
233
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
The study is conducted in the co-operation between Krajská zdravotní, a.s., and J. E. Purkyně University in Ústí
nad Labem with the support of a project grant from the Czech Ministry of Health NT14448-3/2013.
Table2.
Descriptive characteristics (control group B) and two sample tests
FA PLIC
MD PLIC
FA ALIC
MD ALIC
FA CC
minimum
0.52
0.54
0.53
0.53
0.53
maximum
0.65
0.65
0.63
0.63
0.64
average value
0.58
0.60
0.58
0.59
0.59
standard deviation
0.03
0.03
0.03
0.03
0.03
Two-sample tests (comparison with the patients´ group A before surgery)
F-test (p-value)
0.757
0.004
0.042
0.013
0.007
t-test (p-value)
1∙10-15
3∙10-9
0.006
3∙10-8
0.006
Two-sample tests (comparison with the patients´ group A after surgery)
F-test (p-value)
0.177
0.006
0.013
0.027
0.015
t-test (p-value)
1∙10-4
9∙10-10
0.030
1∙10-8
0.015
MD CC
0.52
0.63
0.57
0.03
0.027
4∙10-8
0.013
4∙10-7
REFERENCES
[1] Nicot, B., Bouzerar, R., Gondry-Jouet, C., Capel, C., Peltier, J., Fichten, A. and Balédent, O. (2014), Effect
of surgery on periventricular white matter in normal pressure hydrocephalus patients: Comparison of two
methods of DTI analysis, Acta Radiologica, 55 (5), pp. 614-621.
[2] Hashimoto, M., Ishikawa, M., Mori, E. and Kuwana, N. (2010), Diagnosis of idiopathic
normal pressure hydrocephalus is supported by MRI-based scheme: A prospective
cohort study, Cerebrospinal Fluid Research, 7, art. no. 18.
Key Words: paired test, two-sample test, shunt surgery, diffusion tensor imaging
234
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 8
BULANIK TEORİ 2
235
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BULANIK UZMAN SİSTEMLERİN BULANIK DOĞRUSAL
REGRESYON ANALİZİNDE KULLANIMI
Duygu İÇEN
Hacettepe Üniversitesi, İstatistik Bölümü, 06800, Ankara, TÜRKİYE
[email protected]
Süleyman GÜNAY
Hacettepe Üniversitesi, İstatistik Bölümü, 06800, Ankara, TÜRKİYE
[email protected]
1.
Giriş
Uzman sistemler, özel bir alanda ele alınan problemi konu ile ilgili uzmanların çözdüğü şekilde çözebilen
bilgisayar programlarıdır. Bulanık uzman sistemler ise veri üzerinde akıl yürütme yapabilmek için klasik mantık
yerine Zadeh [1] tarafından önerilen bulanık mantığı kullanan sistemlerdir. Bulanık uzman sistemler genel
olarak, bulandırma arayüzü, bilgi tabanı, çıkarım motoru ve durulama arayüzü olmak üzere dört bölümden
oluşur. Bulanık uzman sistemin genel yapısı Şekil 1 ile verilmiştir.
Şekil 1. Bulanık uzman sistemin genel yapısı
Bulanık regresyon analizinde gözlenen değerler ile hesaplanan değerler arasındaki sapmaların klasik
regresyondaki gibi ölçüm ve gözlem hatalarından değil, model parametrelerinin bulanıklığından kaynaklandığı
kabul edilir [2]. Bulanık doğrusal regresyon model parametrelerinin tahmini için Monte Carlo yönteminin
kullanımı çok yeni ve üzerinde çok çalışılmamış bir konudur.
Bu çalışmada Eşitlik 1 ve Eşitlik 2 ile verilen bulanık doğrusal regresyon modelleri ele alınmıştır.
Y  A0  A1 x1l  A2 x2l 
Y  a0  a1 X1l  a2 X 2l 
 Am xml
 am X ml
(1)
(2)
Yukarıdaki eşitliklerde verilen model parametrelerinin tahmini için bulanık uzman sistem kullanılarak her
parametrenin geldiği düşünülen aralık belirlenmiştir. Daha sonra Monte Carlo yöntemi kullanılarak model
parametreleri tahmin edilmiştir.
2.
Sonuç ve Öneriler
236
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Bulanık doğrusal regresyon model parametrelerinin tahmininde kullanılan Monte Carlo yönteminde, model
parametrelerinin geldiği düşünülen aralıkların belirlenmesi için bulanık uzman sistem kullanılması önerilmiştir.
Böylece ele alınan her iki regresyon modeli için uzun ve karmaşık matematiksel işlemlere gerek kalmadan en
uygun parametre değerine ulaşılmıştır.
KAYNAKLAR
[1] Zadeh, L. A. (1965) Fuzzy Sets, Information Control, 8(3), 338–353.
[2] Chang, Y.H.O. and Ayyub, B.M., (2001) Fuzzy regression methods-a comparative assessment, Fuzzy Sets and
Systems, 119,187-203.
ABSTRACT
USE OF FUZZY EXPERT SYSTEMS IN FUZZY LINEAR REGRESSION ANALYSIS
Expert systems are computer programs that solve the problems in a way of the experts dealing with in a
specific area. Fuzzy experts systems use fuzzy logic, which is introduced by Zadeh [1], instead of classical logic
for reasoning on the data. In this study, fuzzy expert system is introduced for determining the parameter
intervals for estimating the fuzzy linear regression model parameters.
Key Words: Fuzzy linear regression analysis, Fuzzy expert systems, Monte Carlo method
237
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BULANIK KÜMELEME İLE DEPREM SİGORTASI RİSK
DEĞERLENDİRMESİ
Furkan BAŞER1, A. Sevtap SELCUK-KESTEL2, Ayşen APAYDIN3
1
Gazi Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, Uluslararası Ticaret Bölümü 06500-Beşevler, Ankara
E-mail: [email protected]
2
Orta Doğu Teknik Üniversitesi, Uygulamalı Matematik Enstitüsü 06800-Çankaya, Ankara
E-mail: [email protected]
3
Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü 06100-Tandoğan, Ankara
E-mail: [email protected]
1. Giriş
Belirli bir bölgede bulunan, kayıtlı deprem geçmişi yansız kestirimler yapmak üzere yetersiz olan yapılar için
doğru primin belirlenmesi sigorta ve reasürans şirketlerinin temel problemi olarak görülmektedir. Ekonomik
kayıpların kestirimi; yapının fiziksel durumu ve dayanıklılığı, deprem kaynağına olan konumu gibi yapı
özelliklerine bağlıdır [1]. Sigortalama, sigortalanabilir risklerin seçimi ve sınıflandırılması sürecidir. Deprem
sigortalarında; özel şartlar, durumlar ve primler gibi sigorta poliçesi öğelerinin sigortalanan riske uygunluğu
sigorta şirketi ve sigortalanan açısından öneme sahiptir. Bu çalışmada, bina yapılarının benzer özelliklerine,
hasar üretme ihtimaline ve bu hasarların büyüklüğüne göre değerlendirmek üzere bulanık c-ortalama (BCO)
kümeleme algoritması kullanılmıştır. Önerilen bulanık tip kümeleme ile örüntülerin risk gruplarına üyelikleri
hakkında daha fazla bilgi sağlanması amaçlanmaktadır.
2. Yöntem
Bulanık kümeleme yöntemi, nesnelerin kümelere hangi derece ile ait olduğunu belirleyen üyelik fonksiyonlarını
hesaplamak ve veri seti içerisindeki örtüşen kümeleri saptamak üzere kullanılmaktadır [2].
nesneler kümesini göstermek üzere; her bir nesnesi (
), boyutlu
vektörü ile temsil edilsin. Bir bulanık kümeleme algoritması veri kümesini, parçalanma matrisi tasarımıyla
sayıda örtüşen kümeye parçalar. Bulanık parçalanma matrisi, , her (
) kümesinde yer alan
(
) nesnelerinin üyelik derecelerinden oluşan bir matristir.
kümesindeki . vektörün üyelik
derecesi
ile gösterilir.
Bulanık kümeleme algoritmasında her bir küme, küme merkez vektörü veya küme prototip vektörü ile temsil
edilir. boyutlu veri vektörlerinden oluşan bir matrisi için bulanık kümeleme algoritması ,
küme merkez vektörlerini belirler.
olmak üzere her bir küme merkezi,
,
boyutlu bir vektördür. Bu küme merkezleri genellikle, sayıda nesnenin ağırlık merkezi olarak ifade edilir [3].
BCO kümeleme yöntemi, optimum çözüme amaç fonksiyonunun minimumu ile ulaşan bir kısıtlı optimizasyon
problemine dayanır. Küme sayısı ( ) ve bulanıklık parametresi ( ) gibi iki önsel bilgi ile bu optimizasyon
problemi;
(1)
matematiksel modeli ile tanımlanır [4]. Burada
ise . nesne ile . küme merkezi arasındaki uzaklık
ölçüsüdür. Karesel uzaklık, amaç fonksiyonunun negatif tanımlı olmamasını,
, sağlamaktadır.
238
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
3. Uygulama
Doğal Afet Sigortaları Kurumu (DASK) veri tabanı, her bir poliçenin çeşitli karakteristikleri ve primlerini, hasar
geçmişini barındıran büyük bir bilgi havuzudur. Bu çalışmanın kapsamı, ikinci derece sismik bölge içerisinde
bulunan Eskişehir ili ile sınırlıdır. Toprak yapısı, yer altı su seviyesinin yüksekliği ve merkezinden aktif bir fay
hattının geçmesi dolayısıyla şehir, beşten büyük şiddette birçok deprem yaşamıştır. Bu gerçekler ışığında,
Eskişehir deprem sigorta verileri yardımıyla mevcut bina yapılarının deprem risklerine göre değerlendirilmesi
önem arz etmektedir.
Veri seti, 11795 adet poliçe için sigorta miktarı, bina yapı türü, kat sayısı, bina yapım zamanı, kat alanı, kat
numarası gibi bina özellikleri ve prim bilgilerini içermektedir. Hasar kestiriminde öneme sahip olan bu risk
faktörlerinin birçoğu DASK prim hesaplama metodolojisinde göz ardı edilmektedir.
KAYNAKLAR
[1] Liu, R., Wang, Z., Zhu, M. (2006). Study on financial loss and its adjustment in earthquake insurance. Acta
Seismologia Sinica, 19(2), 207-216.
[2] De Oliveira, J. V., Pedrycz, W. (2007). Advances in fuzzy clustering and its applications, Wiley, West
Sussex.
[3] Celikyilmaz A., Türksen, I. B. (2009). Modeling Uncertainty with Fuzzy Logic: With Recent Theory and
Applications, Springer-Verlag, Berlin Heidelberg.
[4] Bezdek, J.C. (1981) Pattern Recognition with Fuzzy Objective Function Algorithms, Plenum Press, New
York.
ABSTRACT
FUZZY CLUSTERING FOR EARTHQUAKE INSURANCE RISK ASSESSMENT
Determining earthquake insurance premiums requires knowledge on many factors and properly classified risks.
In this paper, fuzzy c-means clustering algorithm is employed in order to assess earthquake insurance risks of
building structures based on their features such as insurance amount, construction type, construction date,
number of storey, area and risk floor number. According to the numerical application carried out for 11795
insurance policies collected from TCIP (DASK), it is found that proposed method gives remarkable results.
Key Words: Earthquake insurance, risk classification, fuzzy c-means.
239
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BULANIK KÜMELEMEYE DAYANAN ENGLE - GRANGER TESTİ
Aytaç PEKMEZCİ, Nevin GÜLER DİNCER, Arzu EKİCİ
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Kötekli, MUĞLA
[email protected] , [email protected] , [email protected]
Ekonometrik modellerin çoğu zaman serilerine dayanmaktadır. Zaman serilerinin en önemli amaçlarından biri
geleceğe yönelik tahmin yapmasıdır. Bu tahminler serinin durağan olması durumunda anlamlıdır. Gerçek hayatta
karşılaşılan zaman serilerinin çoğu bir trend bileşeni içerdiğinden durağan olmayan serilerdir. Zaman
serilerinin durağan olmaması eşbütünleşme kavramının ortaya çıkmasına neden olmuştur. Eşbütünleşme analizi,
durağan olmayan zaman serilerinin doğrusal bileşimlerinin durağan bir süreç olabileceğini göstermektedir.
Eşbütünleşme testleri kullanılarak değişkenler arasındaki uzun dönemli denge ilişkisi saptanabilmekte ve uzun
dönem katsayıları güvenilir bir şekilde tahmin edilebilmektedir.
Eşbütünleşme analizi ile ilgilenilen ekonometrik zaman serileri arasında uzun dönemli bir ilişki olup
olmadığı belirlenmeye çalışılır. Ayrıca eşbütünleşme ile her biri ayrı ayrı durağan olmayan iki ya da daha fazla
zaman serisi arasındaki ilişki açıklanabilmektedir. Analiz sonucu uzun dönemli bir ilişkinin var olduğu
söylenebilirken, bunlar arasındaki kısa dönemli sapmalar durağandır. Değişkenler arasında eşbütünleşme
ilişkisinin varlığı, bu değişkenlerin uzun dönemde birlikte hareket ettiği anlamına gelmektedir. Ekonomik
uygulamalarda eşbütünleşme analizinin kullanıldığı çalışmaların çoğunda incelenen değişkenlerin birinci
derecenden bütünleşik olduğu durumlar ele alınmıştır.
Xt ve Yt birinci dereceden farkı alınmış I(1) olan iki zaman serisi olmak üzere bu iki serinin doğrusal
birleşimi de I(1) olacaktır. Ancak bazı koşullarda iki I(1) değişkeninin doğrusal birleşimi I(0) olan bir değişken
ortaya çıkabilir. Bu durumda bu iki değişkene eşbütünleşik seriler denir.
Günümüzde uzun dönemli denge ilişkisini araştıran eşbütünleşme testlerinden birisi literatürde kullanılan
Engle-Granger (EG) testidir. EG tek denkleme dayalı eşbütünleşme analizini geliştirmiştir. Bu analiz iki ya da
daha fazla değişken arasında bir denge ilişkisi olabileceğini göstermiştir. Bu test iki değişken arasında uzun
dönemli bir ilişkiyi araştırırken modelde yer alan tüm değişkenlerin I(1) ve bu değişkenlerin doğrusal
birleşiminden elde edilen hata teriminin I(0) yani durağan olduğunu varsaymaktadır. Hata terimlerinin
durağanlığı, ele alınan değişkenler arasındaki eşbütünleşmenin göstergesidir.
İki aşamada gerçekleştirildiği için iki aşamalı yöntem olarak adlandırılmaktadır. İlk aşamada değişkenler
arasındaki uzun dönem denge ilişkisini gösteren denklemdeki parametreler gerçeğe en yakın şekilde tahmin eden
En Küçük Kareler (EKK) yöntemi ile tahmin edilir ve hata terimleri elde edilir. İkinci aşamada hata teriminin
birinci farkı alınarak yeni bir denklem kurular ve hata teriminin durağan olup olmadığı ADF birim kök testi
yardımıyla belirlenir. Her iki aşamada değişkenler arasında eşbütünleşme ilişkinin varlığı, bulunan parametrelere
ait tahmin değerlerinin tutarlı olmasını gerektirmektedir. EKK tekniği veri setinin birbirinden farklı dağılımdan
oluşması, değişkenler arasındaki ilişkinin polinom fonksiyon şeklinde (doğrusal, kuadratik vs) olmaması
durumunda tatmin edici sonuçlar vermemektedir.
BCRM küme merkezi doğrusal veya doğrusal olmayan fonksiyonlara karşılık gelen bir kümeleme
algoritmasıdır. Algoritmanın çalışma prensibi şu şekildedir: ilk olarak küme sayısının belirlenmesi
gerekmektedir. Bu amaca yönelik olarak çeşitli küme doğrulama kriterleri kullanılmaktadır. Ancak bu çalışmada
BCRM’in minimum şartlardaki performansını değerlendirmek amacıyla küme sayısı simülasyon ile üretilen tüm
veri setleri için 2 olarak seçilmiştir. Bulanık üyelik değerleriyle ağırlıklandırılmış hata kareler fonksiyonunu
minimum yapacak küme merkezlerine ilişkin parametreler tahmin edilir. Her küme için tahmin değerleri
hesaplanır ve anahtarlama özelliği kullanılarak elde edilen tahmin değerleri birleştirilir. Elde edilen hata
değerlerine ADF testi uygulanarak hataların durağan olup olmadığı test edilir.
Bu çalışmada, farklı fonksiyonel ilişkilerin incelenmesine izin veren bulanık kümelemeye dayanan
modelleme tekniklerinden Bulanık C-Regresyon Model (BCRM) ile EG testinin geliştirilmesi amaçlanmıştır.
Bunun için BCRM’nin eşbütünleşmedeki performansını değerlendirmek amacıyla bir simülasyon çalışması
gerçekleştirilmiş ve elde edilen sonuçlar ile EG testi karşılaştırılmıştır.
240
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Hathaway R. J., and Bezdek, J.C., (1993) “Switching regression models and fuzzy clustering”, IEEE Trans.
Fuzzy Systems, vol. 1, pp. 195-204.
[2] Engle, R. F., and Granger, C.W.J., (1987) “Cointegration and Error Correction: Representation, Estimation
and Testing”, Econometrica, 55: 251-276.
[3] Haug, A.A., (1996) “Tests for Cointegration A Monte Carlo Comparison”, Journal of of Econometrics, 71:
89-115.
[4] Enders, W., (1995) “Applied Econometric Time Series”, John Wiley and Sons. Inc., New York, 433p.
[5] Pekmezci, A., (2011) “Eşbütünleşme Yöntemlerinin Simülasyon Verileri ile Karşılaştırılması ve Bir Model
Uygulaması”, Doktora Tezi, Muğla Üniversitesi Fen Bilimleri Enstitüsü.
ENGLE-GRANGER TEST BASED ON FUZZY CLUSTERING
ABSTRACT
One of cointegration tests investigating the long-run equilibrium relationship is Engle-Granger (EG)
test. In EG test, the parameters indicating long-run equilibrium relationship between the variables are estimated
by OLS method. However, OLS technique does not give satisfactory results in case that data set consist of two or
more than two classes that have different distributions and/or the relationship between variables does not
correspond to a polynomial function such as linear. Thus in this study, it is aimed at improving EG test with
Fuzzy C-Regression Model (FCRM) that is one of the fuzzy clustering techniques allowing to investigate
different functional relationship.
Key Words: Cointegration, FCRM, Fuzzy Clustering, EG Test, Time Series
241
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 8
YAPAY ZEKA
242
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Medyan Nöron Modeline Dayalı Sinir Ağları Kullanılarak Döviz
Kurlarının Öngörülmesi
Cagdas Hakan ALADAG1*, Bulent ALPTEKIN2
1*
2
Toronto University, Department of Mechanical and Industrial Engineering, Toronto, Canada
Middle East Technical University, Faculty of Arts and Sciences, Department of Statistics, Ankara, Turkey
E-mails: [email protected], [email protected]
Yapay sinir ağları, son yıllarda, zaman serisi öngörüsü için sıklıkla kullanılmaktadır. Bunun nedeni, yapay sinir
ağlarının klasik zaman serisi yaklaşımlarındaki kısıtlayıcı varsayımları içermemesi ve esnek hesaplama
yeteneğidir [1]. Literatürde farklı nöron modeline sahip yapay sinir ağları ortaya atılmıştır. Bunlardan en yaygın
olanı Rumelhart vd.’nin önerdiği çok tabakalı algılayıcılardır [2]. Çok Tabakalı Algılayıcı (Multi Layered
Perceptron) modeli, son 20 yılda zaman serileri öngörülerinin elde edilme sürecinde sıklıkla kullanılmaktadır [3].
Bu model ile öngörü yapılırken, verideki aykırı değerlerden çok fazla etkilenmesi tahmin performansı üzerinde
olumsuz yönde etki yaratmaktadır [4]. Son yıllarda alternatif yöntemler olan “Genelleştirilmiş Ortalama Nöron
Modeli (Generalized-Mean Neuron)”, “Geometrik Ortalama Nöron Modeli (Geometric Mean Neuron)” ve “Tek
Çarpımsal Nöron Modeli (Single Multiplicative Neuron)” yöntemlerinin literatürde çalışıldığı görülmektedir.
Buna karşın, belirtilen modellerde de kullanılmakta olan toplam işlemine dayalı birleştirme fonksiyonu
nedeniyle yapay sinir ağlarının öngörü performansı aykırı değerlerden etkilenmektedir. Aladağ vd. [4] tarafından
önerilen “Çok Tabakalı İleri Beslemeli Medyan Nöron Modeli” ile aykırı değer ya da değerlerden kaynaklanan
sorunlarla başa çıkılarak, yüksek öngörü doğruluk düzeyine ulaşılmıştır. Önerilen bu modelde birleştirme
fonksiyonu olarak ortancaya dayalı bir fonksiyon kullanılmıştır. Belirtilen sinir ağı modelinin eğitimi için
“Değiştirilmiş Parçacık Sürü Optimizasyonu” [5] yönteminden yararlanılmıştır. Yapılan bu çalışmada, Aladağ
vd. [4] çalışmasında önerilen sinir ağı modelinin tanıtımı amaçlanmış ve modelin uygulanabilirliği gerçek zaman
serileri üzerinde gösterilmiştir. Uygulamada, Türk Lirası‘na karşı farklı döviz paritelerinin öngörüleri elde
edilmiştir. Uygulama sonucunda, belirtilen yöntemin döviz kuru serileri için güvenilir öngörüler ürettiği
görülmüştür.
KAYNAKLAR
[1] Aladag C.H., Egrioglu E., Yolcu U. (2010), Forecast combination by using artificial neural networks, Neural
Process Lett 32(3): 269–276.
[2] Rumelhart E., Hinton G.E., Williams R.J. (1986), Learning internal representations by error propagation,
Chapter 8, The M.I.T. Press, Cambridge, 318–362.
[3] Egrioglu E., Aladag C.H., Gunay S. (2008), A new model selection strategy in artificial neural network,
Applied Mathematics and Computation, 195, 591-597.
[4] Aladag C.H., Egrioglu E., Yolcu U. (2014), Robust multilayer neural network based on median neuron
model, Neural Computational and Application, 24, 945-956.
[5] Kennedy J., Eberhart R.C. (1995), Particle Swarm Optimization, In Proceedings of IEEE International
Conference on Neural Networks, 1942-1948.
Forecasting Exchange Rates by Using Neural Networks Based on Median Neuron Model
Multilayer perceptron has been widely used in time series forecasting for last two decades. However, it is a wellknown fact that the forecasting performance of multilayer perceptron is negatively affected when data have
outliers and this is an important problem. In recent years, some alternative neuron models such as generalized
mean neuron, geometric mean neuron, and single multiplicative neuron have been also proposed in the
literature. However, it is expected that forecasting performance of artificial neural network approaches based
on these neuron models can be also negatively affected by outliers since the aggregation function employed in
these models is based on mean value. Therefore, Aladag et al. (2014) proposed a new approach which is called
neural networks based on median neuron model. By using this approach, problems arising from outliers can be
dealt with. In this approach, a function based on median is utilized as aggregation function. And, modified
particle swarm optimization is employed as training algorithm. In this study, the method proposed by Aladag et
al. (2014) is introduced. In order to show its applicability, the method is applied to real world time series. In the
implementation, exchange rates series are forecasted by neural networks based on median neuron model. As a
result of the application, it is seen that the method produces accurate forecasting results for the exchange rate
series.
243
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Key Words: Forecast, Artificial neural networks, Median neuron model, Outlier, Time series
244
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
TÜRKİYE İTHALAT İHRACAT PERFORMANSININ ARIMA VE
YAPAY SİNİR AĞLARI YÖNTEMLERİ İLE İNCELENMESİ
Selim DÖNMEZ*, Özer ÖZAYDIN
Osmangazi Üniversitesi Fen Edebiyat Fakültesi,26480,Eskişehir,TÜRKİYE,[email protected]
OsmangaziÜniversitesi Fen Edebiyat Fakültesi,26480,Eskişehir,TÜRKİYE,[email protected]
1.
Yapay sinir ağları yöntemi ve ARIMA yöntemleri
Yapay sinir ağları yöntemi son 50 yılda ortaya çıkmış olup çok kısa zamanda parametrik olmayan yöntemler
arasında en geniş kapsamlılardan biri olmuştur. Kullanım alanları geniş olup bu yöntem teknolojinin ilerlemesi
ile önem kazanmıştır. Bu yöntemin bir parametrik olmayan yöntem denmesinin temel sebebi, herhangi bir veri
için spesifik bir tasarım içerisinde parametreleri istediği gibi düzenleyerek yapay sinir ağlarının istediği biçimde
kendini veriye adapte etmesinden gelmektedir. Bir başka deyişle yapay sinir ağları veriden öğrenerek analiz eden
bir yöntemdir.
İstatistiksel yöntemler uygulanırken, model için belirtilmiş parametreler için bazı koşullandırmalar lazım
gelmiştir. Örneğin ARIMA modelleri için model oluşturulurken model için belirtilmiş birtakım kıstaslar
belirtilmektedir. Bu kıstaslar rezidülerin ortalaması, varyansı, dağılımı ve ilişkisizliğine ilişkindir. Bu kıstaslar
altında azami olabilirlik tahmin yöntemi uygulanarak ideal model oluşturmaya çalışılır. ARIMA modeli doğru
tanımlandığı vakit, sorunsuz bir biçimde analiz gerçekleştirilir. Ancak bu yaklaşım veriye uyumu etkilemektedir.
Bu noktada yapay sinir ağları ile ARIMA yöntemleri arasında bir çelişki olmaktadır ve yapay sinir ağları ile
ARIMA yöntemleri arasındaki temel farklılık, burada doğmaktadır.
Yapay sinir ağları yöntemi ile ilgili en önemli mesele, tasarım meselesidir. Bugüne kadar geliştirilmiş olan bütün
tasarımlar amaca göredir. Zaman serileri analizi için geliştirilecek olan tasarımda bizim yaklaşımımız,
istatistiksel kıstas koymaktır. Girdi nöronları için sinaptik ağırlıklara bir başlangıç noktası koymak bu işi
kolaylaştırabileceği gibi zorlaştırabilir. Bu işi doğru bir istatistiksel analizle yaptığımız vakit bunun kolaylaştırıcı
olması gerekmektedir.
Yapay sinir ağı yöntemi uygulanırken MINITAB 16 programıyla ön model elde edilmiş ve buna göre girdi
tabakasındaki nöron sayısı belirlenmiştir. Örneğin, zaman serisinde AR(1) tipi bir model varsa, yapay sinir ağı
tasarımında 2 girdi nöronu ve 1 çıktı nöronu bulunmaktadır. Hata düzeltmeli öğrenme gerçekleştirilmiş ve
öğrenme katsayısı düşük tutulmuştur. Hata düzeltmeli öğrenmeyle sinaptik ağırlıklar şu şekilde güncellenir:
(1)
Burada
öğrenme katsayısı,
ve
sırayla k. hata ve j. girdi nöronu için değerleri ifade etmektedir.
Öğrenme katsayısı düşük tutulmuştur ve yapay sinir ağı modellemesini bir çeşit yöneylem araştırması problemi
olarak ele almayı ifade etmektedir. Yöneylem araştırmasında çözüm için bu kısıtları koyma tekniğine TABU
araması adı verilmiştir. İlk olarak Glover and McMillan(1986) tarafından geliştirilen ve Glover(1989, 1990)
tarafından formülleştirilen bu yöntem herhangi bir çözüm arama yaklaşımının performansını geliştirerek en ideal
sonuca varmasını sağlamaktır. Çalışmada sinaptik ağırlıklar rasgele dağıtılırken daha önceden geliştirilmiş olan
modelde katsayıların güven aralıkları kullanılarak en uygun çözüm bulmaya çalışılmıştır. Türkiye ithalat ve
ihracat verileri, 1997’nin ocağından 2015 şubatına kadar aylık toplanmış olup 218 birimdir ve 10 tabanlı
logaritması alınarak verilerin işlenmesi yapılmıştır. Sonra da yapay sinir ağlarından elde edilen modelle,
MINITAB’dan elde edilen ön model kıyaslanmış ve başarılı sonuçlar elde edilmiştir. Yapay sinir ağları modeline
göre grafik ve MINITAB model ile yapay sinir ağlarından elde edilen öngörüleri içeren tablo şu şekildedir:
245
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Grafik 1: Yapay sinir ağları modelinin, gerçek veriyle uyumu
Çizelge 1: Yapay sinir ağları modelinin, gerçek değer ve MINITAB öngörüsüyle kıyaslanması
Tarih
2015-03
2015-04
2015-05
Yapay sinir ağları
modeli öngörüsü
Gercek Değer
1.26E+07
12531780
1.13E+07
13368923
1.18E+07
11113390
MINITAB Öngörüsü
1.87E+07
1.84E+07
1.79E+07
KAYNAKLAR
[1] Glover F. (1989) Tabu Search - Part 1, ORSA Journal on Computing, 1, 2, 190–206.
[2] Glover F. (1990) Tabu Search - Part 2, ORSA Journal on Computing, 2, 1, 4–31.
[3] Glover, F. and McMillan, C. (1986) The general employee scheduling problem: an integration of MS and AI,
Computers and Operations Research, 13, 5, 563 – 573
[4] Haykin, S. (1998) Neural Networks: A Comprehensive Foundation 2nd Edition, Prentice-Hall
246
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ŞUBE VERİMLİLİK VE LOKASYON TAHMİNİ: ZİRAAT BANKASI
UYGULAMASI
Ayfer ÇELİK, Sinan TANRIKULU, Dr. İlker MET, M. Özgür DOLGUN*, Cenk BALKAN
Anafartalar Mahallesi, Atatürk Bulvarı No:8 Ziraat Bank Genel Müdürlüğü Altındağ, Ankara
Bestekar Sokak No:42/1 Kavaklıdere, Ankara
E-mail: [email protected], [email protected], [email protected],,
[email protected], [email protected]
1.
Giriş
Son yıllarda bilgi sistemleri ve teknolojinin gelişmesi sonucunda; kamu kurum ve kuruluşları, işletmeler ve diğer
kuruluşlar veritabanlarında kuruluşun amacına ve yapısına bağlı olarak çeşitli türlerde veri toplamaktadır. Fakat
bu veriler işlenmediği sürece anlamsız bir veri yığını olarak veritabanlarında depolanmaktadır [1].
Uygun yazılımların gelişimi ve firmaların topladığı veriyi kullanılabilir bilgiye çevirme isteği toplanan bu veriyi
işleyerek, verinin içerisindeki kullanılabilir ve ilginç ilişkilerin, birlikteliklerin ve örüntülerin (patterns) ortaya
çıkarılmasını gerekli hale getirmiştir. Günümüzde pek çok kurum verilerini müşteri nitelikleri ve müşterilerin
satın alma örüntülerine ilişkin yararlı, kullanışlı bilgiler elde edecek yöntemler ile işlemeye başlamamıştır. Ham
veri zengini, nitelikli bilgi (knowledge) fakiri durumunda olan kurumların rekabetçi piyasada başarılı olmaları ve
başarılarını sürdürmeleri her geçen gün daha da zorlaşmaktadır. Veri toplamanın önemini kavramış olan ve
geçmişe yönelik sorgularla veriden en üst düzeyde fayda sağlayamayacağını görmeye başlayan bütün kurumların
en büyük yardımcısı veri madenciliğidir [2,3].
2.
Plan ve Yöntemler
Ziraat Bankası, analitik dünyaya ayak uydurabilmek için mümkün olan bütün platform ve teknik bilgiyi
kullanmakta ve kritik kararları bu analitik araçlar ile almaya çalışmaktadır. Bu kapsamda, şubelere ilişkin;
i. Şube değer ve potansiyel değer segmentasyonu,
ii. Şube verimlilik ve lokasyon tahmini ve
iii. Şube operasyon kadrosunun belirlenmesi
çalışmaları Kurumsal Mimari Grup Başkanlığı bölümünde gerçekleştirilmiştir.
Bu çalışmalar ile;
i. Bir şubenin şu andaki ve olması gereken değeri,
ii. Bir şubenin verimliliği,
iii. Açılması planlanan koordinatlarda beklenen verimi ve karlılığı,
analitik araçlar ile tespit edilmiştir. Bu amaç doğrultusunda, IBM SPSS Modeler ve çeşitli istatistik (Doğrusal
Regresyon ve GLM) ve yapay zeka algoritmaları (Karar Ağaçları, Yapay Sinir Ağları) tahmin, K-Means ve
Two-Step algoritmaları ise kümeleme amacıyla kullanılmıştır.
Model sonuçları ile tahmin edilen potansiyel değer, gerçek değer ve verim puanları, Banka tarafında
kullanılmakta olan harita sistemi üzerine aktarılmış olup, şube açılmak istenen koordinatın verilerine model
tahmin sonuçları ile ulaşılabilmektedir.
Şube Operasyon kadrosunun tahmini modelleme ve kümeleme yöntemleri ile tahmin edilmiştir. Şubelerde
yapılan işlerin niteliğine göre kümeleme yöntemi ile 5 kümeye ayrılan şubeler ve şube operasyon kadroları iş
247
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
bilgisi ve istatistiksel sonuçlar ile birlikte yorumlanarak şubenin niteliğine göre şubede çalışan operasyon norm
kadrosunun uygun olup olmadığı araştırılmıştır.
.
KAYNAKLAR
[1] Dolgun M.Ö. (2014), Veri Madenciliği Sınıflama Yöntemlerinin Başarılarının; Bağımlı Değişken
Prevelansı, Örneklem Büyüklüğü ve Bağımsız Değişkenler Arasındaki İlişki Yapısına Göre
Karşılaştırılması, Doktora Lisans Tezi, Hacettepe Üniversitesi Sağlık Bilimleri Enstitüsü, Ankara.
[2] Han J., Kamber M. and Pei, J. (2011), Data Mining: Concepts and Techniques, The Morgan Kaufmann,
Third Edition.
[3] Larose D.T. (2006), Data Mining Methods and Models, Wiley-Interscience, New Jersey, 322p.
ABSTRACT
BRANCH EFFICIENCY AND LOCATION FORECASTING: APPLICATION OF ZIRAAT BANKASI
Ziraat bank, has performed branch value and potential value segmentation, branch efficiency and
location forecasting, and branch operations staff studies by using with statistical and data mining methods. The
results were integrated into the system by the Enterprise Architecture Group and has been in operational use by
the bank.
Key Words: value and potential value segmentation, location forecasting, data mining
248
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ZAMAN SERİSİ KÜMELEMESİ KULLANILARAK TÜRKİYE’DEKİ
HAVA KALİTESİ İZLEME İSTASYONLARINDAKİ BİLGİ
FAZLALIĞININ TESPİT EDİLMESİ
Nevin GÜLER DİNCER, Öznur İŞÇİ GÜNERİ, M. Oğuzhan YALÇIN
Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi, İstatistik Bölümü, Kötekli, MUĞLA
[email protected], [email protected], [email protected]
1.
Otoregresif Modele Dayanan Bulanık C-Medoidler Zaman Serisi Kümelemesi
Zaman serisi kümelemesi son zamanlarda, hava, su, deprem vs. gibi ölçüm ve izleme istasyonlarındaki bilgi
fazlalığının azaltılması, izleme istasyonlarının optimal konfigürasyonun tespit edilmesi, benzer istasyonların
belirlenerek izleme maliyetlerinin azaltılması konusunda sıkça kullanılmaya başlanmıştır[1][2][3][4]. Bu
çalışmada otoregresif modele dayanan zaman serisi kümelemesi kullanarak Türkiye’de benzer davranışa sahip
hava kirliliği izleme istasyonlarının belirlenmesi amaçlanmıştır. Zaman serileri PM 10 ve SO2 kirleticilerine
ilişkin haftalık ölçümlerden oluşmaktadır ve 2013-2015(Nisan) dönemini kapsamaktadır.
Bu amaca yönelik olarak izlenen adımlar şu şekildedir:
Adım 1:
Yti (i  1, 2,.., K) i. istasyondan elde edilen haftalık ölçümleri göstersin. İlk olarak Augmented
Dickey-Fuller birim kök testi uygulanarak serinin durağanlığı test edilir.
tanımlanan otoregresif model tahmin edilir:
Seri durağan ise aşağıdaki gibi
Yti   i 0   i1Y(t 1)i   i 2Y(t 2)i  ...   ipY(t p)i   t
(1)
Burada { i 0 ,  i1 ,  i 2 ,...,  ip }  R p i. otoregresif modelin tahmin edilen parametrelerini göstermektedir.
Adım 2: Seri durağan değilse logaritması veya farkları alınarak durağanlaştırılır ve elde edilen durağan seri için
(1) eşitliği tahmin edilir.
Adım 3: K tane istasyon, { i 0 ,  i1 ,  i 2 ,...,  ip }  R p parametre vektörlerine göre kümelenir. Burada
kümeleme algoritması olarak Bulanık C-Medoidsler (BCM) [5] kullanılmıştır. BCM algoritmasının tercih edilme
sebebi, diğer istasyonlara göre çok farklı davranan istasyonların bir başka deyişle aykırı değerlerin kümeleme
sonucunu olumsuz etkilemesi engellemektir. BCM yöntemi aşağıdaki amaç fonksiyonunun iteratif olarak
minimize edilmesine dayanır:
K
(2)
c
J (U, , V)   uijm d 2 ( i ,  j )
i 1 j 1
Burada m bulanıklık indeksini, uij i. zaman serisinin j. kümeye üyeliğini,  j j. kümeye ilişkin medoidi , K
istasyon sayısını, c küme sayısını, d 2 ( i ,  j ) ise i. istasyona ilişkin otoregresif parametre vektörü ile j.
medoid arasındaki Öklit uzaklığını göstermektedir. (2) eşitliğinde verilen amaç fonksiyonu minimize edildiğinde
üyelik ve medoidler için güncelleştirme eşitlikleri aşağıdaki gibi elde edilir.
(3)
1
 c d 2 ( ,  )  m 1
uij    2 i j 
 k 1 d ( i ,  k ) 
 j  arg min 
k
n
j
u
i 1
m
ij
(4)
d 2 ( i ,  k )
249
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BCM algoritmasının çalışma prensibi şu şekildedir: K tane otoregresif parametre arasından c tane başlangıç
medoidi olarak seçilir. (3) eşitliği kullanılarak üyelik değerleri hesaplanır. Yeni üyelik değerlerine göre (4)
eşitliğinden c tane medoid yeniden hesaplanır. Bu işlemlere üyelik değerleri sabitlenene kadar devam edilir.
Adım 4: Kümeleme sonucunda elde edilen medoidleri temsil eden hava kirliliği izleme istasyonları izlenecek
istasyonlar olarak seçilir. Bir başka deyişle, medoid istasyonlardan elde edilen hava kirliliği bilgisi diğer
istasyonlar için kullanılabilir, böylece muhtemel bilgi fazlalığı azaltılmış olacaktır. Bunun dışında, aynı küme
içinde yer alan istasyonlar eğer coğrafi olarak da birbirine yakın ise, bazı istasyonlardaki ölçüm aletlerinin başka
istasyonlara transferine karar verilebilir.
KAYNAKLAR
[1].
[2].
[3].
[4].
[5].
Ortuno C, Jaimes M, Mun˜oz R, Ramos R, Paramo VH. (2005), Redundancy analysis for the Mexico
City air monitoring network: the case of CO. Air and Waste Management Association's - 98th Annual
Conference and Exhibition.
Lu H-C., Chang C-L., Hsieh J-C., (2006). Classification of PM10 distributions in Taiwan, Atmospheric
Environment, 40:1453-1463.
Giri, D.; Murthy, V. K.; Adhikary, P. R.; Khanal, S. N., 2007. Cluster analysis applied to atmospheric
PM10 concentration data for determination of sources and spatial patterns in ambient air-quality of
Kathmandu Valley, Research Communications, 93(5):684-688.
D’Urso P., Lallo DD., Maharaj, EA., 2013. Autoregressive model-based fuzzy clustering and its
application for detecting information redundancy in air pollution monitoring networks, Soft Computing,
17:83-131.
Krishnapuram R., Joshi A., Nasraoui O., and Yi L., (2001), Low-complexity fuzzy relational clustering
algorithms for web mining, IEEE Transactions on Fuzzy Systems, vol. 9, no. 4, pp. 595-607.
IDENTFYING OF INFORMATION REDUNDANCY IN AIR QUALITY MONITORING NETWORKS
AT TURKEY BY USING TIME SERIES CLUSTERING
ABSTRACT
Time series clustering is widely used in reduction of information redundancy in water, air and earthquake
monitoring networks, determination optimal configuration of them and thus decreasing the monitoring cost. The
main objective of this study is to identify possible information redundancy in monitoring networks in Turkey, that
is, to provide adequate information with a smaller number of monitoring networks. For this aim, autoregressive
based clustering time series method has been applied to time series data sets consisted of the weekly mass
concentrations of particulate matter with an aerodynamic diameter less than 10
(PM10) and Sulphur dioxide
(SO2).
Keywords: Fuzzy C-Medoids Clustering, Tıme Series Clustering, Reduction of Information Redundancy
250
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
SESSION 8
MODELLEME ve BENZETİM
251
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
BİLGİ KARMAŞIKLIĞI KRİTERİ (ICOMP) İLE OLASILIKLI
TEMEL BİLEŞENLER ANALİZİ’NDE BOYUT SAYISINA KARAR
VERME ÜZERİNE SİMULASYON ÇALIŞMASI
Esra PAMUKÇUa
Hamparsum BOZDOĞANb
a
Fırat Üniversitesi Fen Fakültesi İstatistik Bölümü,23119,Elazığ
e-mail: [email protected]
b
1.
Department of Business Analytics and Statistic, The University of Tennessee
Knoxville, TN 37996, U.S.A.
e-mail: [email protected]
Sözlü Sunum
Amaç
Temel Bileşenler Analizi ile çok boyutlu değişken uzayını en az bilgi kaybıyla daha az boyutlu değişken
uzayına indirgemek, hem diğer çok değişkenli analiz yöntemlerine veri hazırlama bakımından hem de başlı
başına kendisinin bir analiz tekniği olması açısından araştırmacılar tarafından çok başvurulan bir yöntemdir.
Temel bileşenler analizi alanında birçok araştırma halen yapılmakta ve yaygın bir şekilde kullanılmaktadır.
Tekniğin görünüşteki basitliğine rağmen uygulamada araştırmacıların en sık karşılaştığı problem olan
önemli bileşen sayısına yani boyut sayısına karar vermek, literatürde hala tatmin edici bir şekilde çözülememiş
olan bir problemdir. Bu çalışmanın amacı, Bozdogan (1987,1994, 2000a, 2004…) tarafından geliştirilen bir
model seçim kriteri olan Bilgi Karmaşıklığı Kriteri ICOMP ile, eş zamanlı olarak model kompleksliğini de göz
önüne alarak önemli bileşen sayısına nasıl karar verilebileceğini bir simülasyon çalışması ile ortaya koymaktır.
2.
Yöntem
ICOMP (Information Complexity) tipi kriterler, Bozdoğan tarafından geliştirilen ve günümüzde de
çalışmaları devam eden, çok değişkenli doğrusal ve doğrusal olmayan modellerde model seçimi için geliştirilen
ve bilgi karmaşıklığına dayanan yeni bir istatistiksel model seçim kriterleri ailesidir. ICOMP tipi kriterlerin
amacı, bir modelin karmaşıklığı ve uyumu arasındaki en uygun dengeyi sağlamaktır. ICOMP, modeldeki
parametrelerin birbirleriyle nasıl ilişkili olduklarını ölçen bir komplekslik ölçüsünü de göz önüne alarak bu
dengeyi kurmayı amaçlar. Bu nedenle, her ne kadar Akaike Information Criterion-AIC temeline dayanan bir ölçü
olsa da, AIC’dan farklı olarak, bağımsız parametre sayısını direkt olarak cezalandırmak yerine, modelin
kovaryans kompleksliğini cezalandırmaktadır.
Model seçim kriterlerinin ve dolayısıyla ICOMP bilgi karmaşıklığı kriterinin yapısı gereği, bir model için
bilgi kriteri uygulayabilmenin en önemli zorunluluğu, maksimum olabilirlik tahmin edicisinin var olmasıdır.
Halbuki klasik temel bileşenler analizi, maksimum olabilirlik tahminin elde edilmesi için gerekli olan bir olasılık
modelinden yoksundur. Michael E. Tipping ve Christopher M.Bishop (1997)’de faktör analiziyle yakından
ilişkili olan bir gizli (latent) değişken modelinde parametrelerin maksimum olabilirlik tahminleri sayesinde,
gözlenen veri vektörlerinin bir setinin temel eksenlerinin oluşturulabileceğini göstermişler ve Probabilistic
Principal Component Analysis-PPCA yani olasılıklı temel bileşenler analizini önermişlerdir.
Bir olasılık çerçevesi içinde çalışmanın en kritik ve en önemli avantajı, istatistik tabanlı model seçim
araçlarının kullanılmasına imkan vermesidir. Buradan hareketle çalışmanın ilk adımı olarak PPCA modeli için
bilgi kriterleri türetilmiştir.
3.
Simülasyon Çalışması
Çalışmanın amacı doğrultusunda önerilen yöntemin tutarlı çalışıp çalışmadığını tespit edebilmek
amacıyla, yapısal olarak gerçek boyut sayısının bilindiği veri setlerini türetebilmek ve ICOMP ile gerçek
boyutun tespit edilip edilmediğini göstermek gerekmektedir. Bunun için bir simülasyon protokolü hazırlanmıştır.
Bu noktada amaç, yapısal olarak gerçek boyut sayısının önceden bilindiği bu veri setlerine bilgi kriterleri ile
PPCA analizi yapmak, bilgi kriterleri ile boyut sayısına karar vermek ve yinelemeli olarak bu işlemler tekrar
edildiğinde, bilgi kriterlerinin hangilerinin gerçek boyutu daha isabetli bir şekilde tespit edebildiğini ortaya
koyabilmektir. Farklı senaryolarda, farklı gözlem sayılarında ve farklı yayılım ölçülerine sahip olan veri setleri,
çeşitli iterasyon sayılarında türetilerek sonuçlar elde edilmiştir. Hesaplamalar MATLAB programında yazılan bir
program ile yapılmıştır.
252
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
4.
Sonuç
ICOMP bilgi kriterinin PPCA ile boyut indirgeme yapılması esnasında, boyut sayısına karar verme aracı
olarak kullanılabilmesi, boyutun araştırmacı tarafından keyfi olarak seçilmesinin önüne geçmekte ve sahip
olduğu teorik dayanak noktasından dolayı seçilen boyut sayısına duyulan güveni artırarak literatüre yeni bir
bakış açısı kazandırmış olmaktadır.
KAYNAKLAR
[1] Tipping, M., E. ve Bishop, M., C. (1999). Probabilistic principal component analysis, Journal of the
Royal Statistical Society, Series-B. 61(3):611-622
[2] Bozdogan, H. (1988). ICOMP: A new model selection criterion. Classification and Related Methods
of Data Analysis. 599-608
[3] Pamukcu E., Bozdogan H., Çalık S. (2015). A Novel Hybrid Dimension Reduction Technique for
Undersized High Dimensional Gene Expression Data Sets Using Information Complexity Criterion for Cancer
Classification. Computational and Mathematical Methods in Medicine. Volume 2015 (2015), Article ID 370640.
ABSTRACT
A SIMULATION STUDY ON DETECTING THE NUMBER OF DIMENSIONS IN
PROBABILISTIC PRINCIPAL COMPONENT ANALYSIS USING INFORMATION COMPLEXITY
CRITERIA
In this study, to reduce the dimensionality of the data and to choose the number of probabilistic PCs
(PPCs) to be retained, we introduce and develop information theoretic measure of complexity (ICOMP)
criterion of Bozdogan. A large- scale simulation study was carried out to demonstrate how to choose the best
number of dimensions needed in the PPCA with information criteria. It is observed that the information criteria
detect the true dimension in simulated data in selecting the optimal number of PPCs with high degree of
accuracy. The results show the flexibility and utility of the new approach presented.
Keywords: Probabilistic Principal Component Analysis, Information Complexity, Dimension Reduction,
Simulation Study
253
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
İSTATİSTİKSEL TEST TABLOLARININ BENZETİM İLE ELDE
EDİLMESİ
Buğra Kaan TİRYAKİ*, Orhan KESEMEN
Karadeniz Teknik Üniversitesi, Fen Fakültesi, İstatistik ve Bilgisayar Bilimleri Bölümü, Trabzon, TÜRKİYE
[email protected], [email protected]
1.
Giriş
Çıkarımsal istatistik, modern istatistiğin temel konularından birisidir. Çıkarımsal istatistik, ileri sürülen bir
hipotez eşliğinde, parametrik ve parametrik olmayan testler olmak üzere, iki biçimde incelenmektedir [1]. Hem
parametrik testler için hem de parametrik olmayan testler için ileri sürülen hipotezin testinde, çoğu zaman
anlamlılık düzeyinde karar kuralı oluşturulması gerekmektedir. Hesaplanan test istatistiği, ilgili testin tablo
değeriyle karşılaştırılarak hipotezin kabulü ya da reddi için karar verilmektedir. Bu sebeple, istatistikte hem
parametrik hem de parametrik olmayan yöntemler için kritik değerler tablosu büyük önem taşımaktadır.
Bu çalışmada istatistiksel olarak sık kullanılan testlerden ki-kare uyum iyiliği testi ve Kolmogorov-Smirnov testi
kritik değerler tablosu benzetim ile elde edilmiştir. Benzetim ki-kare uyum iyiliği testi tablosunda her bir
serbestlik derecesi için bir milyon kez, benzer şekilde Kolmogorov-Smirnov tablosunda da her bir örneklem için
bir milyon kez deneme ile gerçekleştirilmiştir. Ki-kare uyum iyiliği testi kritik değerler tablosu ve KolmogorovSmirnov testi kritik değerler tablosu, benzetim ile elde edilen tablo değerleriyle %99’u aşan sonuçlar
göstermektedir. Benzetim MATLAB® paket programında gerçekleştirilmiştir.
2.
Yöntemler
Ki-Kare Uyum İyiliği Testi
Ki-kare istatistiği uyumun yeterliliği için karar vermek amacıyla kullanılır. “Uyum” terimi gözlenen örneklem
dağılımlarının ya da deneysel sonuçlarla elde edilen dağılımların, beklenen ya da normal, binom, Poisson ve
düzgün dağılım gibi kuramsal dağılımlarla karşılaştırılması için kullanılır. Beklenen frekansların eğrisi gözlenen
frekansların eğrisi üzerine çizilir ve ki-kare istatistiği uyumun yeterli olup olmadığını belirlenir [2].
(1)
: j’inci sınıftaki örnek birimlerin sayısı (gözlenen frekans) j=1,2,…,c
: j’inci sınıf için beklenen frekans
c:sınıf sayısı
Karar Kuralı:
ise
ise
reddedilir
reddedilemez.
Kolmogorov-Smirnov Uyum İyiliği Testi
Kolmogorov Smirnov istatistiği ile yokluk hipotezinde verilmiş bir deneysel olasılık dağılımı gösteren örneklem
verilerinin, dağılım parametreleri tam olarak bilinen bir kitlenin olasılık dağılımına uyum gösterip göstermediği
test edilir. Bu tip problemlerde yokluk hipotezi örneklem verilerin deneysel dağılımının tam tanımlanmış bir
kitlenin olasılık dağılımından gelmiş olduğu üzerinedir [3].
(2)
(3)
254
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
: Yokluk hipotezinde belirtilen birikimli dağılım fonksiyonu
: Örnekten elde edilen birikimli dağılım fonksiyonu
Karar Kuralı:
ise
ise
3.
reddedilir
reddedilemez.
Sonuç
Benzetimle 0.1, 0.05, 0.025, 0.01, 0.005 anlamlılık düzeylerinde ki-kare uyum iyiliği testi ve KolmogorovSmirnov uyum iyiliği testleri için kritik değerler tablosu oluşturulmuştur. Ki-kare uyum iyiliği testi kritik
değerler tablosu için serbestlik derecesi 4’den 50’ye kadar alınarak hesaplanmıştır. Kolmogorov-Smirnov uyum
iyiliği testi için kritik değer tablosu için örneklem genişliği 1’den 40’a kadar alınarak hesaplanmıştır. Ki-kare
uyum iyiliği testi kritik değerler tablosu ve Kolmogorov-Smirnov testi kritik değerler tablosu, benzetim ile elde
edilen tablo değerleriyle %99’u aşan sonuçlar elde edilmiştir.
KAYNAKLAR
[1] H. Bircan, H., Karagöz Y. ve Kasapoğlu, Y., (2003) Ki-Kare Ve Kolmogorov Smirnov Uygunluk Testlerinin
Simulasyon İle Elde Edilen Veriler Üzerinde Karşılaştırılması, C.Ü. İktisadi ve İdari Bilimler Dergisi, Cilt
4, Sayı 1, 200.
[2] Prof.Dr. Fikri AKDENİZ (2007), Olasılık ve İstatistik, Nobel Kitabevi.
[3] Stephens, M. A. (1974). "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the
American Statistical Association (American Statistical Association) 69 (347): 730–737.
ABSTRACT
DETERMINING STATISTICAL TABLES USING SIMULATION
In this study, the chi-square goodness of fit test and Kolmogorov-Smirnov test critical values tables were
obtained with simulation. The simulation was performed a million times in each degree of freedom for chisquare goodness of fit test table and also, the simulation was performed a million times in each sample for
Kolmogorov-Smirnov test table. The simulation was performed 0.1, 0.05, 0.025, 0.01, 0.005 significance levels.
In conclusion, the simulation was resulted in close to 99% of success.
Key Words: Statistical test tables, chi-square goodness of fit test, Kolmogorov-Smirnov test
255
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
YAPISAL EŞİTLİK MODELİ İLE MONTE CARLO SİMULASYON
ÇALIŞMASI
Murat DOĞAN*, Veysel YILMAZ
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26000, Eskişehir,
TÜRKİYE, [email protected], [email protected]
YEM, istatistiksel bağımlılığa dayalı modellerle ilgili bütünleşik hipotezler içindeki değişkenlerin sebep-sonuç
ilişkisini açıklayabilen ve kuramsal modellerin bir bütün olarak test edilmesine olanak veren etkili bir model test
etme ve geliştirme yöntemidir. YEM modelleri araştırmacılara, değişkenler arasında doğrudan ve dolaylı etkileri
belirleme olanağı sağlamaktadır. Aynı zamanda YEM, modele kuramsal yapılar arasındaki etkileşimleri, ölçme
hatalarını ve hatalar arasındaki ilişkileri yapılara dâhil ederek modelleyen çok değişkenli istatistiksel bir
yaklaşımdır. YEM, eşanlı eşitlik modelleri veya çok değişkenli regresyon modelleri olarak da tanımlanmaktadır
(Bollen, K.A., (1989), Schumacher R.E., Lomax R.G.,(2004)). YEM ayrıca gözlenen ve gözlenemeyen (gizil,
latent) değişkenler arasındaki nedensel ilişkilerin sınanmasında kullanılan kapsamlı bir istatistiksel teknik olarak
da tanımlanmaktadır.
YEM’de kullanılan parametre tahmin yöntemlerinin önerilmesi, geliştirilmesi ve hangi koşullarda tercih
edilmesine yönelik yapılan çalışmaların yanı sıra, tahmin yöntemleri, örneklem hacimleri, dağılımsal koşullar,
gizil değişken sayısı, gözlenen değişken sayısı, modelin yanlış belirlenme derecesi, faktör yükleri, faktör
korelasyonları, uygun olmayan çözümler ve yakınsama hatası gibi etmenlerinde model uyum ölçüleri üzerindeki
etkilerini incelemek için farklı deneysel tasarımlar kullanılarak yapılan simülasyon çalışmalarının, YEM
literatürüne katkı sağladıkları görülmektedir.
Monte Carlo (MC) simülasyonu da YEM için istatistiksel kestirimleri değerlendirmede oldukça yaygın bir
yöntem olmuştur. Bu yöntem, örneklem büyüklüğü, normal dağılımlı olmama, model karmaşıklığı ve modelin
yanlış belirlenmesi gibi çeşitli koşullar altında tahminler ve uyum iyiliği istatistiklerini değerlendirmede üstün
bir yöntemdir (Paxton P., et.al., (2001)). Ayrıca MC yöntemi rassal olarak üretilen sayıları kullanarak
değişkenlerin dağılımlarının özelliklerini belirleyebilmektedir (Gentle, J.E., (1985)). MC yöntemi birçok avantajı
olmasına rağmen uygulaması zordur. Bu yüzden çalışmada MC simülasyonu
i.
ii.
iii.
iv.
v.
vi.
vii.
viii.
ix.
İlgilenilen araştırma sorusunun teorik olarak geliştirilmesi,
Soruya uygun modelin oluşturulması,
Çalışmaya uygun deneysel koşulların seçilmesi,
Kitle parametre değerlerinin seçilmesi,
Uygun yazılım programının seçimi,
Simülasyonun yürütülmesi,
Simülasyon çıktılarının uygun şekilde depolanması,
Sorun giderme ve doğrulama,
Sonuçların özetlenmesi.
olmak üzere 9 adımda oluşturulmuştur. MC simülasyonu adım adım uygulanan bir teknik olmasına rağmen her
bir adım birbiriyle bağlantılı olduğundan simülasyonun bir bütün halinde oluşturulması avantaj sağlamaktadır.
Bu çalışmanın amacı da, normal dağılıma sahip olmayan (NDSO) değişkenler için YEM’de kullanılan tahmin
yöntemlerinin uyum ölçülerine etkisini Monte Carlo simülasyonu yardımıyla karşılaştırmaktır. Bu amaçla ilk
olarak, farklı örneklem hacimlerinde çok değişkenli normal ve normal olmayan veri setleri üretilmiş, daha sonra
üretilen veriler için dört parametre tahmin yöntemi yardımıyla parametreler ve uyum ölçütleri hesaplanmıştır.
Çalışmanın sonucunda kullanılan tahmin yönteminin uyum ölçütlerine etkileri tartışılmış ve örneklem hacmi
200’den küçük olduğunda, AGLS yönteminin kullanılmasının uygun olmadığı belirlenmiştir. Ayrıca 400 birim
ve üstü örneklem hacimlerinde ve çok değişkenli normallikten sapma durumlarında dört tahmin tekniği yakın
sonuçlar vermiştir. Ki kare uyum ölçüsü çok değişkenli normallik varsayımı altında örneklem hacmi arttıkça
büyük değerler alarak gerçekçi olmayan sonuçlar verirken, normallik varsayımının olmadığı durumlarda
örneklem hacminin büyümesinden çok fazla etkilenmemektedir. NFI ve CFI uyum indeksleri ise ML ve LS
tahmin yönteminde ve sadece normallik varsayımının sağlandığı durumlarda iyi sonuç ortaya koymuştur.
256
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1]
[2]
[3]
[4]
Bollen, K.A., (1989), Structural Equations with Latent Variables, Wiley, New York, 514p.
Gentle, J.E., (1985), Monte Carlo methods, in The encyclopedia of statistical sciences, Eds. Kotz, S.,
Johnson, N.L., Vol.5, pp. 612-617, New York: Wiley
Paxton P., , Patrick J. Curran , Kenneth A. Bollen , Jim Kirby & Feinian Chen (2001): Monte Carlo
Experiments: Design and Implementation, Structural Equation Modeling: A Multidisciplinary Journal, 8:2,
287-312
Schumacher R.E., Lomax R.G.,(2004). A Beginner’s Guide to SEM, 2nd ed, Lawrenge Erlbaum
Associotes, Publishers, New Jersey.
ABSTRACT
MONTE CARLO SİMULATİON STUDY WİTH STRUCTURAL EQUATİON MODELİNG
In this study, Monte Carlo simulation is used to evaluate the characteristics of Confirmatory Factor
Analysis (CFA) fit indices under different conditions (such as sample size, estimation method and distributional
conditions). The simulation study was performed using different samples and four different estimation methods
(Maximum Likelihood, Generalized Least Square, Least Square and Weighted Least Square). A simulation study
was conducted with EQS software to examine the effect of these conditions on the most common eleven fit
indices that are studied in CFA and Structural Equation Modeling (SEM). As a result of this study, all of the
factors studied are shown to have an influence on the fit indices.
Key Words: Structural Equation Modeling, Monte Carlo Simulation, Confirmatory Factor Analysis
257
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KÜÇÜK ÖRNEKLEMLERDE NORMALLİK TESTLERİNİN
GÜÇLERİ YÖNÜNDEN KARŞILAŞTIRILMASI
Deniz TAŞÇI*, Süleyman GÜNAY
Hacettepe Üniversitesi, Fen Fakültesi, İstatistik Bölümü, 06800, Beytepe, Ankara, Türkiye
* [email protected], [email protected]
Günlük yaşamda alınan tüm kararlarda istatistiksel teknikler doğal biçimde yoğun olarak kullanılır.
Karşılaşılan olaylar neden sonuç çerçevesi içerisinde değerlendirilir ve doğru olduğu düşünülen fakat
doğruluğundan emin olunmayan kararlarla gelecek şekillendirilir. Bu duruma bir istatistikçi gözüyle
bakıldığında ise doğruluğu iddia edilen bir hipotez test edilerek hayata yön vermeye çalışılır, hatta yaşam ve
alınan kararlar modellenir, ilerleyen yıllarda hayatta hangi noktada olunacağı tahmin edilmeye çalışılır.
Parametrik istatistiksel yöntemlerle tahmin yapabilmek için birçok varsayımın sağlanması gerekmektedir.
Bu varsayımlardan en çok karşılaşılanı ise tahmin yapmak için kullanılan örneklemin, normal dağılımlı bir
kitleden gelmiş olması varsayımıdır. Bu noktada araştırmacılar, bu uyumu incelemek adına uyum iyiliği
testlerinden yararlanırlar.
Bilinmeyen bir kitleden çekilen n birimlik örneklemin hangi kitleye ait olduğunu araştırmak için uyum
iyiliği testleri kullanılır.
Yaygın olarak kullanılan uyum iyiliği testlerinden bazıları Ki-kare, Cramer-von Mises, KolmogorovSmirnov, Anderson-Darling, Shapiro-Wilk, Shapiro-Francia, Lilliefors, Jarque-Bera, D’Agostino-Pearson
testleri olarak verilebilir. Günümüzde 40’dan fazla uyum iyiliği testi olduğu söylenebilir [1].
Bu çalışmada, uyum iyiliği testleri yapılarına göre ele alınmıştır. Deneysel dağılıma, sıralı istatistiklere ve
momentlere dayalı testler belirlenmiştir. Belirlenen bu uyum iyiliği testleri normalliği incelemek üzere Monte
Carlo (MC) benzetim çalışmasında ele alınmış, küçük örneklemlerde I. Tip hata ve güç değerleri aracılığıyla elde
edilen sonuçlar yardımıyla uyum iyiliği testleri karşılaştırılmıştır. Karşılaştırılan testler içerisinde küçük
örneklemlerde hangi testin hangi koşullarda daha güçlü olduğu saptanmıştır.
Anahtar Kelimeler: Uyum İyiliği Testleri, Ki-kare, Cramer-von Mises, Kolmogorov-Smirnov, AndersonDarling, Shapiro-Wilk, Shapiro-Francia, Lilliefors, Jarque-Bera, D’Agostino-Pearson, Küçük Örneklem, I. Tip
hata, Testin Gücü, Monte Carlo benzetimi
KAYNAKLAR
[1]
[2]
[3]
[4]
[5]
Dufour J. M., Farhat A., Gardiol L., Khalaf L. (1998), Simulation-based finite sample normality tests in
linear regression. Econometrics Journal, 1, 154-173.
Yap B., Sim C. (2010), Comparison of Various Type of Normality Tests, Journal of Statistical
Computation and Simulation, 81(12), 2141-2155.
Yazici B., Yolacan S. (2007) , A Comparison of Various Tests of Normality, Journal of Statistical
Computation and Simulation, 77(2), 175-183.
D’Agostino R. B., Stephens M. A. (1986), Goodness-of-fit Techniques, CRC Press, New York.
Razali N. M., Wah Y. B. (2011), Power Comparisons of Shapiro-Wilk, Kolmogorov-Smirov, Lilliefors
and Anderson-Darling Tests, Journal of Statistical Modeling and Analytics, 2(1), 21-33.
258
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ABSTRACT
POWER COMPARISONS OF NORMALITY TESTS IN SMALL SAMPLE SIZE
Most of the parametric tests are based on the assumption that the underlying distribution is normal. To
test this assumption, several goodness of fit tests has been suggested by researchers. In this study, some of these
goodness of fit tests are considered. For these tests Type I Error and power of tests are obtained in small sample
size by using Monte Carlo simulations. Results of simulation study is discussed.
Key Words: Goodness of Fit Tests, Chi-Square, Cramer-von Mises, Kolmogorov-Smirnov, AndersonDarling, Shapiro-Wilk, Shapiro-Francia, Lilliefors, Jarque-Bera, D’Agostino-Pearson, Small Sample Size, Type
I Error, Power of the Test, Monte Carlo Simulation
259
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
POSTERS
260
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
RISK MEASURES ON THE BURR XII- NEGATIVE BINOMIAL
DISTRIBUTION
Sibel ACIK KEMALOGLU* and Emel KIZILOK KARA
Ankara University, Faculty of Sciences, Department
of Statistics ,Tandogan, Ankara,, Turkey
[email protected]
Kirikkale University, Faculty of Arts and Sciences,
Department of Actuarial Science, Yahsihan,
71450 Kirikkale, Turkey
[email protected]
1. Introduction
In this study, it is examined risk measures of the Burr XII-Negative binomial (BXIINB) distribution. This
distribution is obtained by mixing the negative binomial distribution with the Burr XII distribution. The value at
risk (
) and the conditional value at risk (
) are two commonly used risk measures for actuarial risk
management. The method of maximum likelihood is used for estimating the model parameters of BXIINB
distribution. As an application, risk measures are calculated for real lifetime data, modelled with BXIINB
distribution.
2. The BURR XII-Negative Binomial Distribution
The negative binomial distribution is widely used as alternative to the poisson distribution. In literature, several
authors have been studied mixing the negative binomial distribution with any continuous distributions.
Percontini et. al. give a close form for compounding negative binomial with any continuous distribution. For any
cumulative distribution function (cdf) G(x), and x e R, they defined the G-Negative Binomial (G-NB) family of
distributions with probability density function (pdf) f (x) and cdf F(x) given by
respectively. Ramos et al. used the cumulative distribution of Burr XII distribution for G(x), and they called
this new distribution as Burr XII negative binomial (BXIINB) distribution. The cdf and pdf of the BXII
distribution are given by
and
respectively, where
and
are shape parameter.
The BXIINB distribution is obtained by inserting equations (3) into (1) and (2). Then, the pdf and cdf of the
distribution (for
) are given as below, respectively.
261
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Here
is a scale parameter and
,
,
and
are shape parameters.
3. Risk measures of BXIINB distribution
and
defined as
measures for a risk X and a probability level
where CTE (conditional tail expectation) is defined as
it can be written
are respectively
. If
is continuous then
. (Denuit et.al).
and
measures are important for making decisions in risk analysis. These risk measures modelled
with BXIINB distribution are obtained by using real lifetime data.
REFERENCES
[1] Denuit M., Dhaene J., Goovaerts M.J., Kaas R. (2005), Actuarial Theory for Dependent Risks; Measures,
Orders and Models, John Wiley and Sons.
[2] Kongrod S., Bodhisuwan W., Payakkapong P. (2014), The negative binomial-Erlang distribution with
applications, Introduction Journal of Pure and Applied Mathematics, 92, 3, 389-401
[3] Percontini, A., Cordeiro, G. M., & Bourguignon, M. (2013). The G-Negative Binomial Family: General
Properties and Applications. Advances and Applications in Statistics, 35, 127–160.
[4] Ramos, M. W. A., Percontini, A., Cordeiro, G. M., & da Silva, R. V. (2015). The Burr XII Negative
Binomial Distribution with Applications to Lifetime Data. International Journal of Statistics and
Probability, 4, 109- 125.
[5] Willmota G.E., Sheldon L. (2011), Risk modelling with the mixed Erlang distribution, Appl. Stochastic
Models Bus. Ind, 27, 2–16.
Key words: Burr XII distiribution, the Burr XII- Negative Binomial distribution, Value at Risk, Conditional
Value at Risk.
262
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HALKA ARZLARDA DÜŞÜK FİYATLAMAYA LOJİSTİK
REGRESYON ANALİZİ YAKLAŞIMI: BORSA İSTANBUL VE
EURONEXT PARİS KARŞILAŞTIRILMASI
Ceyda AFACAN*
Görkem KAVÇAK**
Evren ÖZTÜRK**
*MSGSÜ, Fen Fakültesi, İstatistik Bölümü, 34380, İstanbul, TÜRKİYE, [email protected]
**Yıldırım Holding, Araştırma Bölümü, 34398, İstanbul, TÜRKİYE, [email protected],
[email protected]
1.
Giriş
Şirketlerin daha hızlı ve etkin sermaye bulma veya arttırma konusunda başvurdukları en iyi yollardan biri hisse
senedi arzıdır. İlk halka arzlarda, ilk gün getirisi performansı piyasanın geri kalanına göre kayda değer oranda
daha yüksek olursa, düşük fiyatlama gerçekleşmiş sayılmaktadır. Bu çalışmada, Türkiye’den Borsa İstanbul ve
Fransa’dan Euronext Paris, son yıllarda halka arzlarda gerçekleşen düşük fiyatlama açısından karşılaştırılmıştır.
Her iki borsadaki halka arz kriterleri incelendiğinde; birçok açıdan benzerlikler ve farklılıklar vardır.
Araştırmanın yokluk hipotezi iki borsa arasında düşük fiyatlama açısından fark olmadığı, alternatif hipotez ise
fark olduğu şeklindedir.
2.
Yöntem
İki borsada gerçekleşen halka arzların düşük fiyatlama oranları Ki-kare homojenlik testi ile karşılaştırılmıştır. Ek
olarak her iki borsada düşük fiyatlama varlığına etki eden risk faktörlerinin benzer olup olmadığı Adımsal
Lojistik Regresyon Analizi ile incelenmiştir. 2007-2013 yılları arasında halka arz olmuş, Borsa İstanbul’dan 82
ve Euronext Paris’ten 273 şirketten, verilerine ulaşılabilen 87’si araştırma kapsamına alınmıştır.
3.
Bulgular
Euronext Paris (%54) ile Borsa İstanbul’da (%57) tespit edilen düşük fiyatlama oranı arasındaki fark istatistiksel
olarak anlamlı bulunmamıştır. (χ2=0,186; p=0,667).
Çizelge1. Düşük Fiyatlama Varlığına Etki Eden Risk Faktörleri için Adımsal Lojistik Regresyon Analizi
Sonuçları
95% Güven
Standart
Aralığı
Borsa
Bağımsız Değişkenler
ß
p
OR
Hata
Alt
Üst
Borsa
İstanbul
Euronext
Paris
Hasılat <28.100.000 ₺
1,04
0,48
0,031
2,83
1,10
7,31
Halka arz oranı <%28,6
1,12
0,48
0,020
3,07
1,19
7,91
Hasılat <6.162.000 €
-1,83
0,67
0,006
6,25
1,67
23,25
Halka arz oranı <%23,02
1,89
0,67
0,005
6,60
1,77
24,58
Düşük fiyatlama varlığına etki eden risk faktörlerini araştırmak için yapılan Adımsal Lojistik Regresyon analizi
sonucunda; Borsa İstanbul’da hasılatı 28.100.000 ₺’den düşük olan halka arzlarda düşük fiyatlama riski 2,83 kat
yüksek bulunurken, Euronext Paris’te hasılatı 6.162.000 €’dan yüksek olan halka arzlarda 6,25 kat yüksek
bulunmuştur. Borsa İstanbul’da halka arz oranı %28,6’dan düşük olan halka arzlarda düşük fiyatlama riski 3,07
kat yüksek bulunurken, Euronext Paris’te halka arz oranı %23’den düşük olan halka arzlarda düşük fiyatlama
riski 6,6 kat yüksek bulunmuştur. Lojistik regresyon modelinin doğru tahmin oranı Borsa İstanbul için %63,4 ve
Euronext Paris için %59,8 olarak bulunmuştur. (Çizelge1). Borsa İstanbul’da halka arz hasılatı ve halka arz
oranı, düşük fiyatlamanın Cox & Snell R-kare değerine göre %11,2’sini; Nagelkerke R-kare değerine göre
%15,1’ini açıklayabilirken, Euronext Paris’te ise Cox & Snell R-kare değerine göre %14’ünü; Nagelkerke Rkare değerine göre %18,6’sını açıklayabilmektedir.
263
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
4.
Sonuç
Her iki borsada düşük fiyatlama varlığı benzer oranda görülmüştür. Her iki borsada da halka arz hasılatı belirli
bir miktarın (6-9 Milyon avro civarı) altında kaldığında ve halka arz oranı belirli bir değerin (%23-%28) altında
kaldığında düşük fiyatlama riski artmaktadır. Bu çerçevede; halka arz sürecine girmek isteyen firmaların süreç
öncesinde tayin edecekleri strateji içinde, Borsa İstanbul ve Euronext Paris borsalarında, belli bir halka arz
hasılatı ve oranı üstünü hedeflemeleri halinde düşük fiyatlamadan daha az oranda etkilenebilecekleri ortaya
çıkarılmıştır.
KAYNAKLAR
[1] Karlis, P. L. (2000), IPO Underpricing, The Park Place Economist: Vol. 8, pp.81-89.
[2] Chia, J. and Padgett, C. (2005), Short-Run Underpricing And İts Characteristics İn Chinese İnitial Public
Offering (IPO) Markets. Research in International Business and Finance 19, pp.71–93
[3] Akgül, A. and Çevik, O. (2005), İstatistiksel Analiz Teknikleri SPSS'te İşletme Yönetimi Uygulamaları.
Ankara: Mustafa Kitabevi.
[4] Büyüköztürk, Ş., Çokluk, Ö. and Şekercioğlu, G. (2010), Sosyal Bilimler İçin Çok Değişkenli İstatistik.
Ankara: Pegem Akademi.
ABSTRACT
LOGISTIC REGRESSION ANALYSIS OF LOW PRICING ON INITIAL PUBLIC OFFERINGS:
COMPARISON OF BORSA ISTANBUL AND EURONEXT PARIS
If the first day returns perform significantly better than the rest of the market, this is considered low pricing.
This study compares cases of low pricing in initial public offerings made on 82 IPOs in Borsa Istanbul in Turkey
and 87 IPOs in Euronext Paris in France, from 2007 to 2013. There was no significant different between Borsa
İstanbul (%57) and Euronext Paris (%54) in terms of low pricing ratio of IPO’s (p=0,667). According to
Logistic Regression, low pricing risk in Borsa İstanbul and Euronext Paris was effected from either low IPO
return or low IPO ratio (p<0,05).
Key Words: IPO, Low Price, Logistic Regression
264
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Regression Estimator for Unequal Probability Sampling
Sevil Bacanlı
Department of Statistics, Hacettepe University, Beytepe 06800, Ankara, Turkey.
Email:[email protected]
1.Introduction
The ratio and regression estimators are developed in order to estimate the population mean ( Y ) by using
the known values of the population parameters of the auxiliary variable x. That is, when the population
parameters of the auxiliary variable x such as population mean, coefficient of variation, kurtosis, skewness,
correlation coefficient, etc. is, also, known, a number of ratio estimators and their modifications are suggested.
In sampling literature, Kadılar and Çıngı(2004) proposed KC ratio- type estimators by adapting the estimator’s
type of Ray and Singh(1981) to trational and the other ratio-type estimators in simple random sampling. These
estimators which are suggested in a simple random sampling are extended into the stratified random sampling by
Kadılar and Çıngı(2003), Shabbir and Gupta(2006), Koyuncu and Kadılar (2009,2010). Bacanlı and
Kadılar(2008) suggested ratio type estimators for unequal probability sampling by adapting HovitzThompson(HT) estimator. Moreover, Bacanlı (2015) proposed HT ratio- type estimators based on regression
estimator. These HT ratio-type estimators are more efficient than the other HT ratio-type estimators.
The regression estimator for the unequal probability sampling can be written as
yregHT  yHT  Bˆ HT ( X  xHT ) ,
(1)
 n x 
 n y   n 1
yHT    i     , xHT    i 
 r 1  i 
 r 1  i   r 1  i 
estimator, based on the inclusion probabilities, is given by
 n 1
   and B̂ is a weighted regression shape
 r 1  i 
where
 n  x  xHT  yi  yHT  
Bˆ   i

i
 i 1

 n  xi  xHT 2 


i
 i 1

.
(2)
Horvitz-Thompson MSE of yregHT is given by

MSE ( y ) 
regHT
1 N N  ij   i j ' '
yi y j

N 2 i1 j i  i j
.
(3)
The regression type estimator given in (1) is adapted to the KC ratio-type estimators and proposed HT
ratio- type estimators of the population mean will be as follows:
yreg HT
yPKC 
1
yPKC 
2
xHT
yreg HT
xHTSD
yPKC 
yregHT
yPKC 
yregHT
3
4
xHTSK
xHTUS
X  Rˆ KC1 X
(4)
X SD  Rˆ KC2 X SD
(5)
X SK  Rˆ KC3 X SK
(6)
X US1  Rˆ KC4 X US1
(7)
1
yPKC 
5
yregHT
xHTUS
X US2  Rˆ KC5 X US2
(8)
2
where X SD  X  C x ; X SK  X   2 x  ; X US1  X 2 x   C x ; X US 2  XC x   2 x  ;
 2  x  =Coefficient of kurtosis; C x = Coefficient of variation.
265
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
MSE for these proposed estimators can be given as
MSE  y prl  
1 N N  ij   i j * *
yik y jk

N 2 i 1 j i  i j
(9)
where yik*  yi  RKC xi ,x k  1, 2,...,5 .
k
REFERENCES
1 Thompson, S.K. and Seber, G.A.F. (1996), Adaptive Sampling, John Wiley and Sons, NewYork.
2 Shabbir J.,and Gupta S., (2006), A new estimator of population mean in stratified sampling, Commun. Statist.
Theory Math. 35 , 1201-1209,2006.
3 Kadılar, C. and Cıngı, H. (2004), Ratio estimators in simple random sampling, Applied
mathematics and computation 151, 893-902.
4 Bacanlı, S., and Kadılar, C. (2008), Ratio estimators with unequal probability designs, Pakistan
J.statist 24(3), 167-172.
5 Bacanlı, S., (2015), Horvitz- Thompson Ratio Type Esrimator in Estimating Population Mean,
SOP transactions on statistics and analysis, 2 (1), 1-7.
ABSTRACT
In this study, regression estimator that can be examined under unequal probability sampling and proposed HT
ratio- type estimators based on regression estimator. Mean square error (MSE) all of the proposed HT estimators
is obtained and compared with other HT ratio-type estimators which is presented by Bacanlı and Kadılar (2008).
The theoretical results are supported by a numerical illustration.
Key Words: Auxiliary variable, Horvitz-Thompson estimators, Ratio-type estimators, Regression-type
estimator.
266
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ANOM TESTİNİN TIP ALANINDA MİNİTAB
PROGRAMIYLA KULLANIMI
Ebru DUMLUPINAR1, Ali PARLAR2, Fatih ÜÇKARDEŞ1
*
1
Adıyaman Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıp Bilişimi Anabilimdalı, 02000, Adıyaman, Türkiye,
[email protected]
2
Adıyaman Üniversitesi, Tıp Fakültesi, Farmakoloji ve Klinik Farmakoloji Anabilimdalı, 02000, Adıyaman,
Türkiye, [email protected]
1.Giriş
ANOM testi ilk olarak Laplace tarafından önerilmiş, daha sonraki yıllarda Halperin ve Ott tarafından
geliştirilmiş ancak günümüzde hala çok bilinmeyen ve kullanılmayan bir istatistiksel yöntemdir [1]. Bağımsız
grupları karşılaştırmak için günümüzde; Anova, Welch, Brown-Forsythe, ortogonal karşılaştırma gibi pek çok
istatistiksel yöntem kullanılmakla birlikte, ortalamaların Analiz Yöntemi (ANOM), bu yöntemlere bir alternatif
olarak genel ortalama ile grup ortalamalarını karşılaştıran grafiksel bir yöntemdir [3]. Aynı zamanda varyansların
homojenlik testinde ve oranların karşılaştırılmasında da kullanılabilmektedir.
Bu çalışmanın amacı; ANOM testinin tıp alanında örnek bir veri seti üzerinde çözümünün Minitab
programıyla yapılışının gösterilmesi amaçlanmıştır.
2.Materyal-Metot
Bu çalışmaya ait veriler 10-12 aylık, yaklaşık 200-270 gr ağırlığındaki 25 sıçanın barsaklarında iskemi
reperfüzyon sonuçlarına ait 5 farklı etmenin (1:Sham, 2: İskemi/reperfüzyon, 3:Kanabinoid 2 reseptör agonisti,
4:Kanabinoid 2 reseptör antagonisti ve 5: Kanabinoid 2 reseptör agonisti ve antagonisti) etkisi miyeloperoksidaz
(MPO) 460 nm adsorbandında ölçülmüşür. ANOM testinin alt ve üst güven aralıkları aşağıdaki formüllerle
hesaplanır.
X  hc ,n c
X  hc ,n c
S p2 (c  1)
n
, S p2 
S p2 (n  ni )
nni
,
S
2
i
n1  n2  ...  ni
c
S
2
p
 (n

i
 1)S i2
nc
(1)
( ni ’lerin en az bir tanesi farklı) (2)
Burada, c: Çalışmadaki grup sayısı, n: Grupların gözlem sayıları toplamı;
n  n1  n2  ...  nc , X :
2
p
Genel populasyon ortalaması, S : Hata kareler ortalaması ve hc ,n c : Kritik ANOM tablo değeri [2].
3. Sonuç ve Tartışma
ANOM testinin Minitab ile yapılışına ait ekran görüntüleri Şekil 1. ve 2.’de verilmiştir. Şekil 3’te
ANOM grafiği görülmektedir. Bu grafiğe göre yorum; yeşil çizgi genel ortalamayı, kırmızı çizgiler ise alt ve üst
güven aralıklarını göstermektedir. Grup ortalamalarından herhangi biri güven aralıklarının dışına çıkarsa o grup
ya da grubun farklı olduğu şeklinde yorumlanır. Bu grafiğe göre, iki numaralı iskemi reperfüzyon, en etkili
barsak iskemiye neden olduğu saptanmıştır. Diğerlerinde herhangi bir farklılık gözlenmemiştir. Mendes ve ark.
[3] bildirdiğine göre ANOM testinin deneme başına hata oranı varyansların homojen olduğu ve grupların tekerrür
sayılarının farklı olduğu durumlarda çok fazla etkilenmediği bildirilmiştir.
267
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Şekil 1. ANOM testinin seçimi
Şekil 2. Değişken atama
Şekil 3. Anom sonuç grafiği
Grup ortalamalarının birbirleri arasındaki farklılığı test etmekte Tukey, SNK ve Duncan gibi testleri
kullanılırken, ANOM ise her bir grup ortalamasının genel ortalama ile farklılığını test etmekte kullanılır.
ANOM, diğer yöntemlere göre grafiksel gösterimin pratikliği bakımından bir avantaja sahiptir. Bundan dolayı,
istatistik bilgisi yeterli olmayan araştırıcılar bu yöntemi rahatlıkla kullanıp yorumlayabilirler.
Bu çalışmanın tıp alanında farklı doz etkilerinin genel doz ortalaması ile karşılaştırılması önemi ve
kapsamını uygulamada kullanılabilirliğini göstermek bakımından yararlı olabileceği ümit edilmektedir.
KAYNAKLAR
[1] Peter R. N., Peter S. W. and Koren A. F. C. (2005), The Analysis of Means: A Graphical Method for
Comparing Means, Rates and proportions, s. 1-10.
[2] Mendes M. (2012), Uygulamalı Bilimler için İstatistik ve Araştırma Yöntemleri, s. 430-431.
[3] Mendes M. and Yigit S. (2013), Comparison of Anova-F and ANOM Tests with Regard to Type I Error
Rate and Test Power, J. Statist. Comput. Simulation, 83:11, s. 2093-2104.
ABSTRACT
USING THE TEST OF ANOM WITH MINITAB IN MEDICINE
Analysis of means method (ANOM) is aimed to hold up as an example in the field of medicine. For this
purpose five different kind of bowel ischemia MPO values which are obtained from 25 rats are used. In
consequence of this study it is more effective found out that ischaemia reperfusion.
Key Words: ANOM test, Minitab, Bowel Ischemia.
268
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÇOK ÖLÇÜTLÜ KARAR VERME PROBLEMLERİNİN BULANIK
ÜÇGENSEL SAYIYA DAYALI ÇÖZÜMÜ
Türkan ERBAY DALKILIÇ1 ve Serkan AKBAŞ2
1
İstatistik ve Bilgisayar Bilimleri Bölümü, Karadeniz Teknik Üniversitesi, TÜRKİYE.
(E-mail: [email protected])
2
İstatistik ve Bilgisayar Bilimleri Bölümü, Karadeniz Teknik Üniversitesi, TÜRKİYE.
(E-mail: [email protected]. tr)
Çalışmada çok ölçütlü karar verme problemleri ve bu problemler için uzman görüşleri ele
alınmıştır. Öncelikle bulanık doğrusal programlama problemi literatürde var olan Zimmerman
yaklaşımı ile çözülmüştür. Ardından aynı problem, uzman değerlendirmeleri üçgen bulanık
sayılara dönüştürülüp bu sayılardan ağırlıklar elde edilerek modellenmiştir. Üçgen bulanık sayı
biçimde ağırlıklandırma yapılarak problem Hibrit yaklaşımı ile çözülmüştür. Son olarak
Zimmerman yaklaşımından ve Hibrit yaklaşımından elde edilen sonuçlar karşılaştırılmıştır.
1. Bulanık Çok Ölçütlü Karar Verme
Çok ölçütlü karar verme yöntemi karmaşık karar verme problemlerinin üstesinden gelmek
için uygun optimizasyon tekniklerinden biridir ve hedeflerin birden fazla olduğu durumlarda
kullanılmaktadır. Hedeflerin birden fazla olması durumunda aynı anda tüm hedefler için en iyi
değerleri elde etmek her zaman mümkün olmamaktadır. Çok ölçütlü karar verme problemlerinin
genel matematiksel yapısı;
biçimindedir. Gerçek yaşam problemlerinin pek çoğunda tanımlanan fonksiyonlara ilişkin
parametrelerin değerleri uzmanlar veya karar vericiler tarafından kesin olarak
belirlenememektedir. Bu durum bulanık çok ölçütlü doğrusal programlama modelinin gelişimine
zemin oluşturmuştur. Problemdeki amaç fonksiyonlarının hepsi aynı önem düzeyinde veya aynı
öncelikte olmayabilir. Bu durumlarda AHP yöntemi ile amaç fonksiyonları ağırlıklandırılarak
karar verme işlemi gerçekleştirilmektedir.
2. Zimmerman Yaklaşımı
Zimmerman bulanık amaç ve bulanık kısıtlı doğrusal programlama modellerinde, karar
vericinin amaç fonksiyonu için hedeflediği seviyeyi ve tolerans miktarını çözüm öncesinde
belirleyebileceğini öne sürmüştür. Simetrik bulanık doğrusal programlama problemleri,
problemin yeniden modellenmesi üzerine, amaç fonksiyonunun ve kısıtların üzerine
konulabilecek sapma miktarını en küçük düzeyde tutmak için tanımlanan X değişkeninin en
büyük yapılması üzerine kurulan model aşağıdaki gibi tanımlanmıştır;
269
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
3. Hibrit Yaklaşımı
Zimmerman yaklaşımı tek bir A’nın maksimize edilmesi temeline dayanırken, hibrit
yaklaşımında her bir amaç fonksiyonu için farklı A’lar belirlenir. Belirlenen A’ların
ağırlıklandırılmasıyla yeni model;
ve tam sayı
biçiminde tanımlanır.
4. Uygulama
Çalışmanın amacına uygun bir problem ele alınmıştır. Uygulamada kullanılan ağırlıklar
MATLAB’ de yazılan kodun çalıştırılmasıyla elde edilmiştir. Daha sonra problemin çözümüne
ilişkin model kurulup, WINQSB programı işletilerek sonuçlar elde edilmiş ve klasik
metodlardan elde edilen sonuçlar ile karşılaştırılmıştır.
KAYNAKLAR
[1] Chen M. & Wang S. (1999), Fuzzy clustering analysis for optimizing fuzzy membership
functions, Fuzzy Sets and Systems, 103, p.239-254.
[2] Shaw K., Shankar R., Yadav S. S. & Thakur L. S. (2012), Supplier Selection Using
Fuzzy AHP and Fuzzy Multi-Objective Linear Programming For Developing Low
Carbon Supply Chain, Expert Systems with Applications, Elsevier.
[3] Saaty T. (1980), The Analytic Hierarchy Process, USA, McGraw-Hill International
Book Company.
[4] Zimmermann,(1978) H. J., Fuzzy Programming and Linear Programming with Several
Objective Functions, Fuzzy Sets and Systems, 1, p.45-55.
ABSTRACT
SOLVING MULTI-OBJECTIVE PROGRAMMING PROBLEM BASED TRIANGULAR
FUZZY NUMBER
In this study, multiple criteria decision making problems and expert opinions for these
problems are discussed. First fuzzy linear programming problems are solved by Zimmerman
approach in the existing literature. Then, expert assessments were converted into triangular
fuzzy numbers and relative weights were obtained from these numbers. By using the attained
weights, the same problem was modeled again and solved by Hybrid approach. Finally, the
results obtained from the Zimmerman approach and hybrid approaches are compared
.Key Words: Fuzzy Multi-Objective Linear Programming, AHP (Analytic Hierarchy
Process), Zimmerman Approach, Hybrid Approach.
270
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
HİZMET SEKTÖRÜNDE İŞ TATMİNİ İLE İŞE BAĞLILIK
DÜZEYLERİNİN DOĞRUSAL OLMAYAN KANONİK KORELASYON
ANALİZİ İLE İNCELENMESİ
Zeynep FİLİZ*, Sıdıka KOLUKISAOĞLU*
*
Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, Eskişehir
[email protected] , [email protected]
İşletmeler amaçlarına ulaşabilmek için birçok etmene ihtiyaç duyarlar. Bu etmenlerden en önemlisi
insandır. İnsanların da hayatlarını sürdürebilmeleri, çeşitli gereksinimlerini karşılamak için ihtiyaçları olan
parayı kazanmak için çalışırlar. Çalışan insanların işe ve işletmeye karşı genel tutumları olumlu ise iş tatmini
ortaya çıkar ve bu durum da çalışanın işe ve işletmeye olan bağlılığını, iş görme isteğini ve performansını artırır.
İşe bağlılık, çalışanın işini ne kadar benimsediği şeklinde ifade edilebilir. İş tatmini ve işe bağlılığı etkileyen
değişkenler yaş, cinsiyet, eğitim durumu, zeka, medeni durum ve hizmet yılı olarak belirtilebilir.
Yapılan bu çalışmada iki büyükşehirdeki yemek restoranlarında çalışan personelin iş tatmini ile işe
bağlılık düzeyleri arasındaki ilişki doğrusal olmayan kanonik korelasyon analizi ile incelenerek ortaya
konulmaya çalışılmıştır. Bunun için iki büyükşehirdeki çeşitli firmalarda çalışan 304 personele anket uygulaması
yapılarak veriler toplanmıştır. Çalışmada kullanılan iş tatmin ölçeği Çakır (2006) çalışmasından alınmış, işe
bağlılık ölçeği ise Güner (2007) çalışmasından alınmıştır. Bu formların yanında ayrıca kişilere ait demografik
bilgileri içeren form kullanılmıştır.
Analiz yapılmadan önce veri setinin güvenirliğine bakılmış ve Cronbach Alpha katsayısı 0,935 olarak
bulunmuştur. Daha sonra doğrusal olmayan kanonik korelasyon analizinin uygulamasına geçilmiştir. Analiz
yapıldığında yaş ve eğitim değişkenlerinin dönüşüm grafiklerinde kategori birleştirmesi yapılması gerektiği
görülmüş ve bu dönüşümler yapılarak analiz tekrar uygulanmıştır. Analiz sonuçları Çizelge 1’de özetlenmiştir.
Çizelge 1: Analiz Özet Tablosu
Küme 1
Küme 2
Küme 3
Ortalama
Özdeğer
Uyum
Kayıp
Boyut
1
2
,300
,289
,135
,140
,143
,178
,193
,202
,807
,798
Toplam
,589
,276
,321
,395
1,605
Yapılan analizde kayıp (1-uyum) 133 adımda en küçük değerine ulaşmıştır. Analizde toplam açıklanan
varyans oranı yani çalışan personelin iş tatmini ile işe bağlılık arasındaki uyumun %80 (1,605) olduğu
görülmüştür.
Analizde ağırlıklar tablosu, bileşenler grafiği ve uyum tablosu incelendiğinde yaş ve eğitim
değişkenlerinin diğer değişkenlere göre daha önemli olduğu görülmüştür. Değişkenlere ait ağırlıklar
incelendiğinde birinci boyuttaki uyum değerine katkısı en fazla olan değişkenlerin “yaş, eğitim, maaşım genel
giderler için yeterlidir ve çalıştığım firmanın problemlerini kendi problemim gibi hissediyorum” olduğu
görülmüştür. Benzer şekilde ikinci boyutun uyum değerine katkısı en çok olan değişkenler ise “yaş, eğitim, işim
kolaydır ve çalıştığım firmadan dışarıdaki insanlara gururla bahsediyorum” değişkenleridir. Centroids grafiği
incelendiğinde ise “işinin iyi olmadığını düşünen kişilerin iş yerinde kalmasının (ayrılmamasının) nedeni
gereklilik değil bu yere karşı bir aitlik duygusu beslemeleri” olarak ifade edilebilir.
271
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
KAYNAKLAR
[1] Çakır, B. (2006), SA 8000 Sosyal Sorumluluk Standardının Örgütsel Bağlılık ve İş Doyumuna Olan
Etkileri, Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü, Yüksek Lisans Tezi.
[2] Güner, A. R. (2007), Sağlık Hizmetlerinde Örgütsel Bağlılık, İşe Bağlılık ve İş Tatmini Arasındaki
İlişkilerin Modellenmesi, Akdeniz Üniversitesi Sosyal Bilimler Enstitüsü, Yüksek Lisans Tezi, Antalya.
INVESTIGATION OF JOB SATISFACTION LEVEL AND WORK COMMITMENT LEVEL IN
SERVICE SECTOR WITH USING NONLINEAR CANONICAL CORRELATION ANALYSIS
Job satisfaction is defined as a person’s positive or negative attitudes about their job. Work commitment
is defined as a person’s feelings of their job. In this study, using nonlinear canonical correlation analysis, job
satisfaction level and work commitment level has investigated. As a result of analysis, age and education
variables are found significant variables. This significant is observed in component loadings graph, weights and
fit table.
Key Words: Nonlinear canonical correlation analysis, job satisfaction, work commitment
272
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ÇOKLU DOĞRUSAL REGRESYON VE RİDGE REGRESYONUN
GERÇEK VERİ SETİ ÜZERİNDE KARŞILAŞTIRILMASI
Naime Meric KONAR*, Osman DAG, Merve BASOL
Hacettepe Üniversitesi, Tıp Fakültesi, Biyoistatistik, 06100, Ankara, TÜRKİYE
[email protected], [email protected], [email protected]
1. Giriş
Çoklu doğrusal regresyon, bağımlı değişken ile bağımsız değişkenler arasındaki ilişkiyi istatistiksel
modeller yardımıyla açıklayarak ilişki bulmayı amaçlar. Bununla birlikte, çoklu doğrusal regresyonda bağımsız
değişkenler arasında yüksek ilişki bulunduğunda, elde edilecek kestirimler yanlı olmaktadır. Bu tip durumlarda
kullanılması gereken regresyon yöntemi ridge regresyon yöntemidir. Ridge regresyon ile bağımsız değişkenler
arasındaki bağımlılık yapısı en aza indirgenmeye çalışılarak daha yansız kestirimlerin elde edilmesi
amaçlanmaktadır. Bu çalışmada aralarında yüksek ilişki bulunan bağımsız değişkenlerden oluşan bir gerçek veri
seti üzerinde çoklu doğrusal regresyon modeli ve ridge regresyon modeli karşılaştırılmıştır.
2. Amaç ve Yöntem
Çoklu doğrusal regresyon modeli yardımıyla elde edilen katsayılara ait varyans şişirme faktörü (VIF)
değerlerinin çok yüksek bulunması, ilgili değişkenler arasında bağımlılık yapısı olduğunun bir göstergesidir. Bu
tip durumlarda katsayı kestirimlerini daha yansız elde edebilmek için çoklu doğrusal regresyon modeli kurmak
yerine ridge regresyon modeli kurmak gerekir. Bağımsız değişkenler arasında bu kadar yüksek bir bağımlılık
yapısı olduğu durumlarda kullanılan bu model sayesinde, veriden değişken çıkarmak, değişkenleri birleştirmek
gibi yöntemlere başvurmaksızın, değişkenler arasındaki bağımlılık yapısını ortadan kaldırarak daha güvenilir
kestirimlerin elde edilmesi amaçlanır. Bu çalışmada kullanılan gerçek veri seti ile hava kirliliğinin bir göstergesi
olan kükürtdioksit gazı miktarını bir gün önceden kestirebilmek amaçlanmıştır. Söz konusu veri setine ve
açıklamalarına Alpar’dan ulaşılabilir [1]. Modele katılan değişkenlere Çizelge 1’de yer verilmiştir.
Değ
işken
Y
X1
X2
X3
X4
X5
X6
Çizelge1. Veri Setinde Yer Alan Değişkenler ve Açıklamaları
Açıklama
Bir gün sonraki ortalama SO2 miktarı (mikrogram/metreküp)
Bir gün önceki en yüksek sıcaklık (0C)
Bir gün önceki saat 07:00 sıcaklığı (0C)
Bir gün önceki bağıl nem oranı
Bir gün önceki saat 21:00’deki görüş mesafesi
Bir gün önceki rüzgar hızı (00:00 z ölçümleri 850 mb Hz)
Bir gün önceki inverziyon kalınlığı (12:00 z ölçümleri)
Bu veri seti için çoklu doğrusal regresyon ve ridge regresyon modelleri kurulmuştur, sayfa kısıtı
nedeniyle, sadece modeldeki katsayılar, ilgili VIF değerleri ve çoklu açıklayıcılık katsayılarına Çizelge 2’de yer
verilmiştir. Ridge regresyon sabiti, k – kat çapraz geçerlilik yöntemi ile kestirilmiş ve 10.24 olarak bulunmuştur.
Çizelge 2’deki VIF değerleri incelendiğinde, X1 ve X2 bağımsız değişkenleri arasında çoklu bağlantı problemiyle
karşılaşılmıştır. Değişkenlerden birini atmak veya değişkenleri birleştirmek yerine, bilgi kaybı olmaması
amacıyla ridge regresyon kullanmak daha uygundur. Çoklu doğrusal regresyon modeli uygulamasında, R
programında bulunan “stats” paketinden yararlanılırken [2], ridge regresyon modeli uygulamasında ise bağımsız
değişkenlere ilişkin VIF değerleri, “genridge” paketi kullanılarak elde edilmiştir [3].
Çizelge2. Çoklu Doğrusal Regresyon ve Ridge Regresyon Modeli Sonuçları
Değişk
enler
Sabit
X1
Çoklu doğrusal regresyon
modeli sonuçları
Katsayılar
VIF
6.518e+00
-2.104e-02
123.421
273
Ridge regresyon modeli
sonuçları
Katsayılar
VIF
6.496e+00
-3.347e-02
1.608
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
X2
X3
X4
X5
X6
-1.115e-01
125.668
-1.735e-02
2.125
-1.360e-05
1.441
7.200e-02
1.154
-2.488e-04
1.270
R2 = 0.8723
-9.917e-02
1.589
-1.713e-02
1.540
-1.355e-05
1.263
6.972e-02
1.054
-2.487e-04
1.165
R2 = 0.8722
KAYNAKLAR
[1] Alpar R. (2011), Çok Değişkenli İstatistiksel Yöntemler, Türkiye-Ankara, Detay Yayıncılık.
[2] Chambers, J. M. (1992), Linear models. Chapter 4 of Statistical Models in S, eds J. M. Chambers and
T. J. Hastie, Wadsworth & Brooks/Cole.
[3] Fox, J. and Monette, G. (1992), Generalized Collinearity Diagnostics, JASA, 87, 178-183.
COMPARISON OF MULTIPLE LINEAR REGRESSION AND RIDGE REGRESSION ON A
REAL LIFE DATA APPLICATION
Multiple linear regression purposes to explain the relation between dependent variable and independent
variables by the help of statistical models. Moreover, estimation of coefficients is biased if the correlation
between independent variables is high. In such a case, ridge regression needs to be applied. Unbiased
estimators are purposed to be estimated by minimizing the dependency structure between independent variables.
In this study, multiple linear regression and ridge regression models are constructed to be compared on the data
set of which there is a high correlation between independent variables.
Key Words: Ridge Regression, Ridge Constant, Real Data Application.
274
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
FEN EDEBİYAT FAKÜLTESİ ÖĞRENCİLERİNİN GELECEK
KAYGISI VE UMUTSUZLUKLARININ İNCELENMESİ
Kamile ŞANLI KULA5, Turan SARAÇ
Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Matematik Bölümü, KIRŞEHİR, TÜRKİYE.
[email protected]
1. Giriş
Kaygı, kişinin dış dünyasından veya iç dünyasından gelen bir uyaranla karşılaştığında yaşadığı,
bedensel, duygusal ve zihinsel tepkilerdir. Bir başka deyişle kişinin karşılaştığı durum ve olaylar
karşısında duyduğu ve engellemekte zorluk çektiği aşırı endişe ve uyarılmışlık halidir [4].
Gelecekle ilgili bir amacı gerçekleştirmede sıfırdan fazla olan beklentilere umut denmektedir. Bir
çıkış yolu olduğuna ve yardım ile bireyin varlığında değişiklikler oluşabileceği inancı en önemli
özelliğidir. Umutsuzluk ise bir amacı gerçekleştirmede sıfırdan az olan olumsuz beklentiler
şeklinde tanımlanır. Umut ve umutsuzluk karşıt beklentileri simgeler. Umutta hedefe ulaşmak
için uygulamaya konulan planların başarılacağı öngörüsü varken; umutsuzlukta başarısızlık
yargısı vardır. Bu iki üç beklenti kişiden kişiye, durumdan duruma beklenen sonucun ne zaman
ve nasıl gerçekleştiğine bağlı olarak değişiklik gösterir [2].
Üniversite yılları bireylerin yaşamlarında kuşkusuz önemli bir yere sahiptir. Bunun yanında
üniversitenin son yılı öğrencilerin mezun olduktan sonra hayatlarında yeni bir döneme girmeleri
açısından ayrı bir öneme sahiptir. Bu yılın sonunda artık öğrencilik yaşamı bitecek toplumda
nitelikli birer birey olacaklardır. İş seçimi, gerçek hayatta rolünü almasına yönelik planlar,
yaşadığı arkadaşlıklar, iş bulamama korkusu ve çeşitli sorumluluklar kişide kaygı yaratıcı
etmenlerden bazıları olarak sıralanabilir [1].
Üniversite öğrenimi süresince öğrenimin görüldüğü şehirden, sosyoekonomik düzeye, üniversite
ortamındaki ilişkilerden, barınma sorununa kadar birçok faktör öğrencilerin kaygıları üzerinde
etkili olmaktadır. Ancak okul hayatının son yıllarında üniversite öğrencilerinde, en büyük kaygı
kaynağı gelecek endişesi ve bununla bağlantılı olarak bir iş sahibi olma diğer bir ifadeyle
"işsizlik kaygısı" baş göstermeye başlamaktadır. Özellikle gençler ve üniversite mezunları
arasında işsizliğin yaygın olması bu kaygı düzeyinin daha da artmasına neden olabilmektedir [3].
2. Yöntem
Araştırmanın evreni 2013-2014 Eğitim-Öğretim Yılı Bahar Yarıyılı’nda Ahi Evran Üniversitesi
Fen Edebiyat Fakültesinin 4. sınıfında öğrenim gören öğrencilerin tamamından oluşmaktadır.
Araştırmanın amacına uygun olarak verilerin toplanmasında araştırmacı tarafından hazırlanan
"Kişisel Bilgi Formu", Spielberger ve arkadaşları tarafından geliştirilen "Sürekli Kaygı
Ölçeği" ve Beck ve arkadaşları tarafından geliştirilen "Beck Umutsuzluk Ölçeği" kullanılmıştır.
Bu çalışmada elde edilen veriler bilgisayar üzerinde SPSS 22,0 paket programında
değerlendirilmiştir. Kişisel bilgi içeren maddelerden bazıları için frekans ve yüzdeler Çizelge
5Bu çalışma Ahi Evran Üniversitesi tarafından PYO-FEN.4003.13.001 proje numarası ile
desteklenmiştir.
275
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
1’de verilmiştir.
Çizelge1. Kişisel Bilgiler
Kişisel Bilgiler
Cinsiyet
Ağırlıklı Genel Not Ortalaması
Anne-Babanızın Size Karşı Tutumu
Barındığı Yer
Kız
Erkek
1-1,99
2-2,99
3-4
İlgisiz
Otoriter
Demokrat
Özel Yurt
Devlet Yurdu
Apart
Ev
f
209
104
16
240
57
14
78
221
38
88
28
159
%
66,8
33,2
5,1
76,7
18,2
4,5
24,9
70,6
12,1
28,1
8,9
50,8
KAYNAKLAR
[1] Çakmak, Ö. ve Hevedanlı, M. (2005), Eğitim ve Fen Edebiyat Fakülteleri Biyoloji
Bölümü Öğrencilerinin Kaygı Düzeylerinin Çeşitli Değişkenler Açısından İncelenmesi,
Elektronik
Sosyal
Bilimler
Dergisi,
4(14),
115-127,
Erişim:
http://www.esosder.com/dergi/14115-127.pdf
[2] Dilbaz, N. ve Seber, G. (1993), Umutsuzluk Kavramı: Depresyon ve İntiharda Önemi,
Kriz Dergisi, 1 (3), 134-138.
[3] Dursun, S. ve Aytaç, S. (2009), Üniversite Öğrencileri Arasında İşsizlik Kaygısı, Uludağ
Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 28 (1), 71-84.
[4] Özkan, K. K. (2014), Kaygı (Anksiyete). Erişim: http://www.sokratespsikiyatri.com.tr/index.php/makaleler/detay/18
[5] Şahin, A. (2002), İlahiyat Fakültesi Öğrencilerinin Umutsuzluk Düzeyleri Üzerine Bir
Araştırma, Selçuk Üniversitesi İlahiyat Fakültesi Dergisi, 13, 143-157.
ANALYSING THE FUTURE ANXIETY AND HOPELESSNESS LEVELS OF THE
SCIENCES AND ARTS FACULTY SENIOR STUDENTS
The purpose of this research is to investigate the future anxiety and hopelessness level of
the senior students from the Sciences and Arts Faculties of Ahi Evran Univeristy. In research
"Personal Information Form" developed by the researcher, "Trait Anxiety Inventory" developed
by Spielberger and his friends and "Beck Hopelessness Scale" developed by Beck and his
friends were used.
Key Words: Anxiety, Hopelessness, Student, University.
276
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
RİDGE REGRESYONDAKİ RİDGE SABİTİNİN K-KAT ÇAPRAZ
GEÇERLİLİK YÖNTEMİ İLE KESTİRİLMESİ
Merve BASOL*, Osman DAG, Naime Meric KONAR
Hacettepe Üniversitesi, Tıp Fakültesi, Biyoistatistik,06100, Ankara, TÜRKİYE
[email protected], [email protected], [email protected]
1. Giriş
Bağımsız değişkenler arasında yüksek bir ilişki olması durumunda çoklu bağlantı sorunu ortaya
çıkmaktadır. Böyle bir sorun ile karşılaşıldığında, en küçük kareler (EKK) yöntemi ile model katsayılarının
kestirimi, yanlı kestirim sonuçları verir ve bu kestirim sonuçlarıyla olması gerekenden daha büyük varyans
değerleri elde edilir. Böyle bir durumda kurulması gereken model ridge regresyon modelidir. Ridge regresyonda,
regresyon parametrelerine bir düzeltme uygulanarak çoklu bağlantı sorununu çözmek amaçlanır. Bu çalışmada,
k-kat çapraz geçerlilik yöntemiyle ridge regresyonda kullanılan ridge sabitinin kestirimine yer verilmiştir.
2. Amaç ve Yöntem
Ridge regresyon yöntemi [1], regresyon parametrelerine bir ridge düzeltmesi uygulayarak çoklu bağlantı
sorununu ortadan kaldırmayı amaçlar. Ridge regresyona ait cezalandırılmış artık kareler ortalaması (CAKO)
denklem 1’de belirtilmiştir.
Burada, gözlenen değerler,
kestirilen değerler,
regresyon katsayıları, n örneklem büyüklüğü, p
modeldeki sabit dışındaki parametre sayısı ve ridge sabitidir. CAKO’dan elde edilen ridge regresyonu katsayı
kestirimine denklem 2’de yer verilmiştir.
Burada,
değeri sıfır olduğunda CAKO, artık kareler ortalamasına (AKO) eşit olur.
köşegen değerinin sıfır olması nedeniyle
katsayısı ridge sabitinden etkilenmemektedir.
matrisinin ilk
Bu çalışmanın amacı ridge sabitini kestirmektir. Ridge sabitini kestirmek için literatürde farklı yöntemler
vardır. Bu çalışmada ridge sabitini kestirebilmek amacıyla "k-kat çapraz geçerlilik yöntemi" kullanılmıştır. Bu
yönteme göre veri k tane eşit büyüklükteki parçalara bölünür, T=(
). Elde edilen k adet parçadan
k-1 tanesi istatistiksel bir model oluşumunda kullanılan “eğitim seti”, kalan diğer parça ise kurulan modelin
kestirilmesinde kullanılan “test seti” olarak adlandırılır. Bu durum Çizelge 1’de gösterildiği gibi olası tüm
kombinasyonlar için elde edilir.
Çizelge 1. Veri K Parçaya Bölündüğünde Elde Edilebilecek
Eğitim Ve Test Setlerinin Gösterimi
Eğitim Seti
Test Seti
AKO
2,3,4,…,k
1
AKO(1)
1,3,4,…,k
2
AKO(2)
1,2,3,…,k-1
k
277
AKO(k)
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
Ridge sabiti kestiriminin algoritması aşağıdaki gibidir;
i) Mümkün olan ridge sabitleri belirlenir , λ= 0, 0.01, 0.02, 0.04, 0.08, …, 10.24.
ii) Her λ değeri için Çizelge 1’de belirtilen eğitim setleri ile denklem 2 kullanılarak, k tane model kurulur
ve test seti kullanılarak k tane AKO hesaplanır.
iii) Her λ değeri için k tane hesaplanan AKO değerlerinin ortalaması alınır.
iv) En düşük ortalama AKO’ya sahip olan, ridge sabiti olarak seçilir.
KAYNAKLAR
[1] Hoerl, A.E. and Kennard, R. (1970), Ridge regression: Biased estimation for nonorthogonal problems,
Technometrics, 12:1, 55-67.
ABSTRACT
ESTIMATION OF RIDGE CONSTANT IN RIDGE REGRESSION VIA K-FOLD CROSS
VALIDATION
Multi-collinearity problem occurs when there exists high correlation between independent variables. In
such an issue, estimation of model coefficients by using least square estimation is biased and the estimated
coefficients have very large variance. In such a case, the model which needs to be constructed is a ridge
regression model. In ridge regresssion, it is aimed to overcome multi-collinearity problem by implementing a
regularization of regression parameters. In this study, estimation of ridge constant in ridge regression is
presented through k-fold cross validation.
Key Words: Ridge Regression , K-Fold Cross Validation, Ridge Constant
278
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
ARCH MODELLERİYLE BAZI ÜLKELERİN DÖVİZ
KURLARININ VOLATİLİTESİNİN İNCELENMESİ
Zeynep ÖZGÜN1, Berna YAZICI2, Zeynep FİLİZ3*
1 Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26480, Eskişehir,
TÜRKİYE
2 Anadolu Üniversitesi, Fen Fakültesi, İstatistik Bölümü,26470, Eskişehir, TÜRKİYE
3* Eskişehir Osmangazi Üniversitesi, Fen Edebiyat Fakültesi, İstatistik Bölümü, 26480, Eskişehir,
TÜRKİYE
E-mail: [email protected]
Finansal serilerde, taşıdıkları özellikler nedeniyle doğrusal zaman serisi yerine, doğrusal olmayan koşullu
değişen varyans modellerinin kullanılması giderek daha yaygın hale gelmiştir. Öngörü hataları varyansının sabit
olmadığı, değişen varyansa sahip olduğu zaman serisinin çözümlenmesinde serilerin bu özelliğini de dikkate
alacak modellere gereksinim duyulmuştur. Robert F. Engle (1982), geçerliliği olamayan yukarıda belirtilen
varsayımı Genelleştirmiş ve Otoregresif Koşullu Değişen Varyans (ARCH) süreçleri olarak adlandırılan
stokastik süreçlerin yeni bir sınıfını önermiştir [1]. Bu çalışmada, bazı ARCH (GARCH, GARCH-M ve
EGARCH, TGARCH) modellerinin istatistiksel özellikleri ve tahmin yöntemleri incelenmiş, bu modeller farklı
gelişmişlik düzeylerindeki rasgele seçilen on ülkenin döviz kuru serilerine uygulanmıştır. Model sonuçları
karşılaştırılarak serilere en uygun koşullu varyans modeli belirlenmiştir.
Bu çalışmada gelişmişlik düzeylerine göre rassal olarak seçilen 10 adet ülkenin 2008 yılına ait günlük
döviz kuru verileri kullanılarak, ülkelere ait döviz kuru değişkenlerinin volatilite yapısı koşullu değişen varyans
modelleri ile incelenmiştir. Ülkelerden Avustralya ve Yeni Zellanda’nın para birimi USD/ülke para birimi olarak
alınırken diğer ülkeler için, ülke para birimi/USD olarak alınmıştır.
İlk olarak, seçilen ülkelere ait döviz kuru serileri kartezyen grafiği, otokorelasyon fonksiyonu ve
Genişletilmiş Dickey-Fuller (ADF) testi kullanılarak durağanlıkları araştırılmış ve durağan olmayan serilerin
doğal logaritmaları alınarak varyans durağanlık, birinci dereceden farkları alınarak da ortalama durağanlıkları
sağlanmıştır. Serilerde durağanlık sağlandıktan sonra, serilerin otokorelasyon ve kısmi otokorelasyon
fonksiyonlarını içeren korelogramları incelenerek ve Lijung-Box Q istatistiği kullanılarak uygun ortalama
modelleri bulunmuştur. Sonuçlara göre Avustralya ve Yeni Zellanda için ARIMA(1,1,1) modeli, Çin için
ARIMA(0,1,1) modeli, Norveç için ARIMA(2,1,2) modeli ve Kanada, Japonya, Güney Kore, İsviçre, Tayvan ve
Türkiye için ARIMA(0,1,0) modeli uygun bulunmuştur. Her seri için uygun bulunan ortalama modelinin
hatalarında koşullu değişen varyans etkisi ARCH-LM testi yardımıyla araştırılmıştır ve bütün ülkelerin ortalama
modellerinin hatalarında ARCH etkisi bulunmuştur. Daha sonra bu hatalar simetrik ve asimetrik koşullu değişen
varyans modelleri kullanılarak farklı gecikme değerleri için normal dağılıma göre tahmin edilmiştir. Uygun
ARCH modeli belirlenirken, parametrelerin anlamlı olmasına, log olabilirlik kriterinin en büyük, AIC ve SIC
kriterlerinin en küçük olmasına dikkat edilmiştir. Avustralya, Yeni Zellanda ve Güney Kore için EGARCH(1,1)
modeli, Kanada ve Türkiye için TARCH(1,1), Çin için TARCH(1,0), Japonya için TARCH(0,1) modeli, Norveç
için ARCH(3) modeli, İsviçre için GARCH(1,3) modeli ve Tayvan için ARCH(1)-M(Standart Sapma) modeli
uygun bulunmuştur. Uygun bulunan modellerin koşullu varyanslarından standartlaştırılmış hatalar hesaplanmış
ve bu hatalara yeniden ARCH-LM testi uygulanmıştır. Bütün ülkeler için tahmin edilen koşullu değişen varyans
modellerinde ARCH etkisine rastlanmamıştır. Ek olarak standartlaştırılmış hataların otokorelasyon ve kısmi
otokorelasyon fonksiyonları incelenmiş ve katsayılar %5 anlam düzeyinde istatistiksel olarak anlamsız
bulunmuşlardır. Bu sonuçlar ülkeler için uygun bulunan koşullu değişen varyans modellerinin döviz kuru
değişkeni üzerindeki ARCH etkisinin ortadan kaldırıldığını göstermiştir. Bu sonuca dayanarak ülkeler için
uygun bulunan koşullu değişen varyans modellerinin volatiliteyi daha iyi öngörebileceğini söylemek
mümkündür. Sonuç olarak koşullu değişen varyans modellerinden elde edilen koşullu standart sapmalar
incelenmiş ve bütün ülkeler için 2008 evrensel ekonomik krizinin volatilite üzerindeki etkisinin 2008 yılının son
çeyreğini içeren Ekim, Kasım ve Aralık aylarında ortaya çıktığı gözlemlenmiştir. Ek olarak ülkelerin 2008 yılı
içerisindeki döviz kuru volatilitesindeki artış ve azalışların ülkelere göre farklı olduğu gözlenmiştir. Son olarak
uygun bulunan koşullu değişen varyans modelleri ile statik ve dinamik öngörüler yapılmıştır. Bütün ülkelerin
döviz kuru serileri için elde edilen dinamik öngörülerde varyansın sabit kaldığı görülmüştür. Bu da ülkeler için
tahmin edilen koşullu değişen varyans modellerinin öngörülerde güvenilir sonuçlar vereceğini göstermektedir.
Ayrıca bunun bir diğer göstergesi de bütün ülkeler için tahmin edilen koşullu değişen varyans modellerinin
hatalarına uygulanan Jarque-Bera test istatistiğine göre, bu hataların normale göre daha sivri dağılıma veya kalın
279
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
kuyruklara sahip olmalarıdır. Bu ülkelerin döviz kuru volatilitesinin modellenmesinde ve öngörüsünde kullanılan
simetrik ve asimetrik koşullu değişen varyans modelleri incelendiğinde, çoğu ülkenin asimetrik koşullu değişen
varyans modelleri ile daha iyi sonuçlar verdiği görülmüştür. Ayrıca uygun bulunan koşullu değişen varyans
modellerinin öngörülerinin normale göre daha sivri dağılıma sahip olmaları ülkelerin döviz kuru serilerinin
modellenmesinde bu modellerin daha güvenilir olduğunu göstermiştir [2].
KAYNAKLAR
[1] Engle, R.F. (1982), “Autoregressive Conditional Heteroscedasticity with estimates of variance of
United Kingdom inflation”, Econometrica, 50, 987-1007.
[2] Özgün, Z. (2011), “Arch Modelleriyle Bazı Ülkelerin Döviz Kurlarının Volatilitesinin İncelenmesi”,
Yüksek Lisans Tezi, Anadolu Üniversitesi, Fen Bilimleri Enstitüsü, Eskişehir.
AN EXAMINATION OF VOLATILITY OF SOME SELECTED COUNTRIES EXCHANGE
RATES USING ARCH MODELS
In financial series, the nonlinear conditional heteroscedastic models are more commonly used than the
linear time series models since the properties they have. Time series analysis requires the models that take into
account the heteroscedasticity since the prediction errors have unconstant variances. Robert F. Engle (1982)
generalizes the assumption about the heteroscedasticity and proposes a new stochastic models class
“Autoregressive Conditional Heteroscedasticity (ARCH)”. In this study, some ARCH models; GARCH, GARCHM, EGARCH, and TGARCH are examined in statistical properties and estimation methods and applied to ten
countries exchange rate series which are selected randomly by development level. The resulting models are
compared with each other and the best model for the problem in question is defined.
Key Words: Conditional Heteroscedastic Models, Exchange Rate Volatility.
280
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
RISK MEASURES ON THE ERLANG-NEGATIVE BINOMIAL
DISTRIBUTION
Emel KIZILOK KARA* and Sibel ACIK KEMALOGLU
Kirikkale University, Faculty of Arts and Sciences,
Department of Actuarial Science, Yahsihan,
71450 Kirikkale, Turkey
[email protected]
1.
Ankara University, Faculty of Sciences, Department
of Statistics ,Tandogan, Ankara,, Turkey
[email protected]
Introduction
This study introduces risk measures of the Erlang-Negative Binomial (ERNB) distribution. This distribution is
obtained by mixing the Negative Binomial (NB) distribution with the Erlang (ER) distribution. It is used Valueat-Risk (
) and Conditional Value-at-Risk (
which are the most important risk measures for making
decisions in actuarial risk management. The maximum likelihood estimation is used for the parameter estimation
of ERNB distribution. Risk measures are calculated on real data which is modelled with ERNB distribution in
application.
2.
The Erlang-Negative Binomial Distribution
The Erlang distribution was introduced by Erlang [1]. The probability density function (pdf) and cumulative
distribution function (cdf) of Erlang distribution are given by
and
respectively, where
is called the shape parameter, and
incomplete gamma function.
is called the rate parameter.
is the lower
Negative binomial distribution is often used for the counts of event in risk analysis. In applications,
overdispersion problem occurs when the variance is larger than the mean. In such cases, NB distribution can be
used as an alternative to the Poisson distribution.
A new family of univariate distributions was generated by Percontini et al. [2]. This distribution is occured by
compouding the negative binomial distribution with any continuos cdf G(x). It is called as the G-Negative
Binomial (G-NB) family of distributions with pdf f (x) and cdf F(x) and respectively is defined as
and
We obtain
generated distribution (for
distribution by inserting equations (2) into (3) and (4). Then, the pdf and cdf of the
) can be given by
281
Uluslararası 9. İstatistik Kongresi,
28 Ekim-01 Kasım 2015 ANTALYA/TÜRKİYE
and
respectively, where
,
,
and
obtained with an other way by Kongrod et.al.[3].
3.
are shape parameters. ERNB distribution was also
Risk measures of ERNB distribution
and
defined as
measures for a risk X and a probability level
where CTE (conditional tail expectation) is defined as
it can be written
are respectively
. If
is continuous then
. (Denuit et.al.[4]).
In this study,
and
measures are obtained for ERNB distribution by using (7) and (8) definations.
These risk measures are calculated for real data, modelled with ERNB by Kongrod [3]. The results are evaluated
for decision processes in actuarial area.
REFERENCES
[1] Erlang A.K. (1917), Solution of some problems in the theory of probabilities of significance in automatic
telephone exchanges, Elektrotkeknikeren, 13, 513.
[2] Percontini, A., Cordeiro, G. M., & Bourguignon, M. (2013). The G-Negative Binomial Family: General
Properties and Applications. Advances and Applications in Statistics, 35, 127–160.
[3] Kongrod S., Bodhisuwan W., Payakkapong P. (2014), The negative binomial-Erlang distribution with
applications, Introduction Journal of Pure and Applied Mathematics, 92, 3, 389-401.
[4] Denuit M., Dhaene J., Goovaerts M.J., Kaas R. (2005), Actuarial Theory for Dependent Risks; Measures,
Orders and Models, John Wiley and Sons.
Key words: Erlang distiribution, the Erlang-Negative Binomial distribution, Value at Risk, Conditional Value at
Risk.
282

Benzer belgeler