Please use this identifier to cite or link to this item: http://hdl.handle.net/11328/754
Title: Método de classificação com rejeição por indecisão e observação atípicas.
Authors: Pereira, Carla Santos
Pires, Ana M.
Keywords: Análise multivariada
Análise discriminante
Classificação supervisionada
Região de indecisão
Detecção outliers
Estimadores robustos
Métodos de clustering
Modelos de misturas
Multivariate analysis
Discriminant analysis
Supervised classification
Region of doubt
Detection of outliers
Robust estimators
Clustering methods
Mixture models
Issue Date: 2004
Citation: Pereira, C. S., & Pires, A.M. (2004). Método de classificação com rejeição por indecisão e observação atípicas. In Rodrigues, P. M. M., Rebelo, E. L. & Rosado, F. (ed.) Estatística com acaso e necessidade: Actas do XI Congresso Anual da Sociedade Portuguesa de Estatística, Faro, 24-27 Set. (pp. 595-604).
Abstract: Num problema típico de classificação, o objectivo é criar uma regra de decisão que permita afectar um objecto, de origem desconhecida, a uma de c classes pré-definidas, a partir dos valores observados de um conjunto de p variáveis numa amostra de treino. Na impossibilidade de separação absoluta ou numa situação de dúvida (quando as funções de decisão assumem valores muito idênticos ou a quando da existência de observações atípicas-outliers) poderá ser preferívelnão classificar do que optar por classificar com uma probabilidade de erro elevada. Nesse caso introduz-se uma opção de rejeição, por indecisão ou por existência de observações atípicas pelo que de uma forma genérica teremos um classificador em c + 2 classes. Neste trabalho apresenta-se um método de classificação em c + 2 classes com especial realce no tratamento das observações atípicas. Propõe-se uma nova regra de rejeição de outliers, RRO, baseada em análise de clusters e utilização de distâncias tipo Mahalanobis com estimadores clássicos e robustos que demonstrou ter bom comportamento em simulações de dados normais e não normais, com e sem outliers. Como método de clustering utilizaram-se o k-means, pam (partitioning around methods) e mclust (model based clustering) e para estimadores do vector de médias e de matriz de covariâncias o RMCD25 (Reweight Mininum Covariance Determinant com um ponto de rotura aproximado de 25%), os estimadores clássicos e o estimador OGK de Maronna e Zamar. O método apresentado é ilustrado com dois exemplos práticos.
The aim of a supervised classification problem is to build a decision rule according to which a new object is assigned to one of a set of c predefined classes on the basis of an observed p-dimensional feature vector (tranning sample). In the absence of absolute separation or when there is some uncertainty it may be better not to classify. In that case we can introduce a rejection option either in cases of dobt or of atypical observations (outliers). This work presents a method for classifying a new object into one of c + 2 Classes. Special emphasis is given to the treatment of atypical observations: we propose a new outlier rejection rule, based on clustering analysis and mahalanobis type distance with classical and robust estimators, wich performed well in a simulation study with normal and non-normal data, with and without outliers. We consideredthree clustering methods: k-means, pam and mclust; and three pairs of location-scatter estimators: classical, Reweighted Minimum Covariance Determinant with an approximate 25% breakdown point (RMCD25) and Orthogonalised Gnanadesikan-Kettenring (OGK) of Maronna and Zamar. The method is illustrated with two applications.
URI: http://hdl.handle.net/11328/754
Appears in Collections:REMIT - Comunicações a Congressos Nacionais / Papers in National Meetings

Files in This Item:
File Description SizeFormat 
Artigo_2004.pdf629.85 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.