Réseau de neurones ou analysis discriminante multivariée ?
Bulletin de la sociéte d’études économiques et sociales
Etat des lieux
- Système expert appartient aux annéees 70, mais tjrs utilisé dans la plupart des institutions
- Analyse discriminante années 80
- Réseau de neurones années 90
- Réseau de neurones et méthode discriminantes atteignent une précision de 80%
- Autre type de modèle (apte à traiter les données manquantes) le PLS2 (Multivariate Partial Least Square Regression)
Réseau de neurones
- Type de réseau le plus utilisé: Multi-Layer Perception (MLP)
- Attention certains systèmes définissent le défaut par 0 (plutôt que 1)
- La construction d’un réseau de neurones optimal est dificcile
- MLP 4-4-3-1 :
- Input layer (4 neurones): le réseau recoit quatre variables et est entrainé afin d’établir les pondérations
- Hiden layer (4 neurones): minimisation d’erreur par back propagation (arrive tjrs à la même solution) ou integration retroactive (feedback) qui peut converger de manière différente. Pas forcément la solution optimale. Besoin de répéter l’entrainement.
- Layer de rédution progressive avec fonction de transfer souvant fonction logistique (mais au choix de l’utilisateur)
- Temps d’entrainement peut être long et risque d’overfitting
- Les variables explicatives n’ont pas besoin de presenter certaines conditions statistiques mais besoin de normalizer les variables afin d’éviter l’overfitting
- Données manquantes exclues
- Exemple de types de réseaux
- MLP a été décrit en 1962 par Rosenblatt
- ART (Adaptive Resonance Theory)
- Réseau de Hopfield
- Réseau de Boltzmann
- Réseau de Cascor
- RBF (Radial Basis Function)
- Réseau probabiliste (bayesien) par Wasserman (1993) et Zell (1994) avec phase d’apprentissage sans itération, plus rapide et empêche le surentraînement et pas besoin d’échantillon de validation
- Conseiller pour automatiser un traitement préliminaire des dossiers de credit
Analyse discriminate multivariée
- On sous entend souvent analyse discriminante mutlivariée linéaire
- Exemple de Altman (1968) avec cut offs à 1,81 pour défaut, et >2.99 pour non défaut. Au milieu, zone d’incertitude
- Variables doivent être indépendantes entre ells, suivre une distribution normale et doivent avoir une matrice de variance-covariance identique.
- Maximise l’explication entre les deux groupes (intertie between SSB)
- Minimise la variance inexpliquée (inertie within SSW)
- On maximize alors le rapport SSB/SSW appelé critère discriminant Gamma
- L’inertie est une mesure statistique qui est définie par le porduit de la masse statistique et la distance au carré par rapport au centre de gravité.
- Généralement la distance de Mahalanobis est retenue pour determiner la function discriminate
- Il convient ensuite de définir le point de separation (cutoff)
- Avantage et l’obtiention d’un score avec uen somme transparente des indicateurs (à contrario du réseau de neurons)
- Le dénomiteur des ration utilizes ne doit pas tender vers zero
- S’assurer que le rapport d’un numérateur et in dénominateur négatif ne peut être confondu avec in rapport de valeurs positives
- Difficulté à établir une valeur de séparation
- Hypothèse de linéarité entre entreprises défaillantes et non défaillante non démontrée
- Données manquantes sont exclues
- Un système quadratique (non linéraire donc) n’est pas plus efficace (suivant vieilles études par Diamond et Altman (1976 et 1977) . De plus on perd l’avantage de la transparence comem dans le cas du réseau de neurons.
- Banque de France utilize in modèle discriminant à plusieurs niveaux semblable à l’algorithme de classification de Kendall et suivant la logique d’un arbre de decision
Choix des variables
- Etude de Hüls (1995) a étudié 181 indicateurs qui ont pu être classes suivant 7 familles d’indicateurs distincts
- Ratios de flux sont plus discriminants que les les ratios de stock
- Indicateurs de croissance n’apporte que peu de contribution dans un modèle dsicriminant
- Théorie générale de la défaillance de l’entreprise se heurte aux differences entre pays dans les règles de redressement judiciaire et de faillite
Critère d’erreur
- Critère d’erreur de classement total ne devrait pas être retenu si le nombre d’observations des deux groups ne sont pas identiques (introduction d’un biais)
- Minimiser à la place le coût occasionnée pas une erreur de classement, cad le celui du classement d’une entreprise défaillante dans le groupe des entreprises non défaillantes (type I error)
- Etablir erreur de classement sur l’échantillon de validation
Pour aller plus loin
- “Un modèle d’évaluation du risque de défaillance des entreprises comprenant des facteurs dérivés de la théorie des bénéfices résiduels de Feltham-Ohlson traité par des méthodes d’analyses discriminantes multivariées : une contribution pour l’évaluation du risque de défaillance des entreprises”, Kenel Thierry, 2003
- “Prédiction du risque de défaillance des entreprises : capacité à utiliser les ratios financiers application du modèle linéaire de Brunswik”,F.A Chiraz, F. Hassouna