Qu'est-ce que Random Forest?

La forêt aléatoire est une technique utilisée dans la modélisation des prédictions et l'analyse du comportement et est construite sur des arbres de décision. Il contient de nombreux arbres de décision qui représentent une instance distincte de la classification des données entrées dans la forêt aléatoire. La technique de la forêt aléatoire prend en compte les instances individuellement, en prenant celle avec la majorité des votes comme prédiction sélectionnée.

Forêt aléatoire Figure 1. Structure forestière aléatoire (source)

Chaque arbre des classifications prend des entrées d'échantillons dans le jeu de données initial. Les caractéristiques sont ensuite sélectionnées au hasard, qui sont utilisées dans la croissance de l'arbre à chaque nœud. Chaque arbre de la forêt ne doit pas être élagué avant la fin de l'exercice, lorsque la prédiction est atteinte de manière décisive. De cette manière, la forêt aléatoire permet à tous les classificateurs avec des corrélations faibles de créer un classificateur fort.

Résumé rapide

  • La forêt aléatoire est une combinaison d'arbres de décision qui peuvent être modélisés pour la prédiction et l'analyse du comportement.
  • L'arbre de décision dans une forêt ne peut pas être élagué pour l'échantillonnage et donc la sélection par prédiction.
  • La technique de forêt aléatoire peut gérer de grands ensembles de données en raison de sa capacité à fonctionner avec de nombreuses variables allant jusqu'à des milliers.

Modélisation des prédictions

La méthode de la forêt aléatoire peut créer des modèles de prédiction à l'aide d'arbres de régression forestière aléatoires, qui sont généralement non réglés pour donner des prévisions solides. La méthode d'échantillonnage bootstrap est utilisée sur les arbres de régression, qui ne doivent pas être élagués. Les nœuds optimaux sont échantillonnés à partir du nombre total de nœuds dans l'arborescence pour former la fonction de division optimale.

La technique d'échantillonnage aléatoire utilisée dans la sélection de la fonction de fractionnement optimale réduit la corrélation et, par conséquent, la variance des arbres de régression. Il améliore la capacité de prédiction d'arbres distincts dans la forêt. L'échantillonnage utilisant le bootstrap augmente également l'indépendance entre les arbres individuels.

Importance variable

Les variables (caractéristiques) sont importantes pour la forêt aléatoire car c'est un défi d'interpréter les modèles, en particulier d'un point de vue biologique. L'approche naïve montre l'importance des variables en attribuant de l'importance à une variable en fonction de la fréquence de son inclusion dans l'échantillon par tous les arbres. Cela peut être réalisé facilement mais présente un défi car les effets sur la réduction des coûts et l'augmentation de la précision sont redondants.

L'importance de la permutation est une mesure qui suit la précision de la prédiction lorsque les variables sont permutées au hasard à partir d'échantillons hors sac. L'approche de l'importance de la permutation fonctionne mieux que l'approche naïve mais a tendance à être plus coûteuse.

En raison des défis liés à l'incapacité de la forêt aléatoire à interpréter suffisamment bien les prévisions du point de vue biologique, la technique repose sur les approches naïves, à diminution moyenne de l'impureté et à l'importance de la permutation pour leur donner une interprétabilité directe des défis. Les trois approches prennent en charge les variables prédictives avec plusieurs catégories.

Dans le cas de variables prédictives continues avec un nombre similaire de catégories, cependant, les approches de l'importance de la permutation et de la diminution moyenne des impuretés ne présentent pas de biais Biais d'exploration de données Le biais d'exploration de données fait référence à une hypothèse d'importance qu'un opérateur attribue à une occurrence sur le marché qui était en fait le résultat du hasard ou de l'imprévu. La sélection variable s'accompagne souvent de biais. Pour éviter cela, il faut effectuer un sous-échantillonnage sans remplacement, et lorsque l'inférence conditionnelle est utilisée, une technique de forêt aléatoire doit être appliquée.

Forêts aléatoires obliques

Les forêts aléatoires obliques sont uniques en ce qu'elles utilisent des divisions obliques pour les décisions à la place des divisions de décision conventionnelles aux nœuds. Les forêts obliques montrent beaucoup de supériorité en présentant les qualités suivantes.

Premièrement, ils peuvent séparer les distributions au niveau des axes de coordonnées en utilisant un seul fractionnement multivarié qui inclurait les fractionnements alignés sur l'axe profond habituellement nécessaires. Deuxièmement, ils permettent une diminution du biais des arbres de décision pour les contraintes tracées. Les divisions conventionnelles alignées sur l'axe nécessiteraient deux niveaux d'imbrication supplémentaires lors de la séparation de classes similaires avec les divisions obliques, ce qui rend leur utilisation plus facile et efficace.

Classificateur de forêt aléatoire

Le classificateur de forêt aléatoire est une collection d'arbres de prédiction, où chaque arbre dépend de vecteurs aléatoires échantillonnés indépendamment, avec une distribution similaire avec tous les autres arbres de la forêt aléatoire. Conçu à l'origine pour l'apprentissage automatique, le classificateur a gagné en popularité dans la communauté de la télédétection, où il est appliqué à la classification des images de télédétection en raison de sa grande précision. Il atteint également la vitesse appropriée requise et un paramétrage efficace dans le processus. Le classificateur de forêt aléatoire amorce des échantillons aléatoires où la prédiction avec le vote le plus élevé de tous les arbres est sélectionnée.

L'individualité des arbres est importante dans tout le processus. L'individualité de chaque arbre est garantie grâce aux qualités suivantes. Tout d'abord, chaque apprentissage d'arbre de l'échantillon utilise des sous-ensembles aléatoires à partir des échantillons d'apprentissage initial. Deuxièmement, la division optimale est choisie parmi les caractéristiques sélectionnées au hasard des nœuds d'arbre non réglés. Troisièmement, chaque arbre pousse sans limites et ne doit absolument pas être élagué.

Avantages des forêts aléatoires

Les forêts aléatoires présentent des estimations d'importance variable, c'est-à-dire des réseaux neuronaux. Ils offrent également une méthode supérieure pour travailler avec les données manquantes. Les valeurs manquantes sont remplacées par la variable qui apparaît le plus dans un nœud particulier. Parmi toutes les méthodes de classification disponibles, les forêts aléatoires offrent la plus grande précision.

La technique de la forêt aléatoire peut également gérer des données volumineuses avec de nombreuses variables pouvant atteindre des milliers. Il peut automatiquement équilibrer les ensembles de données lorsqu'une classe est moins fréquente que d'autres classes dans les données. La méthode gère également les variables rapidement, ce qui la rend adaptée aux tâches complexes.

Plus de ressources

Finance propose la certification FMVA® Financial Modeling & Valuation Analyst (FMVA) ™. Rejoignez plus de 350 600 étudiants qui travaillent pour des entreprises comme Amazon, JP Morgan et le programme de certification Ferrari pour ceux qui cherchent à faire progresser leur carrière. Pour continuer à apprendre et développer votre base de connaissances, veuillez explorer les ressources financières pertinentes supplémentaires ci-dessous:

  • Analyse des données transversales Analyse des données transversales L'analyse des données transversales est l'analyse d'ensembles de données transversales. Les enquêtes et les archives gouvernementales sont des sources courantes de données transversales
  • Échantillonnage en grappes Échantillonnage en grappes Dans les statistiques, l'échantillonnage en grappes est une méthode d'échantillonnage dans laquelle l'ensemble de la population de l'étude est divisée en groupes externes homogènes mais internes
  • Distribution normale Distribution normale La distribution normale est également appelée distribution de Gauss ou de Gauss. Ce type de distribution est largement utilisé en sciences naturelles et sociales. le
  • Critère de sécurité d'abord de Roy Critère de sécurité d'abord de Roy Le critère de sécurité d'abord de Roy est une technique de gestion des risques utilisée par les investisseurs pour comparer et choisir un portefeuille en fonction du critère selon lequel la probabilité

Recommandé

Qu'est-ce qu'une courbe en J?
Qu'est-ce qu'une obligation à coupon?
Quel est le coût sans levier du capital?