Qu'est-ce que le surajustement?

Le surajustement est un terme utilisé dans les statistiques qui fait référence à une erreur de modélisation qui se produit lorsqu'une fonction correspond trop étroitement à un ensemble particulier de données. Par conséquent, le surajustement peut ne pas correspondre à des données supplémentaires, ce qui peut affecter la précision de la prévision des observations futures.

Surapprentissage

Le surajustement peut être identifié en vérifiant les mesures de validation telles que la précision et la perte. Les métriques de validation augmentent généralement jusqu'à un point où elles stagnent ou commencent à diminuer lorsque le modèle est affecté par un surajustement. Lors d'une tendance à la hausse, le modèle recherche un bon ajustement, ce qui, une fois atteint, fait que la tendance commence à baisser ou à stagner.

Résumé rapide

  • Le surajustement est une erreur de modélisation qui introduit un biais dans le modèle car il est trop étroitement lié à l'ensemble de données.
  • Le surajustement rend le modèle pertinent pour son ensemble de données uniquement, et non pertinent pour tout autre ensemble de données.
  • Certaines des méthodes utilisées pour éviter le surajustement comprennent l'assemblage, l'augmentation des données, la simplification des données et la validation croisée.

Comment détecter le surajustement?

Détecter le surajustement est presque impossible avant de tester les données. Cela peut aider à résoudre la caractéristique inhérente du surajustement, à savoir l'incapacité de généraliser les ensembles de données. Les données peuvent donc être séparées en différents sous-ensembles pour faciliter la formation et les tests. Les données sont divisées en deux parties principales, à savoir un ensemble de test et un ensemble d'apprentissage.

L'ensemble d'apprentissage représente la majorité des données disponibles (environ 80%) et entraîne le modèle. L'ensemble de test représente une petite partie de l'ensemble de données (environ 20%), et il est utilisé pour tester l'exactitude des données avec lesquelles il n'a jamais interagi auparavant. En segmentant l'ensemble de données, nous pouvons examiner les performances du modèle sur chaque ensemble de données pour repérer le surajustement lorsqu'il se produit, ainsi que voir comment le processus d'entraînement fonctionne.

Les performances peuvent être mesurées en utilisant le pourcentage de précision observé dans les deux ensembles de données pour conclure à la présence d'un surajustement. Si le modèle fonctionne mieux sur l'ensemble d'apprentissage que sur l'ensemble de test, cela signifie que le modèle est probablement surajusté.

Comment éviter le surajustement?

Voici quelques-unes des façons d'éviter le surajustement:

1. Formation avec plus de données

L'un des moyens d'éviter le surajustement consiste à s'entraîner avec plus de données. Une telle option facilite les algorithmes Les algorithmes (Algos) Les algorithmes (Algos) sont un ensemble d'instructions qui sont introduites pour effectuer une tâche.Des algorithmes sont introduits pour automatiser le trading afin de générer des bénéfices à une fréquence impossible à un trader humain de détecter le signal. mieux pour minimiser les erreurs. Au fur et à mesure que l'utilisateur introduit plus de données d'entraînement dans le modèle, il ne pourra pas surajouter tous les échantillons et sera obligé de généraliser pour obtenir des résultats.

Les utilisateurs doivent continuellement collecter davantage de données afin d'augmenter la précision du modèle. Cependant, cette méthode est considérée comme coûteuse et, par conséquent, les utilisateurs doivent s'assurer que les données utilisées sont pertinentes et propres.

2. Augmentation des données

Une alternative à la formation avec plus de données est l'augmentation des données, qui est moins coûteuse que la première. Si vous ne parvenez pas à collecter continuellement plus de données, vous pouvez donner une apparence diversifiée aux ensembles de données disponibles. L'augmentation des données donne à un échantillon de données un aspect légèrement différent à chaque fois qu'il est traité par le modèle. Le processus donne à chaque ensemble de données une apparence unique pour le modèle et empêche le modèle d'apprendre les caractéristiques des ensembles de données.

Une autre option qui fonctionne de la même manière que l'augmentation des données consiste à ajouter du bruit aux données d'entrée et de sortie. L'ajout de bruit à l'entrée rend le modèle stable, sans affecter la qualité des données et la confidentialité, tandis que l'ajout de bruit à la sortie rend les données plus diversifiées. Cependant, l'ajout de bruit doit être fait avec modération afin que l'ampleur du bruit ne soit pas au point de rendre les données incorrectes ou trop différentes.

3. Simplification des données

Un surajustement peut se produire en raison de la complexité d'un modèle, de sorte que, même avec de gros volumes de données, le modèle parvient toujours à surajouter l'ensemble de données d'apprentissage. La méthode de simplification des données est utilisée pour réduire le surajustement en diminuant la complexité du modèle pour le rendre suffisamment simple pour qu'il ne sur-ajustement pas.

Certaines des actions qui peuvent être mises en œuvre comprennent l'élagage d'un arbre de décision, la réduction du nombre de paramètres. Paramètre Un paramètre est un composant utile de l'analyse statistique. Il fait référence aux caractéristiques utilisées pour définir une population donnée. Il est utilisé dans un réseau de neurones et en utilisant le décrochage sur un réseau neutre. Simplifier le modèle peut également rendre le modèle plus léger et fonctionner plus rapidement.

4. Assemblage

L'assemblage est une technique d'apprentissage automatique qui fonctionne en combinant les prédictions de deux ou plusieurs modèles distincts. Les méthodes d'assemblage les plus populaires incluent le boosting et l'ensachage. Boosting fonctionne en utilisant des modèles de base simples pour augmenter leur complexité globale. Il forme un grand nombre d'apprenants faibles disposés dans une séquence, de sorte que chaque apprenant dans la séquence apprend des erreurs de l'apprenant avant lui.

Le renforcement combine tous les apprenants faibles de la séquence pour faire ressortir un apprenant fort. L'autre méthode d'assemblage est l'ensachage, qui est le contraire du boosting. L'ensachage fonctionne en formant un grand nombre d'apprenants forts disposés en parallèle, puis en les combinant pour optimiser leurs prédictions.

Plus de ressources

Finance est le fournisseur officiel du programme de certification FMVA® Global Financial Modeling & Valuation Analyst (FMVA) ™. . Pour continuer à faire avancer votre carrière, les ressources financières supplémentaires ci-dessous vous seront utiles:

  • Concepts statistiques de base en finance Concepts statistiques de base en finance Une solide compréhension des statistiques est essentielle pour nous aider à mieux comprendre la finance. De plus, les concepts de statistiques peuvent aider les investisseurs à surveiller
  • Biais d'exploration de données Biais d'exploration de données Le biais d'exploration de données fait référence à une hypothèse d'importance qu'un commerçant attribue à un événement sur le marché qui était en fait le résultat du hasard ou imprévu
  • Random Forest Random Forest Random forest est une technique utilisée dans la modélisation des prévisions et l'analyse du comportement et est construite sur des arbres de décision. Une forêt aléatoire contient de nombreux arbres de décision
  • Probabilité inconditionnelle Probabilité inconditionnelle La probabilité inconditionnelle, également appelée probabilité marginale, fait référence à une probabilité qui n'est pas affectée par des événements antérieurs ou futurs. En d'autres termes,

Recommandé

Crackstreams a-t-il été fermé ?
2022
Le centre de commande MC est-il sûr ?
2022
Taliesin quitte-t-il un rôle critique?
2022