Michael Chen | Content Strategist |25 novembre 2024
Le machine learning est devenu un terme familier ces dernières années alors que le concept est passé de la science-fiction à un moteur clé de la façon dont les entreprises et les organisations traitent l'information. Alors que le rythme de création des données continue de croître de manière exponentielle, les outils de machine learning sont essentiels pour les entreprises qui cherchent à découvrir des modèles, à étouffer les tendances et à tracer la voie la plus rentable.
A quel point le machine learning est-il banalisé ? Si vous avez cliqué sur la recommandation d'un site d'e-commerce ou d'une plateforme de streaming, si vous avez été informé d'une utilisation abusive potentielle d'une carte de crédit ou si vous avez utilisé un logiciel de transcription, vous avez bénéficié du machine learning. Il est utilisé dans la finance, la santé, le marketing, la vente en retail et dans de nombreux autres secteurs pour extraire des informations précieuses des données et automatiser les processus.
Le machine learning (ML) est un sous-ensemble de l'intelligence artificielle qui se concentre sur la création de systèmes qui apprennent (et s'améliorent) à mesure qu'ils ingèrent des données. L’intelligence artificielle est un terme large qui désigne des systèmes ou des machines imitant l’intelligence humaine. Le machine learning et l’IA sont souvent abordés ensemble, et les termes sont parfois utilisés de manière interchangeable, mais ils ne veulent pas dire la même chose.
En somme, tout le machine learning repose sur l'IA, mais toute l'IA ne repose pas sur le machine learning.
Points à retenir
Le machine learning est une technique qui découvre des relations jusque-là inconnues parmi les données en recherchant des ensembles de données potentiellement très volumineux pour découvrir des modèles et des tendances qui vont au-delà d'une simple analyse statistique. Le machine learning utilise des algorithmes sophistiqués entraînés pour identifier des modèles dans les données, créant ainsi des modèles. Ces modèles peuvent être utilisés pour faire des prédictions et classifier les données.
Notez qu'un algorithme n'est pas identique à un modèle. Un algorithme est un ensemble de règles et de procédures utilisées pour résoudre un problème spécifique ou effectuer une tâche particulière, tandis qu'un modèle est la sortie ou le résultat de l'application d'un algorithme à un ensemble de données.
Avant l'entraînement, vous avez un algorithme. Après l'entraînement, vous avez un modèle.
Par exemple, le machine learning est largement utilisé dans les soins de santé pour des tâches telles que l'analyse d'imagerie médicale, l'analyse prédictive et le diagnostic de maladies. Les modèles de machine learning sont idéalement adaptés pour analyser des images médicales, telles que les IRM, les rayons X et les tomodensitométries, afin d'identifier des modèles et de détecter des anomalies qui peuvent ne pas être visibles par l'œil humain ou qu'un diagnosticien surmené pourrait manquer. Les systèmes de machine learning peuvent également analyser les symptômes, les informations génétiques et d'autres données sur les patients pour suggérer des tests pour des conditions telles que le cancer, le diabète et les maladies cardiaques.
Les principales caractéristiques du machine learning sont les suivantes :
Il existe quatre principaux types de machine learning. Chacun a ses propres forces et limites, c'est pourquoi il est important de choisir la bonne approche pour la tâche spécifique à accomplir.
Le machine learning par renforcement, tel que le machine learning non supervisé, utilise des ensembles de données sans étiquette et permet aux algorithmes d'évaluer les données. Cependant, l'apprentissage par renforcement diffère en ce sens qu'il travaille vers un objectif défini plutôt que d'explorer les données pour découvrir les modèles qui pourraient exister. Avec un objectif à l'esprit, l'algorithme procède à un processus d'essais et d'erreurs. Chaque mouvement reçoit une rétroaction positive, négative ou neutre, que l'algorithme utilise pour affiner son processus décisionnel global. Les algorithmes d'apprentissage par renforcement peuvent fonctionner à un niveau macro pour atteindre l'objectif du projet même si cela implique de traiter les conséquences négatives à court terme. De cette façon, l'apprentissage par renforcement gère des situations plus complexes et dynamiques que d'autres méthodes car il permet au contexte de l'objectif du projet d'influencer le risque dans les choix. Enseigner à un ordinateur de jouer aux échecs est un bon exemple. Le but global est de remporter le jeu mais cela peut nécessiter de sacrifier des pièces au fur et à mesure que le jeu se poursuit.
Quel modèle est le plus adapté à vos besoins ? Le choix d'une approche supervisée ou de l'une des trois autres méthodes dépend généralement de la structure et du volume de vos données, du budget et des heures qui peuvent être consacrés à la formation, ainsi que du cas d'usage auquel vous souhaitez appliquer le modèle final. Rater la recommandation d'un chemiser s'accordant avec une jupe peut être sans conséquence. Rater une tumeur, nettement moins.
Comme son nom l'indique, le machine learning fonctionne en créant des modèles statistiques informatiques affinés pour un but donné en évaluant les données d'entraînement plutôt que par l'approche classique où les programmeurs développent un algorithme statique qui tente de résoudre un problème. Au fur et à mesure que les ensembles de données passent par le modèle de machine learning, la sortie obtenue est jugée sur la précision, ce qui permet aux data scientists d'ajuster le modèle à l'aide d'une série de variables établies, appelées hyperparamètres, et de variables ajustées algorithmiquement, appelées paramètres d'apprentissage.
Etant donné que l'algorithme s'ajuste au fur et à mesure qu'il évalue les données d'entraînement, le processus d'exposition et de calcul autour de nouvelles données entraîne l'algorithme à devenir meilleur dans ce qu'il fait. L'algorithme est la partie informatique du projet, tandis que le terme « modèle » est un algorithme entraîné utilisable pour des cas d'usage de mots réels.
La portée, les ressources et les objectifs des projets de machine learning détermineront le chemin le plus approprié, mais la plupart impliquent une série d'étapes.
1. Rassembler et compiler des données
L'entraînement des modèles de machine learning nécessite de nombreuses données de haute qualité. Le trouver est parfois difficile, et l'étiqueter, si nécessaire, peut être très gourmand en ressources. Après avoir identifié les sources de données potentielles, évaluez-les pour déterminer la qualité globale et l'alignement avec les ressources existantes d'intégration et de dépôt de données du projet. Ces sources constituent la base d'entraînement d'un projet de machine learning.
2. Sélectionnez un algorithme approprié pour obtenir le modèle souhaité
Selon que le projet prévoit d'utiliser l'apprentissage supervisé, non supervisé ou semi-supervisé, les data scientists peuvent sélectionner les algorithmes les plus appropriés. Par exemple, un projet plus simple avec un jeu de données étiqueté peut utiliser une arborescence de décision, tandis que la mise en cluster (divisant les échantillons de données en groupes d'objets similaires) nécessite davantage de ressources de calcul car l'algorithme fonctionne sans supervision pour déterminer le meilleur chemin vers un objectif.
3. Affiner et préparer les données pour l'analyse
Les chances sont que les données entrantes ne seront pas prêtes à partir. La préparation des données nettoie les ensembles de données pour s'assurer que tous les enregistrements puissent être facilement ingérés pendant la formation. La préparation comprend une gamme de tâches de transformation, telles que l'établissement de formats de date et d'heure, la jointure ou la séparation de colonnes selon les besoins, et la définition d'autres paramètres de format, tels que des chiffres significatifs acceptables dans des données numériques réelles. D'autres tâches clés incluent le nettoyage des enregistrements en double, également appelé suppression des doublons de données, ainsi que l'identification et éventuellement la suppression des valeurs aberrantes.
4. Éduquer le modèle grâce à l'entraînement
Une fois que le modèle final souhaité a été sélectionné, le processus de formation commence. Lors de l'entraînement, un jeu de données organisé, étiqueté ou non, est transmis à l'algorithme. Dans les exécutions initiales, les résultats ne sont peut-être pas excellents, mais les data scientists modifieront au besoin pour affiner les performances et augmenter la précision. Ensuite, l'algorithme affiche à nouveau les données, généralement en plus grandes quantités pour les régler plus précisément. Plus l'algorithme voit de données, mieux le modèle final devrait fournir les résultats souhaités.
5. Evaluer les performances et la précision du modèle
Une fois que le modèle a été entraîné avec une précision suffisante, il est temps de lui donner des données inédites pour tester son fonctionnement. Souvent, les données utilisées pour les tests constituent un sous-ensemble des données d'entraînement mises de côté pour être utilisées après la formation initiale.
6. Affiner et améliorer les paramètres de modèles
Le modèle est désormais très probablement proche du déploiement. Les exécutions avec des jeux de données de tests doivent produire des résultats très précis. Des améliorations sont apportées grâce à des formations supplémentaires avec des données spécifiques, souvent propres aux opérations d'une entreprise, pour compléter les données généralisées utilisées dans la formation initiale.
7. Lancer le modèle
Grâce à l'optimisation des résultats, le modèle est maintenant prêt à traiter les données inédites dans une utilisation normale de la production. Lorsque le modèle est actif, les équipes de projet collectent des données sur le fonctionnement du modèle dans des scénarios réels. Cela peut être fait en surveillant des mesures de performances clés, telles que la précision, l'exactitude globale des prédictions du modèle et le rappel, le rapport des observations positives correctement prédites. Pensez également à la façon dont les prédictions du modèle affectent les résultats commerciaux sur le terrain : est-ce qu'il génère de la valeur, que ce soit dans l'augmentation des ventes de blouses ou la pose de meilleurs diagnostics ?
La réalisation régulière d'audits et d'examens de la performance du modèle peut aider à cerner les problèmes ou les distorsions qui ont pu survenir après le déploiement et sont essentiels pour s'assurer que le modèle fonctionne efficacement et réponde aux objectifs souhaités.
Les algorithmes sont la partie informatique d'un projet de machine learning. Une fois formés, les algorithmes produisent des modèles avec une probabilité statistique de répondre à une question ou d'atteindre un objectif. Cet objectif pourrait être de trouver certaines fonctionnalités dans les images, telles qu' « identifier tous les chats », ou il pourrait être de repérer des anomalies dans les données susceptibles d'indiquer une fraude, un spam ou un problème de maintenance avec une machine. D'autres algorithmes peuvent encore tenter de faire des prédictions, telles que les vêtements qu'un acheteur pourrait également aimer en fonction de ce qui se trouve actuellement dans son panier.
Voici quelques-uns des algorithmes les plus courants utilisés dans le machine learning :
Au-delà des réseaux neuronaux
Le machine learning utilise un large éventail d'algorithmes. Alors que ceux mentionnés ci-dessus règnent en popularité, voici cinq algorithmes moins courants mais toujours utiles.
Amélioration du gradient | Crée des modèles séquentiellement en se concentrant sur les erreurs précédentes dans la séquence. Utile pour la détection des fraudes et des spams. |
Voisins les plus proches (KNN) | Modèle simple mais efficace qui classe les points de données en fonction des étiquettes de leurs voisins les plus proches dans les données d'entraînement. |
Analyse des composantes principales (ACP) | Réduit la dimensionnalité des données en identifiant les fonctionnalités les plus importantes. Il est utile pour la visualisation et la compression des données, par exemple pour la détection d'anomalies. |
Q-learning | Emploie et agent qui apprend par des essais et erreurs, et reçoit des récompenses pour les actions souhaitées et des pénalités pour avoir pris la mauvaise direction. |
Machine à vecteurs de support (SVM) | Crée un hyperplan pour séparer efficacement les points de données appartenant à différentes classes, telles que la classification des images. |
Le machine learning permet aux entreprises d'extraire des informations de leurs données qu'elles pourraient ne pas trouver autrement. Voici quelques-uns des avantages les plus courants de l'intégration du machine learning dans les processus :
Les projets de machine learning sont aussi efficaces que le système et les ressources avec lesquels ils sont construits. Cela souligne la nécessité d'investir dans une planification et une préparation appropriées.
Voici quelques-uns des défis les plus courants auxquels sont confrontés les projets de machine learning :
Le machine learning peut apporter des avantages significatifs à presque tous les secteurs et départements d'une entreprise. Si les chiffres sont écrasés et que les données existent, le machine learning offre un moyen d'augmenter l'efficacité et de générer de nouveaux types d'engagement. Les cas d'usage courants du machine learning dans tous les secteurs sont les suivants :
Le machine learning dans Oracle Database offre un large éventail de fonctionnalités pour accélérer le processus de machine learning. Grâce à la possibilité de conserver les données dans la base de données, les data scientists peuvent simplifier leur workflow et augmenter la sécurité tout en tirant parti de plus de 30 algorithmes intégrés à hautes performances, de la prise en charge des langages populaires, y compris R, SQL et Python, des fonctionnalités de machine learning automatisées et des interfaces sans code.
Pour les entreprises disposant d'ensembles de données volumineux, le machine learning dans la base de données avec HeatWave MySQL annule la nécessité de déplacer les données vers un système distinct pour le machine learning, ce qui peut aider à augmenter la sécurité, à réduire les coûts et à gagner du temps. HeatWave AutoML automatise le cycle de vie du machine learning, notamment la sélection d'algorithmes, l'échantillonnage intelligent des données pour l'entraînement de modèle, la sélection des caractéristiques et l'optimisation des hyperparamètres, ce qui fait gagner du temps aux clients et leur épargne des tâches chronophages.
Le gain pour le machine learning est la capacité d'analyser et d'interpréter de grandes quantités de données rapidement et avec précision. Une fois entraînés, les modèles de machine learning peuvent identifier en quelques secondes ou minutes des modèles, tendances et informations qui pourraient prendre des semaines à être détectés par les humains, ou qui pourraient ne jamais voir le jour. Le résultat est une prise de décision plus éclairée, une résolution améliorée des problèmes et la capacité de faire des prédictions basées sur les données. En outre, les modèles de machine learning peuvent automatiser les processus en rotation, ce qui permet d'économiser du temps et des ressources. Le machine learning réalise son potentiel pour révolutionner le lieu de travail et stimuler l'innovation.
Le machine learning est la clé pour libérer de la valeur dans vos données, et la première étape d'un programme d'intelligence artificielle réussi.
Quelle est la différence entre l'IA et le machine learning ?
L'intelligence artificielle est le nom donné au large sujet informatique qui se concentre sur la construction et l'affinage de systèmes pour penser comme des humains. Le machine learning est un sous-ensemble de ce domaine qui se concentre spécifiquement sur l'aspect informatique du processus d'apprentissage. Les deux termes sont souvent utilisés de manière interchangeable et font face à des défis similaires, mais ils existent séparément malgré ce lien.
Quels sont les quatre principaux types de machine learning ?
Les quatre types de machine learning sont les suivants :
Est-il difficile d'apprendre le machine learning ?
Comme tout métier technique, l'apprentissage des tenants et aboutissants du machine learning est un processus itératif qui nécessite du temps et du dévouement. Un bon point de départ pour le machine learning est d'avoir une base dans les langages de programmation, tels que Python ou R, ainsi qu'une compréhension des statistiques. De nombreux éléments impliqués dans l'évaluation des résultats du machine learning nécessitent une compréhension des concepts statistiques, tels que la régression, la classification, l'ajustement et les paramètres.
Qu'est-ce qu'un exemple de machine learning ?
L'un des exemples les plus courants de machine learning est un moteur de suggestion. Dans l'e-commerce, cela est considéré comme une suggestion de produit « vous pouvez aussi aimer... ». Dans les médias de streaming vidéo, cela est vu comme des idées pour ce qu'il faut regarder ensuite. Dans ces cas, l'algorithme prend l'historique d'un utilisateur et crée des prédictions pour ce que l'utilisateur peut trouver intéressant ; plus l'utilisateur ajoute des points de données, plus l'algorithme peut affiner les prédictions.