Quelle quantité de données ai-je besoin pour l’IA/l’apprentissage machine ?

Partager

On nous demande souvent combien de données sont nécessaires lorsqu’on utilise des techniques d’intelligence artificielle ou d’apprentissage machine. Malheureusement, il n’existe pas de réponse simple. Tout dépendra grandement du type de données que vous possédez et des méthodes que vous employez.

Est-il possible d’avoir trop peu de données?

Oui, mais il existe des solutions simples. La première consiste à recueillir davantage de données. Ou encore, utiliser d’autres sources de données – il existe de nombreux ensembles de données partagés gratuitement sur Internet, pour différents types de besoins. Par exemple, le Portail de données ouvertes de la NASA offre des milliers d’ensembles de données accessibles au public. Assurez-vous de consulter notre futur blogue « À quoi mes données doivent-elles ressembler pour faire de l’IA/apprentissage machine? » pour en savoir plus sur les types de données.

Est-il possible d’avoir trop de données?

Oui, mais quel beau problème à avoir. Vous n’avez pas besoin d’utiliser toutes vos données pour entraîner un modèle d’apprentissage machine. En fait, utiliser trop de données rendra l’entraînement du modèle très lent et risque fort de le suradapter aux données. Autrement dit, le modèle apprend non seulement les détails des données, mais aussi le bruit. Cela peut nuire à sa capacité de classer correctement de nouvelles données qu’il n’a jamais vues. Il existe différentes stratégies pour utiliser des sous-ensembles de vos données. Toutefois, il faut vous assurer que le sous-ensemble choisi soit représentatif de l’ensemble de vos données.

La meilleure question à poser est : combien de données propres avez-vous?

Le nettoyage des données est une étape essentielle dans tout projet. La plupart des gens reconnaîtraient qu’une image granuleuse ou un extrait audio avec du statique ne sont pas des données propres. Mais tout le monde ne réalise pas qu’un jeu de données « sale » ne signifie pas seulement du bruit. Cela peut aussi vouloir dire du texte mal orthographié, des données placées dans le mauvais champ d’un tableur, ou des erreurs de transcription. Si vous recueillez des données provenant de plusieurs sites, il se peut qu’elles n’aient pas toutes les mêmes champs, ou qu’il en manque certaines. Bien qu’il soit préférable d’avoir le plus de données possible, la qualité est aussi importante que la quantité. Certaines données devront être exclues après nettoyage. Voilà une raison de plus de s’assurer d’en avoir suffisamment. La réponse courte à la question est que vous aurez probablement besoin de milliers d’entrées. Certainement pas moins que quelques centaines, mais idéalement de l’ordre de centaines de milliers. Bien sûr, cela dépendra du type de données que vous possédez. Par exemple, si vos données sont dans un tableur, il est facile d’obtenir des centaines de milliers, voire des millions d’entrées. Par contre, si vous travaillez avec de l’audio ou de la vidéo, il vous faudra moins d’entrées, puisque chacune encode déjà beaucoup d’information. Plus le problème est difficile ou les données complexes, plus il vous en faudra.