Home » Blogue » À quoi doivent ressembler mes données pour faire de l’IA/ML ?

À quoi doivent ressembler mes données pour faire de l’IA/ML ?

Avez-vous des données, mais vous n’êtes pas certain qu’elles conviennent à l’IA ou à l’apprentissage machine (ML)? Il existe de nombreux types de données, mais elles se résument généralement à quelques grandes catégories. Typiquement, vos données seront :

numériques
catégorielles
séries chronologiques
textuelles

Données numériques

Les données numériques peuvent aussi être appelées quantitatives. Elles peuvent être des variables continues, comme la température ou la vitesse du vent. Elles peuvent aussi être limitées à des valeurs discrètes, comme le nombre d’étudiants dans une classe ou le nombre d’unités vendues. Les images représentent un autre type de données numériques. Elles peuvent être représentées par une matrice de valeurs numériques (en niveaux de gris). Les images en couleur sont représentées par 3 valeurs pour chaque pixel, correspondant aux niveaux de rouge, vert et bleu. Vous pouvez les voir comme une matrice tridimensionnelle (tenseur), chaque valeur étant numérique.

Données catégorielles

Vous pouvez aussi avoir des données catégorielles, ou qualitatives. Elles correspondent souvent à une classification d’objets, comme la couleur ou l’espèce. On peut également créer des catégories à partir de données numériques en les regroupant dans des intervalles. L’âge est une donnée numérique, mais dans les sondages on le retrouve souvent sous forme de groupes (18-25 ans, 65+, etc.). Ces catégories sont utilisées lorsque la valeur exacte importe moins que les tendances globales.

Séries chronologiques

Un autre type important de données est celui des séries chronologiques. Il s’agit généralement de valeurs de données associées à un horodatage. Par exemple, des capteurs pourraient enregistrer la température ou la vitesse du vent chaque minute (ou chaque heure, ou chaque jour). Ces données sont surtout utilisées pour analyser l’historique et tenter de prédire des événements futurs. Un autre type de série chronologique serait les enregistrements audio/vidéo, qui capturent des sons/images au fil du temps. Par exemple, les baleines sont souvent étudiées grâce à l’acoustique.

Données textuelles

L’autre grande catégorie de données est le texte. Cela peut inclure des pages web, des tweets, des livres. Dans le secteur océanique, les données textuelles peuvent inclure des manifestes d’expédition, des journaux de bord, des rapports réglementaires ou obligatoires d’entreprises, ainsi que des courriels ou des publications sur les médias sociaux.

Ces catégories ne sont pas mutuellement exclusives. En effet, un enregistrement audio est stocké numériquement, au fil du temps; il s’agit donc à la fois d’une série chronologique et de données quantitatives.

Un autre aspect à considérer est de savoir si vos données sont structurées ou non structurées. Les données structurées, comme leur nom l’indique, ont des types clairement définis et sont organisées de manière à être facilement consultables. Elles peuvent être stockées dans une base de données relationnelle (par exemple avec SQL) ou dans un tableur. Les données non structurées regroupent généralement tout le reste. Elles ne sont pas facilement consultables, comme les enregistrements audio/vidéo ou les publications sur les réseaux sociaux. Ces deux types de données peuvent être utilisés pour l’apprentissage machine. Les données structurées sont souvent plus faciles à utiliser, mais la majorité des données disponibles sont non structurées.

Si vos données entrent (au moins) dans l’une de ces catégories, vous pouvez probablement les utiliser pour l’IA/ML. Le modèle que vous choisirez dépendra du type de données que vous avez et de la prédiction que vous souhaitez faire. Par exemple, la classification d’images utilise souvent des réseaux neuronaux convolutionnels, alors que les séries chronologiques utilisent souvent des réseaux neuronaux récurrents. Toutefois, cela dépendra aussi de la question que vous souhaitez poser. Parfois, de simples méthodes statistiques suffisent.

Surveillez notre futur blogue : « Est-ce que je peux résoudre tous nos problèmes avec l’IA ou l’apprentissage machine? »