Mise en place d’un projet

 

 

Machine Learning

               01             Mise en place d’un projet

  Processus général

” Analyser soigneusement les données afin de vérifier qu’elles pourront être utilisées dans un contexte de Machine Learning. ” 

A OBSERVER 
  • Difficulté : Important
  • Enjeux : crucial
  • Cible : Data Scientist + personne du domaine métier

Mise en place d’un projet

 

Machine

Learning

” Analyser soigneusement les données afin de vérifier qu’elles pourront être utilisées dans un contexte de Machine Learning. “

 

A OBSERVER
  • difficulté : important
  • Enjeux :  crucial
  • Cible : Data Scientist + personne du domaine métier

1/ Déterminer        précisément le problème que je cherche à résoudre.

  • DIFFICULTE normal
  • ENJEUX  crucial
  • CIBLE
    Data Scientist + personne domaine

2/ Mettre en place      un jeu de donnée pour l’apprentissage et un jeu de donnée                                                       pour la validation de la méthode

  • DIFFICULTE facile
  • ENJEUX  crucial
  • CIBLE
           Data  Scientist

3/ Tester        une première approche qui servira de point de comparaison : il peut                                      s’agir d’une méthode heuristique communément utilisée ou d’une                                          simple prédiction réalisée de manière aléatoire

  • DIFFICULTE facile
  • ENJEUX  important
  • CIBLE
    heuristique : personne du domaine  aléatoire : développeur

4/ S’assurer        que l’ensemble des traitements (traitement des données, entraînement et évaluation) fonctionne avec cette méthode même si les résultats ne sont pas adéquats

  • DIFFICULTE facile
  • ENJEUX  important
  • CIBLE
             Développeur

5/ Décider        du type de méthode que l’on va tester en priorité

  •   DIFFICULTE            très difficile
  • ENJEUX  crucial
  • CIBLE
    Data Scientist avec compétence dans le domaine

6/ Estimer        le temps et les ressources matérielles pour la phase d’apprentissage

  • DIFFICULTE normal
  • ENJEUX  critique
  • CIBLE
               Data Scientist

7/ Sélectionner        une méthode et l’entraîner

  • DIFFICULTE normal
  • ENJEUX  crucial
  • CIBLE
               Data Scientist

8/ Produire        la méthode

  • DIFFICULTE normal
  • ENJEUX  critique
  • CIBLE
               Développeur

01             Mise en place d’un projet

Processus général

1/ Analyser
soigneusement les données afin de vérifier qu’elles pourront être utilisées dans un contexte de Machine Learning

Difficulté: important – Enjeux : crucial – Cible: Data Scientist + personne du domaine métier

2/ Déterminer
précisément le problème que je cherche à résoudre

Difficulté: normal – Enjeux: crucial – Cible: Data Scientist + personne du domaine métier

3/ Mettre en place
un jeu de donnée pour l’apprentissage et un jeu de donnée pour la validation de la méthode

Difficulté: facile  –  Enjeux: crucial  –  Cible: Data Scientist

4/ Tester
une première approche qui servira de point de comparaison : il peut s’agir d’une méthode heuristique communément utilisée ou d’une simple prédiction réalisée de manière aléatoire

Difficulté: facile – Enjeux : important – Cible:  ▪ si approche heuristique : personne du domaine métier . ▪ si aléatoire : développeur

 

5/ S'assurer
que l’ensemble des traitements (traitement des données, entraînement et évaluation) fonctionne avec cette méthode même si les résultats ne sont pas adéquats

Difficulté: facile – Enjeux : important – Cible: développeur

 

6/ Décider
du type de méthode que l’on va tester en priorité

Difficulté: très difficile – Enjeux : crucial – Cible: Data Scientist avec compétence dans le domaine

 

7/ Estimer
le temps et les ressources matérielles pour la phase d’apprentissage

Difficulté: normale – Enjeux : critique – Cible: Data Scientist

 

8/ Sélectionner
une méthode et l’entraîner

Difficulté: normale – Enjeux : crucial – Cible: Data Scientist

 

9/ Produire
la méthode

Difficulté: normale – Enjeux : critique – Cible: Développeurs

 

               02             Analyse des données

  Processus général

” L’analyse des données permet de s’assurer rapidement s’il est possible de lancer un projet Machine Learning. Si les données ne sont pas assez nombreuses ou assez représentative du problème le projet ne doit pas être lancé. “

ADAPTE

données existantes     I    données à collecter

02       Analyse des données

” L’analyse des données permet de s’assurer rapidement s’il est possible de lancer un projet Machine Learning. Si les données ne sont pas assez nombreuses ou assez représentative du problème le projet ne doit pas être lancé. “

ADAPTE

données existantes    &    données à collecter

02-A       Données déjà                     existantes

02-B       Données à                           collecter

De quel nombre de données disposez-vous ? À quel point ces données sont-elles proches de celles qui devront être traitées ? ◦ Le processus d’acquisition sera-t-il le même ? ◦ Les données couvrent-elles l’ensemble des situations les plus courantes ? Est-ce que pour ces données je dispose d’un résultat similaire à celui que je voudrais obtenir avec une méthode de Machine Learning ? Si ce n’est pas le cas, quel est le coût pour l’obtenir ? Les données sont-elles réparties de manière homogène entre les différentes catégories de résultat possibles ? ◦ Ex1 : je cherche à identifier les objets présents dans une image, il me faut un nombre de données                 similaire pour chaque objet à identifier ; ◦ Ex2 : je cherche à prédire la température à partir de différents relevés, il me faut un nombre de                     données similaire pour chaque pallier de température. Des données de synthèses peuvent-elles être produites ? Une validation automatique du résultat peut-elle être mise en place ?

Quel sera le coût de ce processus de collecte ? Quels sont les risques que la collecte puisse être retardée ou annulée ? Comment allez-vous stocker ces données ?

02-A

Données déjà existantes

De quel nombre de données disposez-vous ? À quel point ces données sont-elles proches de celles qui devront être traitées ? ◦ Le processus d’acquisition sera-t-il le même ? ◦ Les données couvrent-elles l’ensemble des situations les plus courantes ? Est-ce que pour ces données je dispose d’un résultat similaire à celui que je voudrais obtenir avec une méthode de Machine Learning ? Si ce n’est pas le cas, quel est le coût pour l’obtenir ? Les données sont-elles réparties de manière homogène entre les différentes catégories de résultat possibles ? ◦ Ex1 : je cherche à identifier les objets présents dans une image, il me faut un nombre de données                 similaire pour chaque objet à identifier ; ◦ Ex2 : je cherche à prédire la température à partir de différents relevés, il me faut un nombre de                     données similaire pour chaque pallier de température. Des données de synthèses peuvent-elles être produites ? Une validation automatique du résultat peut-elle être mise en place ?

02-B

Données à collecter

Quel sera le coût de ce processus de collecte ? Quels sont les risques que la collecte puisse être retardée ou annulée ? Comment allez-vous stocker ces données ?

               03             Déterminer le type de problème

  Processus général

” En identifiant le type de problème que vous cherchez à résoudre, vous pourrez évaluer la difficulté de ce dernier et donc la prise de risque. 

EXEMPLES
  • Si des problématiques similaires aux miennes ont été traitées, le code source est-il disponible ?
  • Quelle est la qualité et la fiabilité de ce code ?
  • Comment évaluer le succès de la méthode de Machine Learning que je souhaite mettre en place ?

03       Déterminer le type de problème

” En identifiant le type de problème que vous cherchez à résoudre, vous pourrez évaluer la difficulté de ce dernier et donc la prise de risque. “

EXEMPLES
  • Si des problématiques similaires aux miennes ont été traitées, le code source est-il disponible?
  • Quelle est la qualité et la fiabilité de ce code?
  • Comment évaluer le succès de la méthode de Machine Learning que je souhaite mettre en place?