IA : 6 conseils pour aider les entreprises à rentabiliser leurs investissements

Netflix et Amazon, les deux géants du Web que rien ne semble arrêter, pourraient bien rentrer dans l’histoire. A moins d’une (mauvaise surprise), elles sont en passe de devenir les actifs boursiers les plus performants de la décennie. Il faut dire que depuis 2010, Netflix a enregistré une croissance de 4 000% tandis que la valeur d’Amazon a, quant à elle, augmenté de 1 100%.

Amazon et Netflix ont su développer des stratégies redoutables pour s’imposer, exploitant à la perfection les outils numériques et faisant des données de leurs utilisateurs le moteur de leur succès.

Aujourd’hui, les entreprises qui s’inspirent de leurs méthodes sont légion. Les géants du Web ont largement contribué à démocratiser l’intelligence artificielle et le machine learning, démontrant par l’exemple l’énorme potentiel commercial de ces technologies. Les dirigeants ont compris qu’elles sont incontournables. Ils doivent maintenant évaluer leur valeur opérationnelle concrète et définir la manière dont ils peuvent accroitre leurs usages sans augmenter les coûts d’infrastructure, ni employer une armée de data scientists.

Définir les priorités

Aucune entreprise ne dispose de ressources illimitées. Le premier travail, lorsque l’on souhaite investir dans l’AI et le ML, consiste donc à identifier les fonctions qui doivent en profiter, en se basant sur une combinaison de facteurs, dont notamment la stratégie globale, la valeur probable et les priorités actuelles de l’entreprise, ainsi que la disponibilité des données requises.

De manière générale, les données sont un sujet complexe pour les organisations car les problèmes légaux et techniques sont très chronophages à résoudre. Aussi, traiter ces types de problèmes avant de commencer le travail de découverte des données se révèle généralement un investissement judicieux.

Optimiser la productivité des data scientists

Certains problèmes font appel à une grande quantité de données, d’autres non. Certains nécessitent de passer beaucoup de temps à transformer les données, d’autres utilisent l’accélération GPU pour explorer des réseaux de neurones et nécessitant des calculs complexes. Pour adresses ces différentes configurations, les bibliothèques et les outils disponibles ne manquent pas. Il serait alors séduisant d’en choisir un et de l’imposer à tous les experts de données qui officient au sein de l’entreprise.

Pourtant, ces experts, comme nous tous, sont plus productifs lorsqu’ils utilisent un environnement personnalisé, qu’ils connaissent, maîtrisent et apprécient.

Qualité des données et approvisionnement

Les constructeurs automobiles le savent depuis longtemps, si l’on veut éviter toute interruption de la production, il faut s’assurer que la chaîne logistique approvisionne les bons éléments juste à temps pour les assembler dans le produit final. C’est également vrai pour l’exploitation des données, le produit final dans ce cas étant un modèle de classification qui pourrait être utilisé pour évaluer de nouvelles données ou peut-être simplement les résultats d’évaluation eux-mêmes.

Puisqu’il ne faut pas d’interruption de la ligne de production ni d’échec au niveau de l’assemblage final, le niveau de qualité des données joue un rôle crucial. Comme il n’est pas souhaitable d’effectuer la validation juste à côté de la ligne de production, il est important de repousser l’activité de profilage et de validation aussi loin que possible en amont afin qu’elle n’interfère pas avec la ligne de production proprement dite et que tout problème de qualité soit correctement traité.

Faire évoluer la capacité de calcul et le stockage

Pour faire leur travail correctement, les data scientists ont besoin d’accéder aux données gérées par l’entreprise, ainsi qu’à des ressources de données externes pouvant s’avérer utiles. Ils doivent également pouvoir enregistrer de façon itérative ces données à mesure que les jeux de données sources sont intégrés et transformés et que des données supplémentaires sont générées afin d’améliorer les performances du modèle.

Dans les environnements classiques, cela peut nécessiter un délai important et générer des coûts supplémentaires, les données étant répliquées plusieurs fois pour chaque expert et chaque scénario d’utilisation. L’avantage de s’éloigner de l’approche historique DAS (Direct Attach Storage) est que la plupart des déploiements NAS (Network Attached Storage) et Cloud fournissent des technologies de modification sur écriture, les répliques ne nécessitant alors presque pas d’espace ni de temps de création supplémentaires au départ, seules les données modifiées consommant des ressources.

Certaines tâches nécessiteront naturellement des capacités de stockage importantes, tandis que d’autres impliqueront beaucoup de calcul et peu de stockage. En dimensionnant les ressources, il va être possible de s’adapter aux besoins de performances ainsi qu’aux aux variations naturelles de l’activité de l’entreprise et aux charges de travail complémentaires dans l’idée d’accroître considérablement les taux d’utilisation des serveurs. Par le biais d’une approche virtualisée, il va être possible de façonner des environnements différents et mieux utiliser les ressources à disposition.

Raccourcir les délais avant mise en production

Une équipe de développement se compose généralement d’un mélange d’architectes de données, de développeurs et de data scientistes juniors. Leurs profils sont différents mais tous ont un crucial besoin d’agilité pour travailler dans les meilleures conditions.?Attendre la mise en place d’environnements de développement et d’analyse adaptés est faire mauvais usage du temps de chacun?!?En utilisant l’approche virtualisée déjà citée, il est possible de créer rapidement un environnement agile contenant les outils nécessaires au travail de développement. Le tout mis en place en quelques secondes, pas en semaines ni en mois.

Le temps alloué à l’expertise des données, au développement et aux tâches de test peut également nuire à l’efficacité alors qu’il est en grande partie tout à fait prévisible. Le travail des data scientists est de produire le meilleur modèle possible dans un temps défini. Dans l’approche classique, des délais supplémentaires sont introduits du fait que personne ne peut prévoir quand le travail d’expertise pourra vraiment commencer en raison de la nature imprévisible des temps de mise en place. Traiter ce problème particulier confère à chaque équipe une bien meilleure chance de respecter le planning, rendant ainsi l’intégralité du processus plus fiable.

Vérifier et intégrer l'ensemble

La dernière étape va consister à surveiller les performances du modèle de données afin de s’assurer que les résultats réels sont conformes aux attentes et permettre d’éveiller l’attention de la direction lorsque les performances déclinent en dessous des limites admissibles.

Utiliser avec succès l’intelligence artificielle et le machine learning en entreprise est avant tout une affaire d’hommes et de femmes. Il est crucial de disposer des bonnes équipes, notamment dans les domaines que sont la science des données, la R&D, l’innovation et le développement agile. En parallèle, l’industrialisation du processus d’exploitation et d’analyse des données garantit la capacité de l’entreprise à extraire de la valeur des données de manière aussi efficace que possible. La technologie joue évidemment aussi un rôle critique, mais elle ne saurait combler un manque de compétences humaines, ni l’absence de culture d’entreprise agile.