Je suis consultant big data IA & cloud, consultant en entreprise et formateur. Je partage mon temps entre la clientèle pour développer des solutions sur mesure et la formation pour donner des explications pour assurer des retours d’expériences auprès des apprenants. Cela me permet d’avoir une vision générale de l’utilisation de la data en entreprise.
Sayf Bejaoui
Consultant et Formateur Big Data & Intelligence Artificielle en freelance
Nous avons des exemples phares qui sont les GAFA (Google, Apple, Facebook, et Amazon). Nous pouvons rajouter Microsoft ce qui renvoie à GAFAM. Nous n’avons plus vraiment besoin de parler du « business data ». Celui-ci est instauré que ce soit pour le stockage, l’exploration, ou encore l’Intelligence Artificielle qui est dessus.
Autrefois, pour utiliser de la data, il fallait signer une charte de confidentialité et une autre confirmant que la data sera uniquement utilisée pour des fins de recherches. De nos jours, il est beaucoup plus facile de récupérer de la data.
Lorsque vous créez un compte sur un site de e-commerce, vous enregistrez des informations qui sont stockées et qui deviennent des données propriétaires.
Pour aller encore plus loin, le site de SNCF est un bon exemple et il propose même la base de données pour les objets perdus « Lost and found ».
Nous, les datas scientists, nous récoltons des données structurées récupérées à partir d’une base de données relationnelles. De nos jours nous avons les likes, les partages sur les réseaux sociaux. C’est une nouvelle nature de data avec les commentaires, les gifs, les avis… Ce sont des données dites « non-structurées ». Puis il y a les données semi-structurées qui sont dans des fichiers.
Big data
Data structurées, non structurées et semi-structurées
Machine Data
Data horodatées
Data spatio-temporelles
Open data
Nous allons parler d’un pipeline. Plus précisément, nous allons parler de données d’entreprise, de données open, et de l’étape d’acquisition. Ensuite, nous parlons de l’étape d’exploration, de travail sur les données car nos principaux ennemis sont les données manquantes ou les données redondantes.
Prenons exemple sur Carrefour ; il y en a partout dans le monde. Supposons que le PDG de l’enseigne souhaite consulter le Chiffre d’affaires moyen par pays mais aussi par région, par produit, pour voir ce qui se vend le mieux en ce moment.
Pour ce faire, la data est élément capital pour la récolte de ces informations.
Ce processus s’intitulait jusqu’alors ETL et se faisait en trois étapes : Extract, Transform and Load. Puis nous avons changé le paradigme et les lettres se sont inversées. Au lieu de ETL, c’est désormais ELT car la transformation est l’opération la plus coûteuse. Cela se pratique de plus en plus et c’est dans le cadre des Data Lakes où nous attrapons les « gros poissons ».
Si le RGPD est respecté, il ne devrait pas y avoir de problème. Lorsque les données sont hachées, il y a donc moins de risque de vol de données. Les grandes structures investissent massivement sur la cybersécurité pour protéger les informations confidentielles. D’ailleurs, la cybersécurité et la data sont intimement liées à travers l’IA pour ce procédé.
Je parlerais plus d’inconvénient que de contrainte pour l’utilisation de la data. Lorsque nous déposons nos datas, nous avons le droit de les récupérer ou de nous rétracter. Ce n’est que lors de cas particuliers qu’il y a un formulaire à remplir et que l’entreprise est obligée de les supprimer.
Tant qu’il y a de nouveaux insights, je ne pense pas que nous devrions mettre une barrière à l’utilisation de la donnée pour produire et explorer de nouvelles pistes notamment pour les campagnes marketing. La data peut nous renseigner sur les tendances actuelles de consommations ou alors sur une période définie. Toutefois, la data a ses limites et ne remplace pas un marketeur qui va avoir un point de vue beaucoup plus approfondi.
Lorsque vous êtes digitalement inscrit quelque part, l’entreprise utilisant la data est garante de la protection et de la bonne conservation de ces données personnelles. Il y a un aspect sécurité et traçabilité (pour suivre ou récupérer vos données en cas d’urgence). Si je prends l’exemple de la data dans une entreprise médicale, vous avez la fameuse application qui est Doctolib et c’est une source de données pour les assureurs, les docteurs etc. L’entreprise doit être gardienne des données de sa clientèle car elle regroupe l’aspect sécurité, l’aspect RGPD, l’aspect qualité.
Dans leur cursus à l’IPSSI, ils sont passés par du web, du développement généraliste, et se spécialisent en data pour leur mastère. Il faut leur donner la bonne fibre d’apprentissage, je leur donne des exemples pratiques, ainsi les apprenants sont très attentifs car ils doivent faire une démonstration pratique pour prouver qu’ils ont compris. De plus, cela leur sert également pour leurs expériences futures. Pour exemple, leur tuteur leur propose un CSV (fichier plat, un Excel pauvre) défaillant pour qu’ils puissent le nettoyer, l’améliorer. Je leur propose également du scraping.
Concernant leur avenir dans la data, j’ai une question qui revient toujours : « Pouvons nous faire de la data en freelance ? »
C’est risqué bien entendu. Je conseille aux étudiants de faire leur preuve dans des ESN (entreprise services numériques), de faire un certain nombre de clients et de projets. Lorsqu’ils ont un bon carnet d’adresse, là je peux leur dire de se lancer en freelance. Je leur conseille également de faire beaucoup de bonnes pratiques telles que le devops pour les projets et du MLOps, mais la pratique de la data directement en entreprise reste plus sécurisante.
Sayf Bejaoui
Consultant et Formateur Big Data & Intelligence Artificielle en freelance
Envie de pratiquer la Data ?
Devenez un futur expert de la data en intégrant un parcours du post-bac au bac+5.
Prenez contact tout au long de l’année pour échanger avec l’un de nos conseillers et parler de votre avenir ! 🤝
Je prends contact