L'utilisation de la data en entreprise sous tous ses angles !

Quiz Atelier Cyber Candidature

Publié le 12 janvier 2023

Je suis consultant big data IA & cloud, consultant en entreprise et formateur. Je partage mon temps entre la clientèle pour développer des solutions sur mesure et la formation pour donner des explications pour assurer des retours d’expériences auprès des apprenants. Cela me permet d’avoir une vision générale de l’utilisation de la data en entreprise.

Sayf Bejaoui
Consultant et Formateur Big Data & Intelligence Artificielle en freelance

Comment définir la data aujourd’hui ?

C’est le nouveau pétrole online et une richesse pour les entreprises. À notre époque, on s’intéresse beaucoup aux données que nous collectons et que nous stockons. Facebook, Google, Amazon ont adopté ce processus en dégageant en plus des valeurs ajoutées de ces mêmes données. À partir de cela, ils arrivent à créer de nouveaux insights de consommation, de nouvelles idées pour mettre en place de nouveaux produits, transformer des prospects en clients, récupérer des clients qui veulent partir, donc aussi améliorer l’action publique. Les entreprises utilisent de plus en plus la data pour moderniser leurs actions publiques.

C’est un modèle économique où la valeur ajoutée est très élevée. Il y a certes un petit investissement pour mettre en place les Data Centers, pour stocker et pour faire tourner les algorithmes d’Intelligence Artificielle. Les « use cases » ou encore les idées sont « anciennes » mais n’étaient pas prêtes pour l’époque.
De nos jours, les firmes ont compris que c’était possible et qu’elles pouvaient vendre des données.

Nous avons des exemples phares qui sont les GAFA (Google, Apple, Facebook, et Amazon). Nous pouvons rajouter Microsoft ce qui renvoie à GAFAM. Nous n’avons plus vraiment besoin de parler du « business data ». Celui-ci est instauré que ce soit pour le stockage, l’exploration, ou encore l’Intelligence Artificielle qui est dessus.

Quels sont les différents types de datas en entreprise ?

Autrefois, pour utiliser de la data, il fallait signer une charte de confidentialité et une autre confirmant que la data sera uniquement utilisée pour des fins de recherches. De nos jours, il est beaucoup plus facile de récupérer de la data.

Lorsque vous créez un compte sur un site de e-commerce, vous enregistrez des informations qui sont stockées et qui deviennent des données propriétaires.
Pour aller encore plus loin, le site de SNCF est un bon exemple et il propose même la base de données pour les objets perdus « Lost and found ».
Nous, les datas scientists, nous récoltons des données structurées récupérées à partir d’une base de données relationnelles. De nos jours nous avons les likes, les partages sur les réseaux sociaux. C’est une nouvelle nature de data avec les commentaires, les gifs, les avis… Ce sont des données dites « non-structurées ». Puis il y a les données semi-structurées qui sont dans des fichiers.

Croissance salaire étudiant informatique

Big data

Data structurées, non structurées et semi-structurées

Devsecops, serveurs, cloud, sécurité réseaux

Machine Data

Data horodatées

Data spatio-temporelles

Open data

Quels sont les principaux
processus de gestion des données ?

Nous allons parler d’un pipeline. Plus précisément, nous allons parler de données d’entreprise, de données open, et de l’étape d’acquisition. Ensuite, nous parlons de l’étape d’exploration, de travail sur les données car nos principaux ennemis sont les données manquantes ou les données redondantes.
Prenons exemple sur Carrefour ; il y en a partout dans le monde. Supposons que le PDG de l’enseigne souhaite consulter le Chiffre d’affaires moyen par pays mais aussi par région, par produit, pour voir ce qui se vend le mieux en ce moment.

Pour ce faire, la data est élément capital pour la récolte de ces informations.

Ce processus s’intitulait jusqu’alors ETL et se faisait en trois étapes : Extract, Transform and Load. Puis nous avons changé le paradigme et les lettres se sont inversées. Au lieu de ETL, c’est désormais ELT car la transformation est l’opération la plus coûteuse. Cela se pratique de plus en plus et c’est dans le cadre des Data Lakes où nous attrapons les « gros poissons ».

Dans quel contexte l’IA intervient-elle pour compléter la data ?

Très actuellement, nous pouvons parler de la crise énergétique qui frappe à nos portes. C’est l’hiver qui se rapproche. Dans ce contexte de Guerre Russo-Ukrainienne, le prix du gaz est en train de flamber et la récupération des données est menacée. Au delà de ce contexte, la sureté des centrales nucléaires est très importante. L’ASN (Autorité Sûreté Nucléaire) doit faire son audit de sécurité ou des courriers signalant les éventuels défauts constatés.
Il ne faut surtout pas passer à côtés de ces lettres car elles apportent des informations cruciales pour ne pas avoir de situation telle que Fukushima.

L’IA nous prête main forte dans ce domaine car elle va ordonner ces mêmes lettres selon les sujets traités. Il y a, bien sûr, tout un travail en arrière plan pour que cela soit fonctionnel. Une action de modernisation de l’action publique serait sans aucun doute l’adaptation aux besoins du client (ex nouvelle voiture Renault). Et l’Intelligence Artificielle nous permet d’anticiper ces mêmes besoins en complément de la data.
Bien sûr, le nerf de la guerre reste l’argent ! Ainsi la data en entreprise peut être source d’argent car elle peut permettre de fidéliser le client voire d’en ramener des nouveaux ! Elle permet de lutter contre le problème d’attrition et de cibler davantage ses potentiels clients. Selon moi, les postes data sont essentiels dans les grosses structures comme chez Air France par exemple.

Est-ce risqué d’utiliser de la data en entreprise ?

Si le RGPD est respecté, il ne devrait pas y avoir de problème. Lorsque les données sont hachées, il y a donc moins de risque de vol de données. Les grandes structures investissent massivement sur la cybersécurité pour protéger les informations confidentielles. D’ailleurs, la cybersécurité et la data sont intimement liées à travers l’IA pour ce procédé.

Je parlerais plus d’inconvénient que de contrainte pour l’utilisation de la data. Lorsque nous déposons nos datas, nous avons le droit de les récupérer ou de nous rétracter. Ce n’est que lors de cas particuliers qu’il y a un formulaire à remplir et que l’entreprise est obligée de les supprimer.
Tant qu’il y a de nouveaux insights, je ne pense pas que nous devrions mettre une barrière à l’utilisation de la donnée pour produire et explorer de nouvelles pistes notamment pour les campagnes marketing. La data peut nous renseigner sur les tendances actuelles de consommations ou alors sur une période définie. Toutefois, la data a ses limites et ne remplace pas un marketeur qui va avoir un point de vue beaucoup plus approfondi.

Quels sont les enjeux de la protection des données pour l’entreprise ?

Lorsque vous êtes digitalement inscrit quelque part, l’entreprise utilisant la data est garante de la protection et de la bonne conservation de ces données personnelles. Il y a un aspect sécurité et traçabilité (pour suivre ou récupérer vos données en cas d’urgence). Si je prends l’exemple de la data dans une entreprise médicale, vous avez la fameuse application qui est Doctolib et c’est une source de données pour les assureurs, les docteurs etc. L’entreprise doit être gardienne des données de sa clientèle car elle regroupe l’aspect sécurité, l’aspect RGPD, l’aspect qualité.

Comment amener le sujet DATA auprès des étudiants ?

Transmettre la data dans une école post-bac

Dans leur cursus à l’IPSSI, ils sont passés par du web, du développement généraliste, et se spécialisent en data pour leur mastère. Il faut leur donner la bonne fibre d’apprentissage, je leur donne des exemples pratiques, ainsi les apprenants sont très attentifs car ils doivent faire une démonstration pratique pour prouver qu’ils ont compris. De plus, cela leur sert également pour leurs expériences futures. Pour exemple, leur tuteur leur propose un CSV (fichier plat, un Excel pauvre) défaillant pour qu’ils puissent le nettoyer, l’améliorer. Je leur propose également du scraping.

Concernant leur avenir dans la data, j’ai une question qui revient toujours : « Pouvons nous faire de la data en freelance ? »
C’est risqué bien entendu. Je conseille aux étudiants de faire leur preuve dans des ESN (entreprise services numériques), de faire un certain nombre de clients et de projets. Lorsqu’ils ont un bon carnet d’adresse, là je peux leur dire de se lancer en freelance. Je leur conseille également de faire beaucoup de bonnes pratiques telles que le devops pour les projets et du MLOps, mais la pratique de la data directement en entreprise reste plus sécurisante.

Sayf Bejaoui
Consultant et Formateur Big Data & Intelligence Artificielle en freelance

Prépa bachelor informatique et développement

2 ans – Accessible post-bac

Bachelor devOps & fullstack

1 an – Accessible bac+2

Mastère dev, data & IA

2 ans – Accessible bac+3

Comment devenir un futur expert en data ?

Envie de pratiquer la Data ?

Devenez un futur expert de la data en intégrant un parcours du post-bac au bac+5.

IPSSI n’attend plus que vous !

Prenez contact tout au long de l’année pour échanger avec l’un de nos conseillers et parler de votre avenir ! 🤝

Je prends contact

La Data, le nouveau pétrole pour les entreprises