Analyse de données massives - Cas pratique Vélib

30 novembre 20254 min de lecture

Contexte et enjeu

La problématique

Vélib, le service de vélos en libre-service d'Île-de-France, génère des millions de trajets quotidiens. Pour optimiser l'exploitation du service, une question clé se pose :

Comment s'assurer qu'il y a toujours des vélos disponibles aux bons endroits, au bon moment ?

Les données de juillet 2022 révèlent des dysfonctionnements critiques :

  • Stations complètement indisponibles (retour impossible, bornes de paiement hors ligne)
  • Concentration extrême : Paris monopolise ~94% des ressources (637 sur 679 vélos)
  • Capacité non utilisée : stations avec forte capacité mais faible disponibilité

Statistiques clés

Métrique Valeur
Lignes analysées 6M+
Colonnes de données 14
Vélos en parc (juillet 2022) 15 000
Stations Vélib 1 400

Vision du projet

Exploiter les données massives de Vélib pour identifier les ruptures d'offre, mesurer les disparités géographiques et proposer des leviers d'optimisation logistique.

À retenir de cette section

  • Enjeu principal : optimiser disponibilité des vélos par station et arrondissement
  • Problème identifié : dysfonctionnements et concentration à Paris
  • Volume : 6M+ lignes analysées, 1 400 stations, 15 000 vélos
  • Approche : données massives → dashboards opérationnels → recommandations

Point clé : Les données révèlent souvent des problèmes invisibles aux yeux opérationnels.


Données & méthodologie

Volume et structure des données

Données collectées (juillet 2022) :

  • Nombre de lignes : 6 000 000+
  • Nombre de colonnes : 14 (disponibilité, capacité, arrondissement, type de station, etc.)
  • Granularité : Snapshot par station (statut retour Vélib, état bornes, capacité, disponibilité)
  • Sources : API Vélib Métropole + données opérationnelles

Exemple de structure :

Station Arrondissement Capacité Vélos Disponibles Retour Possible Borne Paiement État
République Paris 50 35 OUI OUI Fonctionnelle
Saint-Denis 1 Saint-Denis 168 5 NON NON Dysfonctionnelle

Outils utilisés

SQL : Extraction, jointures et agrégation des données brutes

  • Python / Jupyter Notebook : Nettoyage, préparation, exploration initiale des données
  • Tableau : Création de dashboards interactifs et insights visuels

Étapes d'analyse

  1. Nettoyage des données : Suppression doublons, normalisation des colonnes
  2. Exploration : Calcul des statistiques clés (moyenne disponibilité, distribution par arrondissement)
  3. Segmentation : Classification stations par état (fonctionnelle / dysfonctionnelle)
  4. Visualisation : Création dashboards Tableau pour communication aux équipes

À retenir de cette section

  • Volume massif : 6M lignes pour une photographie en juillet 2022
  • 14 colonnes capturant état opérationnel détaillé
  • Outils stackés : Python (préparation) + Tableau (insights)
  • Approche itérative : exploration → segmentation → visualisation

Point clé : La préparation des données (80% du travail) conditionne la qualité des insights.


Dashboard Tableau

Vue d'ensemble

Un tableau de bord interactif a été créé pour suivre la disponibilité des vélos par station et par arrondissement, et identifier les leviers d'optimisation.

Dashboard public Tableau : Voir le dashboard complet

Dashboard Vélib - Vue générale

Contenus du dashboard

Le dashboard intègre 4 perspectives analytiques :

  1. Filtre états stations : Retour Vélib possible (OUI/NON) + État fonctionnement + Borne paiement
  2. Vue arrondissements : Liste complète des zones avec indicateurs clés
  3. Disponibilité des vélos : Répartition mécanique vs électrique par zone
  4. Capacité et performance : Relation entre capacité stations et vélos réellement disponibles

Segments analysés

Le dashboard permet de comparer rapidement :

  • Stations totalement dysfonctionnelles (retour NON, borne indisponible)
  • Stations partiellement actives (retour NON mais borne OK, ou inverse)
  • Stations en fonctionnement complet (retour OUI, borne disponible)

À retenir de cette section

  • Dashboard interactif créé sous Tableau (lien public disponible)
  • 4 perspectives : états, arrondissements, disponibilité, capacité/performance
  • Filtres permettent isolation des problèmes par zone
  • Données temps réel pour juillet 2022

Point clé : Un bon dashboard transforme des millions de lignes en décisions actionnables.


Résultats clés & insights

Constat 1 : Identification des dysfonctionnements

9 arrondissements présentent des retours Vélib impossibles, avec bornes de paiement également indisponibles.

Parmi ces 9 arrondissements :

  • 3 ne fonctionnent pas du tout : Argenteuil, Issy-les-Moulineaux, Rueil-Malmaison
  • 6 restants partiellement opérationnels avec retour rendu impossible

Constat 2 : Distribution géographique des ressources

Sur les 6 arrondissements où retour Vélib est impossible mais station fonctionnelle :

  • 64 stations totales sont présentes
  • 59 stations situées à Paris (92% du total)
  • Distribution déséquilibrée : hyperconcentration sur Paris-centre

Constat 3 : Disponibilité réelle vs capacité

Sur les 679 vélos disponibles dans ces 6 arrondissements :

  • Paris concentre 637 vélos (94% du total)
  • Autres arrondissements : parts minimes (5-10 vélos chacun)
  • Composition : Vélos mécaniques dominants, électriques minoritaires

Constat 4 : Parc total juillet 2022

Au total en juillet 2022 :

  • 15 000 vélos répartis sur 1 400 stations
  • Paris domine sur 3 dimensions : capacité de stations, nombre de stations, volume de vélos
  • Majorité des vélos : mécaniques

À retenir de cette section

  • 9 arrondissements dysfonctionnels identifiés (retour impossible)
  • 3 ne fonctionnent pas du tout durant la période
  • 94% des vélos concentrés à Paris, déséquilibre massive
  • Observations : rupture de stock localissée ou redistribution nécessaire

Point clé : Les données révèlent un mismatch offre/demande local qui nécessite une action urgente.


Recommandations & perspectives

Diagnostic

L'analyse de juillet 2022 met en lumière :

  1. Les inégalités de répartition : Paris monopolise ressources quand périphérie souffre de pénurie
  2. Les ruptures localisées : Certaines stations font face à demande > offre ou redistribution inefficace
  3. Les dysfonctionnements systémiques : 3 arrondissements complètement indisponibles = risque client & reputationnel
  4. Le mismatch capacité/disponibilité : Stations avec capacité élevée mais peu de vélo dispo

Pistes d'action immédiates

Priorité Action Impact attendu
P0 Redéployer vélos depuis Paris vers banlieue Réduire ruptures locales de -60%
P0 Fixer dysfonctionnements systémiques 3 arrondissements Restaurer service complet
P1 Augmenter fréquence redistribution (quotidienne vs hebdo) Éviter accumulation demande
P1 Analyser patterns demande (heures, jours, événements) Ajuster prédiction redistribution
P2 Diversifier types vélos par zone (électriques hors-Paris) Attirer nouveaux segments usagers

Pistes d'exploration futures

Pour approfondir cette analyse au-delà de juillet 2022 :

  • Données clients : Croiser disponibilité stations avec profils utilisateurs (âge, sexe, fréquence) pour identifier qui souffre des ruptures
  • Patterns temporels : Analyser heures de pointe, jours de la semaine, événements (vacances, grèves) pour prédire la demande
  • Itinéraires : Tracer les trajets les plus fréquents pour comprendre le flux domicile-travail vs loisirs
  • Capacité adaptée : Vérifier si capacité stations hors-Paris correspond vraiment à la demande locale
  • Cause ruptures : Distinguer la vraie demande > offre vs problème redistribution logistique

À retenir de cette section

  • 3 actions P0 pour corriger les dysfonctionnements immédiatement
  • Redéploiement géographique prioritaire (Paris → banlieue)
  • 5 pistes d'exploration pour amélioration long-terme
  • Intégration données clients & tests A/B de redistribution = prochaine étape

Point clé : Les données identifient le problème. Les données + business logic définissent la solution.


Conclusion

Cette analyse de 6M+ lignes de données Vélib (juillet 2022) a permis d'identifier des dysfonctionnements critiques et des inégalités de répartition qui expliquent (probablement) une partie de l'insatisfaction clients.

Les insights clés :

  1. Concentration extrême à Paris (94% des vélos)
  2. Dysfonctionnements systémiques dans 3 arrondissements
  3. Mismatch offre/demande qui demande une action urgente

L'opportunité : Avec les données clients intégrées et les modèles prédictifs, il est possible d'optimiser la redistribution automatiquement et d'anticiper les ruptures 24h à l'avance.


Accès aux données & dashboards


Vous avez des questions sur cette approche ou souhaitez l'appliquer à vos données ?

Prendre contact

Projet d'analyse réalisé dans le cadre de la formation LePont Bootcamp (Data Analyst, juin-septembre 2022) en partenariat avec Vélib Métropole