Contexte et enjeu
La problématique
Vélib, le service de vélos en libre-service d'Île-de-France, génère des millions de trajets quotidiens. Pour optimiser l'exploitation du service, une question clé se pose :
Comment s'assurer qu'il y a toujours des vélos disponibles aux bons endroits, au bon moment ?
Les données de juillet 2022 révèlent des dysfonctionnements critiques :
- Stations complètement indisponibles (retour impossible, bornes de paiement hors ligne)
- Concentration extrême : Paris monopolise ~94% des ressources (637 sur 679 vélos)
- Capacité non utilisée : stations avec forte capacité mais faible disponibilité
Statistiques clés
| Métrique | Valeur |
|---|---|
| Lignes analysées | 6M+ |
| Colonnes de données | 14 |
| Vélos en parc (juillet 2022) | 15 000 |
| Stations Vélib | 1 400 |
Vision du projet
Exploiter les données massives de Vélib pour identifier les ruptures d'offre, mesurer les disparités géographiques et proposer des leviers d'optimisation logistique.
À retenir de cette section
- Enjeu principal : optimiser disponibilité des vélos par station et arrondissement
- Problème identifié : dysfonctionnements et concentration à Paris
- Volume : 6M+ lignes analysées, 1 400 stations, 15 000 vélos
- Approche : données massives → dashboards opérationnels → recommandations
Point clé : Les données révèlent souvent des problèmes invisibles aux yeux opérationnels.
Données & méthodologie
Volume et structure des données
Données collectées (juillet 2022) :
- Nombre de lignes : 6 000 000+
- Nombre de colonnes : 14 (disponibilité, capacité, arrondissement, type de station, etc.)
- Granularité : Snapshot par station (statut retour Vélib, état bornes, capacité, disponibilité)
- Sources : API Vélib Métropole + données opérationnelles
Exemple de structure :
| Station | Arrondissement | Capacité | Vélos Disponibles | Retour Possible | Borne Paiement | État |
|---|---|---|---|---|---|---|
| République | Paris | 50 | 35 | OUI | OUI | Fonctionnelle |
| Saint-Denis 1 | Saint-Denis | 168 | 5 | NON | NON | Dysfonctionnelle |
Outils utilisés
SQL : Extraction, jointures et agrégation des données brutes
- Python / Jupyter Notebook : Nettoyage, préparation, exploration initiale des données
- Tableau : Création de dashboards interactifs et insights visuels
Étapes d'analyse
- Nettoyage des données : Suppression doublons, normalisation des colonnes
- Exploration : Calcul des statistiques clés (moyenne disponibilité, distribution par arrondissement)
- Segmentation : Classification stations par état (fonctionnelle / dysfonctionnelle)
- Visualisation : Création dashboards Tableau pour communication aux équipes
À retenir de cette section
- Volume massif : 6M lignes pour une photographie en juillet 2022
- 14 colonnes capturant état opérationnel détaillé
- Outils stackés : Python (préparation) + Tableau (insights)
- Approche itérative : exploration → segmentation → visualisation
Point clé : La préparation des données (80% du travail) conditionne la qualité des insights.
Dashboard Tableau
Vue d'ensemble
Un tableau de bord interactif a été créé pour suivre la disponibilité des vélos par station et par arrondissement, et identifier les leviers d'optimisation.
Dashboard public Tableau : Voir le dashboard complet

Contenus du dashboard
Le dashboard intègre 4 perspectives analytiques :
- Filtre états stations : Retour Vélib possible (OUI/NON) + État fonctionnement + Borne paiement
- Vue arrondissements : Liste complète des zones avec indicateurs clés
- Disponibilité des vélos : Répartition mécanique vs électrique par zone
- Capacité et performance : Relation entre capacité stations et vélos réellement disponibles
Segments analysés
Le dashboard permet de comparer rapidement :
- Stations totalement dysfonctionnelles (retour NON, borne indisponible)
- Stations partiellement actives (retour NON mais borne OK, ou inverse)
- Stations en fonctionnement complet (retour OUI, borne disponible)
À retenir de cette section
- Dashboard interactif créé sous Tableau (lien public disponible)
- 4 perspectives : états, arrondissements, disponibilité, capacité/performance
- Filtres permettent isolation des problèmes par zone
- Données temps réel pour juillet 2022
Point clé : Un bon dashboard transforme des millions de lignes en décisions actionnables.
Résultats clés & insights
Constat 1 : Identification des dysfonctionnements
9 arrondissements présentent des retours Vélib impossibles, avec bornes de paiement également indisponibles.
Parmi ces 9 arrondissements :
- 3 ne fonctionnent pas du tout : Argenteuil, Issy-les-Moulineaux, Rueil-Malmaison
- 6 restants partiellement opérationnels avec retour rendu impossible
Constat 2 : Distribution géographique des ressources
Sur les 6 arrondissements où retour Vélib est impossible mais station fonctionnelle :
- 64 stations totales sont présentes
- 59 stations situées à Paris (92% du total)
- Distribution déséquilibrée : hyperconcentration sur Paris-centre
Constat 3 : Disponibilité réelle vs capacité
Sur les 679 vélos disponibles dans ces 6 arrondissements :
- Paris concentre 637 vélos (94% du total)
- Autres arrondissements : parts minimes (5-10 vélos chacun)
- Composition : Vélos mécaniques dominants, électriques minoritaires
Constat 4 : Parc total juillet 2022
Au total en juillet 2022 :
- 15 000 vélos répartis sur 1 400 stations
- Paris domine sur 3 dimensions : capacité de stations, nombre de stations, volume de vélos
- Majorité des vélos : mécaniques
À retenir de cette section
- 9 arrondissements dysfonctionnels identifiés (retour impossible)
- 3 ne fonctionnent pas du tout durant la période
- 94% des vélos concentrés à Paris, déséquilibre massive
- Observations : rupture de stock localissée ou redistribution nécessaire
Point clé : Les données révèlent un mismatch offre/demande local qui nécessite une action urgente.
Recommandations & perspectives
Diagnostic
L'analyse de juillet 2022 met en lumière :
- Les inégalités de répartition : Paris monopolise ressources quand périphérie souffre de pénurie
- Les ruptures localisées : Certaines stations font face à demande > offre ou redistribution inefficace
- Les dysfonctionnements systémiques : 3 arrondissements complètement indisponibles = risque client & reputationnel
- Le mismatch capacité/disponibilité : Stations avec capacité élevée mais peu de vélo dispo
Pistes d'action immédiates
| Priorité | Action | Impact attendu |
|---|---|---|
| P0 | Redéployer vélos depuis Paris vers banlieue | Réduire ruptures locales de -60% |
| P0 | Fixer dysfonctionnements systémiques 3 arrondissements | Restaurer service complet |
| P1 | Augmenter fréquence redistribution (quotidienne vs hebdo) | Éviter accumulation demande |
| P1 | Analyser patterns demande (heures, jours, événements) | Ajuster prédiction redistribution |
| P2 | Diversifier types vélos par zone (électriques hors-Paris) | Attirer nouveaux segments usagers |
Pistes d'exploration futures
Pour approfondir cette analyse au-delà de juillet 2022 :
- Données clients : Croiser disponibilité stations avec profils utilisateurs (âge, sexe, fréquence) pour identifier qui souffre des ruptures
- Patterns temporels : Analyser heures de pointe, jours de la semaine, événements (vacances, grèves) pour prédire la demande
- Itinéraires : Tracer les trajets les plus fréquents pour comprendre le flux domicile-travail vs loisirs
- Capacité adaptée : Vérifier si capacité stations hors-Paris correspond vraiment à la demande locale
- Cause ruptures : Distinguer la vraie demande > offre vs problème redistribution logistique
À retenir de cette section
- 3 actions P0 pour corriger les dysfonctionnements immédiatement
- Redéploiement géographique prioritaire (Paris → banlieue)
- 5 pistes d'exploration pour amélioration long-terme
- Intégration données clients & tests A/B de redistribution = prochaine étape
Point clé : Les données identifient le problème. Les données + business logic définissent la solution.
Conclusion
Cette analyse de 6M+ lignes de données Vélib (juillet 2022) a permis d'identifier des dysfonctionnements critiques et des inégalités de répartition qui expliquent (probablement) une partie de l'insatisfaction clients.
Les insights clés :
- Concentration extrême à Paris (94% des vélos)
- Dysfonctionnements systémiques dans 3 arrondissements
- Mismatch offre/demande qui demande une action urgente
L'opportunité : Avec les données clients intégrées et les modèles prédictifs, il est possible d'optimiser la redistribution automatiquement et d'anticiper les ruptures 24h à l'avance.
Accès aux données & dashboards
- Dashboard public Tableau : Visualisation complète + filtres interactifs
- Données brutes : Disponibles sur demande (juillet 2022)
- Notebook d'analyse : Code Python de préparation disponible
Vous avez des questions sur cette approche ou souhaitez l'appliquer à vos données ?
Prendre contact
Projet d'analyse réalisé dans le cadre de la formation LePont Bootcamp (Data Analyst, juin-septembre 2022) en partenariat avec Vélib Métropole