API SNCF Open Data : GTFS, Navitia et temps réel fiables

Pour qui API SNCF Open Data devient critique
Portail data.sncf.com, API SNCF et périmètre
GTFS, NeTEx, GTFS-RT et SIRI SX Lite
Gares, référentiels, lignes et arrêts
Horaires, temps réel et fraîcheur
Navitia, quotas et clés développeur
Mapping mobilité et décisions métier
Erreurs, retards, ruptures et mode dégradé
Plan d'action API SNCF Open Data
Exemple SNCF Open Data en production
Recette, seuils et rollback
Erreurs fréquentes API SNCF Open Data
Questions fréquentes API SNCF Open Data
Guides complémentaires SNCF Open Data
Conclusion: intégrer SNCF Open Data sans dette de run

Jérémy Chomel Cofondateur de Dawap, Jérémy est développeur DevOps spécialisé dans la conception d’API sur mesure et l’intégration marketplace. Passionné par les nouvelles technologies, il accompagne les marques dans la structuration de plateformes e-commerce robustes, scalables et orientées performance.

Le vrai problème API SNCF Open Data apparaît quand un service de mobilité, un outil territoire, une application voyageur, un entrepôt de données ou une équipe support doit exploiter des gares, arrêts, lignes, horaires, correspondances et perturbations sans savoir quelle fraîcheur fait foi.

Le risque concret se voit vite: reprise manuelle, charge support, écran voyageur trop confiant, carte incohérente, indicateur faux ou dette de run cachée derrière un import réussi. Le bon arbitrage consiste à distinguer le portail officiel data.sncf.com, les jeux open data, l'Explore API du portail et l'API SNCF qui utilise Navitia.

Cette distinction évite une confusion coûteuse: un fichier GTFS théorique, un flux GTFS-RT, une information SIRI SX Lite et une réponse Navitia ne portent pas la même promesse. Le premier structure le service prévu, le second signale un état dynamique, le troisième éclaire les perturbations, et le dernier répond à une demande applicative.

Vous allez comprendre comment décider quoi importer d'abord, quoi corriger, quoi différer, quel cache accepter, quand basculer en mode dégradé et comment conserver une preuve lisible lorsque l'information transport devient contestable. Notre accompagnement en intégration API aide à poser ce cadre sans bricolage.

Le sujet rejoint aussi la landing API services publics et Open Data et la page intégrateur SNCF Open Data, car la valeur ne vient pas d'un téléchargement isolé mais d'une donnée transport fiable, horodatée et reliée aux décisions métier.

Pour qui API SNCF Open Data devient critique

L'intégration devient prioritaire pour les plateformes MaaS, les collectivités, les calculateurs de trajets, les services d'information voyageur, les observatoires de mobilité, les équipes data, les directions support et les acteurs e-commerce qui veulent contextualiser une livraison, un rendez-vous ou un déplacement.

Le signal faible apparaît quand un arrêt change de libellé, quand une gare n'est plus rapprochée du bon territoire, quand un départ théorique reste affiché malgré une perturbation, ou quand un tableau de bord mélange des données téléchargées à deux dates différentes.

Dans ces situations, la bonne question n'est pas seulement technique. Il faut décider quel niveau de fraîcheur est acceptable, quel système fait foi, quel cache peut répondre, quelle alerte doit partir et quelle information doit rester visible pour le support lorsqu'un voyageur ou une équipe opérationnelle demande une explication.

1. Portail data.sncf.com, API SNCF et périmètre

Séparer portail open data et API applicative

Le portail data.sncf.com publie officiellement des jeux SNCF en open data, avec une logique de catalogue, de filtres, d'exports et d'API d'exploration. C'est le bon point de départ pour référencer les jeux, consulter leurs champs et industrialiser des extractions maîtrisées.

L'API SNCF exposée aux développeurs répond à une logique différente, car elle repose sur Navitia pour servir des besoins applicatifs comme l'itinéraire, les prochains départs, les arrêts, les lignes ou les informations voyageur. Elle doit être cadrée avec une clé, un quota et une politique de cache dédiée.

Cette séparation protège l'architecture. Un traitement analytique peut consommer un export open data planifié, tandis qu'une application temps réel doit interroger un service adapté, respecter les limites publiques et afficher une information datée lorsque la source tarde à répondre.

Décrire les objets transport sans les mélanger

Le contrat d'intégration doit nommer les objets avant le premier développement: gare, point d'arrêt, ligne, route, trajet, calendrier, horaire, desserte, zone, perturbation, départ, arrivée, identifiant source, date de publication et date de validité métier.

Une gare et un arrêt ne répondent pas toujours au même usage. Une gare peut porter une lecture commerciale ou territoriale, tandis qu'un point d'arrêt sert au calcul de parcours, à la correspondance ou à la restitution d'un prochain passage.

Le mapping doit donc conserver les identifiants d'origine, les libellés, la géométrie, les codes internes, la relation avec les lignes et les dates de fraîcheur. Sans cette granularité, une correction devient une enquête longue dans plusieurs fichiers ou plusieurs réponses API.

Faire du périmètre une décision de production

Un périmètre SNCF Open Data robuste ne promet pas tout immédiatement. Il liste d'abord les usages qui changent une décision: informer un voyageur, recalculer un horaire, enrichir un territoire, comparer une offre de mobilité ou déclencher une alerte support avant un incident visible.

Chaque usage doit recevoir une règle de fraîcheur et une règle de preuve. Si une information est affichée à un client, le système doit pouvoir dire à quelle heure elle a été récupérée, depuis quelle source et selon quelle version de mapping.

Cette discipline évite de transformer un flux open data en promesse excessive. Le connecteur peut commencer étroit, puis s'élargir lorsque les seuils, responsabilités, traces, retries, caches et runbooks tiennent déjà en conditions réelles.

2. GTFS, NeTEx, GTFS-RT et SIRI SX Lite

Lire GTFS comme un socle théorique

GTFS sert de socle pour décrire une offre théorique de transport: arrêts, lignes, trajets, horaires, calendriers et relations nécessaires à une lecture planifiée. Pour une équipe métier, c'est la base qui dit ce qui est normalement prévu.

L'intégration ne doit pas traiter GTFS comme une simple archive. Il faut versionner les imports, contrôler les dates de service, détecter les arrêts supprimés, comparer les volumes de lignes et documenter ce qui change entre deux publications.

Une règle de sécurité simple consiste à refuser l'import si plus de 5 % des arrêts critiques disparaissent sans ticket connu, car ce seuil peut casser une recherche, une carte, un calcul de distance ou une alerte opérationnelle.

Utiliser NeTEx pour les référentiels structurés

NeTEx apporte une lecture structurée des réseaux et des référentiels de transport, utile quand l'organisation veut conserver une modélisation plus riche que les tables GTFS classiques. Il aide à représenter les relations, les points et les composants d'un réseau de manière plus expressive.

Dans un projet d'intégration, NeTEx doit être cadré comme une source de référence, pas comme un format magique. Les équipes doivent choisir quels objets sont consommés, quels objets restent ignorés et quelles règles d'alignement relient NeTEx aux données déjà présentes dans le SI.

Le bon contrôle consiste à comparer les identifiants, les noms, les coordonnées, les dates et les relations critiques. Si le référentiel produit plus de 2 % d'écarts non qualifiés, la mise à jour doit passer en revue avant diffusion.

Traiter GTFS-RT et SIRI SX Lite comme des signaux

GTFS-RT et SIRI SX Lite relèvent d'une logique plus dynamique. Ils peuvent porter des mises à jour, des prochains passages, des modifications de service ou des informations de situation qui changent la restitution visible par l'utilisateur.

Cette donnée doit toujours être accompagnée d'un horodatage et d'une stratégie de cache. Un flux temps réel non daté peut devenir plus dangereux qu'une donnée absente, car l'interface paraît fiable alors que le système ne connaît plus sa fraîcheur.

Le run doit distinguer retard source, absence temporaire, rupture de format et information contradictoire. Une alerte à 15 minutes sans mise à jour, puis une bascule en mode dégradé à 30 minutes, donnent au support une consigne lisible.

3. Gares, référentiels, lignes et arrêts

Stabiliser les identifiants de gares

Les gares et points d'arrêt sont souvent le coeur du rapprochement. Un identifiant mal conservé peut casser la carte, la recherche, la statistique territoriale, le rattachement commercial ou la correspondance avec un autre référentiel mobilité.

L'intégration doit stocker l'identifiant source, un identifiant interne stable, les libellés, les coordonnées, le statut d'activité, la date de dernière observation et la raison d'un éventuel rejet. Ces champs forment la preuve de qualité.

En recette, un échantillon de 100 gares connues doit pouvoir être rapproché sans ambiguïté avec le SI cible. Si une gare critique change de clé ou de zone, la correction doit être tracée avant d'alimenter les écrans.

Raccorder lignes, trajets et calendriers

Les lignes et trajets ne peuvent pas être validés uniquement par leur libellé. Il faut relier service, calendrier, arrêt, direction, période de circulation et éventuelle information de perturbation pour comprendre ce qu'un utilisateur verra.

Le système doit savoir si une absence de trajet signifie une fin de service, une donnée non publiée, un mauvais filtre ou une anomalie d'import. Cette distinction change la réponse support et la stratégie de reprise.

Si le contrôle quotidien compare volumes, services actifs sur 7 jours et calendrier, alors le seuil de 3 % d'écart non expliqué devient une décision support à corriger en priorité, car le risque porte sur la qualité affichée.

Conserver la géographie utile au métier

La géographie ne sert pas seulement à afficher une carte. Elle permet de rattacher une gare à une commune, de mesurer une distance, d'identifier un corridor de mobilité, de contextualiser une livraison ou de prioriser une intervention locale.

Les coordonnées doivent être stockées avec leur source et leur date. Lorsqu'un autre référentiel territorial intervient, comme une commune ou une zone commerciale, le mapping doit préciser lequel tranche en cas de désaccord.

Le support gagne beaucoup lorsque chaque correction géographique conserve la valeur source, la valeur retenue et le motif. Une simple écriture écrasée rend presque impossible l'audit d'une erreur visible sur une carte.

4. Horaires, temps réel et fraîcheur

Afficher la différence entre prévu et observé

Une bonne intégration SNCF Open Data sépare l'horaire théorique, l'information actualisée et la décision affichée. Le métier doit comprendre si l'interface montre un plan prévu, une mise à jour récente ou un mode dégradé assumé.

Cette distinction doit apparaître dans les données internes, pas seulement dans le code frontend. Les champs `scheduled_at`, `observed_at`, `source_updated_at` et `displayed_status` peuvent éviter des litiges lorsque plusieurs systèmes lisent le même événement avec quelques minutes d'écart.

Une règle simple consiste à marquer comme suspecte toute information temps réel plus ancienne que 15 minutes sur un écran opérationnel. À 30 minutes, l'interface devrait mentionner un statut dégradé ou revenir à l'horaire théorique.

Dimensionner le cache selon le risque

Le cache d'un référentiel de gares peut durer plusieurs heures si un contrôle de publication existe. Le cache d'un prochain départ doit être beaucoup plus court, car une donnée périmée peut tromper immédiatement l'utilisateur.

L'erreur classique consiste à définir un seul TTL pour tout le connecteur. Une architecture robuste sépare au moins les référentiels stables, les horaires théoriques, les départs proches, les perturbations et les réponses Navitia interactives.

Les métriques doivent indiquer le taux de réponse cache, la fraîcheur moyenne, la fraîcheur maximale et le nombre de retours dégradés. Si le cache masque plus de 10 % de données obsolètes, la règle doit être revue avant l'élargissement.

Prévoir les retards de publication

Les données de mobilité vivent avec des retards, des corrections et des fenêtres de publication. Le connecteur doit accepter cette réalité sans confondre une source silencieuse avec un système sain ou une erreur bloquante.

Chaque import doit donc produire un rapport: nombre d'objets lus, nombre d'objets acceptés, rejets, changements majeurs, date source, durée de traitement, dernière version réussie et lien vers le journal de reprise.

Lorsque deux imports consécutifs échouent ou qu'un flux temps réel reste muet plus de 30 minutes sur un usage critique, l'alerte doit partir vers un owner nommé, avec une consigne support déjà écrite.

5. Navitia, quotas et clés développeur

Traiter Navitia comme un service applicatif

L'API SNCF destinée aux développeurs s'appuie sur Navitia, solution connue pour les calculs d'itinéraires, prochains départs, lignes, arrêts et informations de transport. Elle ne doit pas être confondue avec un simple export catalogue.

Une application qui interroge Navitia doit cadrer ses entrées et sorties: origine, destination, date, mode, correspondances, lignes, arrêts, temps de marche, alternatives, messages de perturbation, statut HTTP et réponse conservée pour diagnostic.

Le monitoring doit mesurer la disponibilité, les latences, la part de réponses vides, les erreurs de clé, les dépassements de quota et la fraîcheur des informations affichées. Ces indicateurs relient la technique au risque utilisateur.

Construire autour des quotas publics

La page développeur SNCF indique un accès gratuit avec clé, dans une limite annoncée à 150 000 requêtes par mois et 5 000 requêtes par jour. Ces chiffres doivent devenir des règles de conception, pas une note oubliée dans la documentation.

Une application publique doit estimer ses volumes avant lancement: recherches par utilisateur, rafraîchissements automatiques, écrans ouverts en continu, tâches nocturnes, tests de recette et reprises. Sans budget de requêtes, un pic banal peut couper le service au mauvais moment.

Les seuils de protection doivent être explicites: alerte à 70 % du quota quotidien, réduction de rafraîchissement à 85 %, blocage des recherches non prioritaires à 95 % et message fonctionnel si le service ne peut plus répondre correctement.

Sécuriser clés, environnements et responsabilités

Une clé API SNCF ou Navitia doit être isolée par environnement, stockée hors dépôt, rotative et rattachée à un owner technique. Les tests, recettes, scripts exploratoires et environnements de démonstration ne doivent pas consommer la même enveloppe que la production.

Le runbook doit expliquer qui renouvelle la clé, qui vérifie le quota, qui valide un changement de cache et qui prévient le métier en cas de dégradation. Sans responsabilités nommées, la première limite atteinte devient un incident collectif.

Un bon contrat mentionne input, output, responsabilités, owner, instrumentation, monitoring, rollback, seuils, journalisation et traçabilité. Il permet de rejouer un appel ou de réduire le périmètre sans perdre l'explication métier.

6. Mapping mobilité et décisions métier

Relier la donnée transport à une décision

Une donnée SNCF Open Data n'a pas la même valeur selon l'usage. Une gare enrichit une carte, un horaire alimente une promesse utilisateur, une perturbation déclenche une alerte, et un itinéraire peut influencer un choix de rendez-vous.

Le mapping doit donc partir des décisions, puis revenir aux champs nécessaires. Une équipe évite ainsi de stocker trop peu pour expliquer un incident, ou trop largement sans savoir quelles données méritent une surveillance forte.

Dans une architecture claire, chaque champ critique possède une source, un type, une règle de normalisation, un statut de fraîcheur, une règle de conflit et une trace de dernière modification.

Préserver la donnée source pour l'audit

La normalisation est indispensable, mais elle ne doit pas effacer la donnée source. Un support sérieux doit pouvoir relire la valeur reçue, la valeur retenue, la règle appliquée et la date de transformation.

Cette double lecture protège les équipes lorsque deux systèmes affichent un résultat différent. Elle permet de savoir si l'écart vient du flux SNCF, du cache, d'une règle interne, d'un import incomplet ou d'un affichage trop simplifié.

Si les journaux conservent 30 jours de traitements critiques par gare, ligne, trajet ou demande utilisateur, alors le support peut prioriser une correction avant que le coût de diagnostic ne dépasse le délai acceptable.

Définir les responsabilités de correction

Une anomalie transport peut venir d'une source externe, d'un mauvais mapping, d'une règle produit ou d'un cache trop long. Le run doit attribuer chaque famille d'écart à une responsabilité claire, sinon les équipes se renvoient la correction.

Le modèle de gouvernance peut distinguer owner data, owner produit, owner technique et référent support. Chaque rôle dispose d'un délai de réponse et d'une consigne de décision lorsqu'une gare, une ligne ou un horaire devient incohérent.

Un seuil utile consiste à ouvrir une revue hebdomadaire si plus de 20 corrections manuelles concernent le même objet ou la même règle. La répétition indique un problème de contrat plutôt qu'une simple exception.

7. Erreurs, retards, ruptures et mode dégradé

Qualifier les erreurs avant de rejouer

Une erreur API SNCF Open Data doit être qualifiée avant le retry. Il faut distinguer timeout, quota dépassé, clé refusée, réponse vide, format inattendu, objet introuvable, retard de publication et incohérence métier.

Le système peut alors choisir une décision adaptée: rejouer dans 5 minutes, attendre le prochain import, basculer sur le dernier cache sain, masquer une information trop ancienne ou envoyer une alerte au support.

Une queue protège le transport, mais elle ne remplace pas la décision métier. Les contrats doivent relier retry, idempotence, seuils, journalisation, traçabilité, monitoring et runbook pour éviter les boucles silencieuses.

Maintenir un mode dégradé compréhensible

Le mode dégradé doit être pensé avant la panne. Pour SNCF Open Data, il peut signifier afficher l'horaire théorique, signaler une fraîcheur insuffisante, désactiver un recalcul d'itinéraire ou limiter les rafraîchissements automatiques.

Le pire scénario consiste à afficher une information apparemment précise mais trop ancienne. Une interface responsable préfère dire que l'information est indisponible ou en attente de mise à jour lorsque la source ne permet plus de conclure.

La décision de dégradation doit être testée en recette, visible dans les logs et comprise par le support. À défaut, le système semble fonctionner pendant que la confiance utilisateur baisse silencieusement.

Documenter les ruptures de schéma

Les portails open data peuvent évoluer: champ renommé, type modifié, colonne absente, nouveau code, export différent ou volume inattendu. Une intégration sérieuse détecte ces écarts avant qu'ils ne polluent les écrans.

Le contrôle de schéma doit comparer chaque import avec une version attendue, signaler les champs critiques manquants et conserver un échantillon de payload. Cette preuve raccourcit le diagnostic lorsque l'incident vient de la source.

Un seuil de rupture doit bloquer l'import si une colonne utilisée par une décision métier disparaît. Le reste du flux peut continuer en lecture seule si le rollback a été préparé et validé.

8. Plan d'action API SNCF Open Data

Cadrer les usages et les sources

La première étape consiste à lister les décisions dépendantes de SNCF Open Data: afficher un départ, calculer un trajet, enrichir une gare, analyser une zone, suivre une perturbation ou produire un indicateur de mobilité.

La deuxième étape sépare les sources: portail data.sncf.com pour les jeux publiés, exports pour les traitements planifiés, Explore API pour les requêtes catalogue, API SNCF/Navitia pour les appels applicatifs et caches internes pour la continuité.

La troisième étape transforme chaque usage en contrat: input, output, identifiants, fraîcheur maximale, seuils de rejet, owner, journalisation, reprise, mode dégradé et preuve visible pour le support.

Construire un premier périmètre stable

Le premier lot doit être volontairement étroit. Un périmètre raisonnable peut couvrir les gares, les arrêts, les lignes, les horaires théoriques et une famille de perturbations, avant d'ajouter le calcul de trajet ou les prochains départs.

Cette approche limite le risque parce qu'elle permet de tester le mapping, les imports, les caches et les journaux sur des objets réels. Une base stable vaut mieux qu'une couverture large impossible à expliquer.

Pour valider ce lot, il faut choisir 50 gares, 10 lignes, 7 jours de calendrier, plusieurs cas de perturbation et une journée de charge représentative, avec un seuil d'acceptation qui indique quoi bloquer, quoi corriger et quoi valider.

Si ce premier périmètre tient pendant une semaine complète, alors l'équipe peut ajouter une source ou un écran sans perdre la maîtrise du risque support. Sinon, la priorité reste la correction du mapping et des preuves de fraîcheur.

Mesurer avant de généraliser

L'élargissement doit attendre des preuves: taux d'import réussi, fraîcheur maximale, taux de cache, erreurs par source, tickets support, corrections manuelles, quota consommé et nombre de réponses dégradées.

Des seuils rendent la décision nette: si moins de 1 % d'objets critiques restent en erreur, si 95 % des réponses tiennent le délai cible et si aucun quota n'est dépassé sur 14 jours, alors l'élargissement peut être validé.

Lorsque ces seuils ne tiennent pas, l'équipe doit corriger le contrat plutôt que multiplier les endpoints. Une nouvelle source ajoutée trop tôt augmente le bruit et rend plus difficile l'identification de la cause racine.

Préparer la passation support

La passation support doit arriver avant le lancement. Elle décrit les statuts affichés, les causes probables, les seuils de fraîcheur, les messages utilisateur, les coordonnées de l'owner et les captures utiles pour relire un incident.

Le support doit aussi savoir quand ne rien faire. Une donnée théorique affichée en mode dégradé peut être normale si le flux temps réel n'a pas répondu dans la fenêtre prévue et si l'interface l'indique clairement.

Cette passation réduit les reprises improvisées. Elle évite que chaque retard source se transforme en ticket technique, puis en correction manuelle, puis en dette récurrente dans le produit.

9. Exemple SNCF Open Data en production

Cas d'une application voyageur locale

Imaginons une application locale qui affiche les gares proches, les lignes disponibles, les horaires théoriques et un message lorsque l'information actualisée devient trop ancienne. Le besoin paraît simple, mais il traverse plusieurs sources.

Le portail open data alimente le référentiel de gares et d'arrêts chaque nuit. Les horaires théoriques sont importés selon la période de validité, tandis que les prochains départs ou informations dynamiques passent par une API applicative et un cache court.

Le produit affiche alors une donnée assumée: horaire prévu, actualisation récente ou mode dégradé. Le support peut relire l'origine, l'heure de collecte, le cache utilisé et la raison d'un message affiché.

Architecture de connecteur retenue

L'architecture sépare un middleware REST, un import référentiel, un service d'interrogation temps réel, un cache, une table d'audit, une table d'écarts et un dashboard d'observabilité. Chaque synchronisation possède ses seuils et ses responsables.

Les imports référentiels sont idempotents, versionnés et comparés au dernier état sain. Les appels interactifs utilisent une clé isolée, un budget de requêtes, un timeout court et une bascule vers le cache lorsque la source devient instable.

Les journaux enregistrent la source, la requête, la réponse résumée, la décision, le statut, le temps de réponse et la date de fraîcheur. Ces traces permettent de résoudre un litige sans rejouer toute la chaîne.

Résultat attendu côté métier

Le résultat attendu n'est pas une promesse de temps réel absolu. C'est une information lisible, datée, cohérente et explicable, même lorsque la source tarde, qu'un format change ou qu'un quota approche sa limite.

En exploitation, l'équipe peut vérifier chaque matin les imports terminés, les changements majeurs, les réponses dégradées, la consommation de quota et les gares en écart. Les problèmes sont donc visibles avant les retours utilisateurs.

Cette approche donne une valeur business claire: moins de tickets flous, des cartes plus fiables, des écrans plus honnêtes, des décisions de mobilité mieux contextualisées et une trajectoire d'élargissement maîtrisée.

10. Recette, seuils et rollback

Recetter les formats et les volumes

La recette doit couvrir les formats réellement utilisés: GTFS, NeTEx, GTFS-RT, SIRI SX Lite, exports catalogue et réponses Navitia si l'application interroge l'API SNCF. Chaque format reçoit des cas nominaux et des cas d'écart.

Les tests doivent vérifier le nombre d'objets, les identifiants, les champs obligatoires, les dates, les coordonnées, les volumes par ligne, les horaires sur 7 jours et les changements entre deux versions, avec seuil de blocage si le risque qualité touche un usage support.

Une recette sérieuse ne valide pas seulement le dernier import. Elle prouve que le connecteur sait refuser une rupture, conserver la version saine précédente et expliquer la décision dans un journal compréhensible.

Fixer des seuils exploitables

Les seuils doivent être compréhensibles par le métier. Par exemple, plus de 5 % d'arrêts critiques disparus bloque l'import, plus de 15 minutes sans actualisation signale une fraîcheur insuffisante, et plus de 30 minutes déclenche le mode dégradé.

Côté quota, une alerte à 70 % de consommation journalière permet d'agir avant la rupture. À 85 %, le système peut réduire les rafraîchissements, puis limiter les appels non essentiels à 95 %.

Côté support, plus de 20 corrections manuelles sur la même règle en 7 jours doit ouvrir une revue. Ce seuil indique que la procédure compense un défaut de mapping ou de contrat.

Préparer un rollback partiel

Le rollback ne consiste pas toujours à couper le connecteur. Il peut revenir au dernier référentiel sain, désactiver le temps réel, allonger un cache, masquer une information incertaine ou suspendre seulement une famille de lignes.

Cette granularité protège le service. Une carte peut rester disponible avec des horaires théoriques pendant qu'un flux dynamique est réparé, à condition que l'interface signale clairement le niveau de fraîcheur.

Le plan de rollback doit être testé avant lancement et relié à des seuils. Sans répétition, l'équipe découvrira le vrai comportement en production, au moment où la pression sera déjà forte.

Transmettre les preuves de traitement

Les preuves de traitement doivent être disponibles dans un dashboard ou une vue support: dernière collecte, source, statut, version importée, cache utilisé, quota consommé, objets rejetés, erreurs récentes et action recommandée.

Le support ne doit pas lire les logs bruts pour comprendre une situation courante. Il lui faut une traduction métier des statuts, avec des consignes simples pour informer un utilisateur ou escalader vers le bon owner.

Quand les preuves sont accessibles, une anomalie devient un processus maîtrisé. L'équipe sait si elle doit attendre, rejouer, bloquer, communiquer ou corriger une règle de mapping.

11. Erreurs fréquentes API SNCF Open Data

Confondre open data, API et temps réel

Utiliser un export open data comme s'il garantissait une information temps réel directement exploitable par une interface voyageur.
Interroger Navitia sans budget de requêtes, puis découvrir le quota quotidien au moment du premier pic utilisateur.
Mélanger gare, arrêt, ligne et trajet dans un seul identifiant interne, ce qui rend les reprises presque impossibles.
Afficher un horaire sans horodatage de collecte, alors que la fraîcheur conditionne la confiance utilisateur et support.
Importer un nouveau fichier GTFS sans comparer les volumes, les dates de service et les arrêts critiques disparus.

Ces erreurs sont fréquentes parce qu'elles ne bloquent pas toujours la démonstration initiale. Elles deviennent visibles plus tard, lorsque le produit doit répondre à des volumes réels, des perturbations réelles et des demandes support précises.

Le bon réflexe consiste à refuser une intégration qui ne peut pas expliquer sa source, sa fraîcheur, son niveau de confiance et sa décision de repli. Sans ces éléments, la donnée transport reste trop fragile pour porter une promesse utilisateur.

Contrairement à ce que l'on imagine, mieux vaut parfois afficher moins d'information, mais avec une fraîcheur assumée, que multiplier les champs transport et laisser le support défendre une précision impossible à prouver.

Sous-estimer les caches et les quotas

Un cache trop long donne une information périmée. Un cache trop court consomme le quota et augmente la latence. Le bon arbitrage dépend de l'usage, du volume, du risque support et du niveau de précision réellement attendu.

Les quotas doivent être visibles chaque jour, pas seulement lors d'un incident. Une courbe de consommation, une projection de fin de journée et des seuils d'alerte permettent d'éviter une coupure prévisible.

La supervision doit aussi distinguer un succès HTTP d'une réponse utile. Une réponse vide ou trop ancienne peut être techniquement valide, mais inutilisable pour une décision opérationnelle.

Oublier la gouvernance des corrections

Les corrections manuelles ne sont pas un échec si elles restent rares, tracées et attribuées. Elles deviennent une dette lorsque personne ne sait pourquoi elles reviennent, quelle règle les produit ou quand elles doivent disparaître.

Une gouvernance saine relie chaque correction à une famille d'écart, une cause probable, un owner, une date de revue et une décision d'amélioration. Le support n'est alors plus seul à absorber les ambiguïtés de données.

Lorsque le nombre d'écarts augmente, l'équipe doit ralentir l'élargissement du périmètre. Ajouter de nouvelles sources sur un socle instable ne fait qu'augmenter le bruit, les délais et la charge de reprise.

Questions fréquentes API SNCF Open Data

Que couvre SNCF Open Data pour une intégration API ? SNCF Open Data couvre le portail data.sncf.com, les jeux de données ferroviaires publiés en open data, les exports et l'Explore API du portail. Pour les itinéraires et certains services temps réel, l'API SNCF s'appuie aussi sur Navitia.

Quels formats faut-il cadrer côté mobilité ? Les formats à cadrer sont GTFS pour les horaires théoriques, NeTEx pour les référentiels de transport, GTFS-RT pour les mises à jour temps réel et SIRI SX Lite pour les informations de situation ou de perturbation.

Dawap peut-il industrialiser SNCF Open Data ? Oui. Dawap accompagne le mapping des gares, arrêts, lignes, horaires, perturbations, quotas, caches, preuves de fraîcheur, dashboards, runbooks et mécanismes de reprise liés aux API SNCF Open Data.

Guides complémentaires SNCF Open Data

L'intégration API Opendatasoft complète SNCF Open Data pour comprendre l'Explore API, les catalogues, les exports, les paramètres, les erreurs 429 et les contraintes d'exploitation d'un portail open data.

L'intégration API geo.gouv.fr aide à relier gares, arrêts et zones géographiques à des territoires administratifs, avec une attention particulière aux codes, coordonnées, contours et rapprochements cartographiques.

L'intégration API BAN Adresse complète les besoins de localisation lorsque le service doit rapprocher une gare, une adresse, un point de retrait ou une zone d'intervention avec un référentiel national.

La landing API services publics et Open Data permet de relier ce sujet aux autres sources publiques, tandis que la page intégrateur SNCF Open Data présente l'accompagnement Dawap autour des flux SNCF, des caches, des quotas, de la fraîcheur et de la supervision.

Conclusion: intégrer SNCF Open Data sans dette de run

Une intégration API SNCF Open Data réussie ne se mesure pas au premier appel qui répond. Elle se mesure à la capacité de distinguer open data, API applicative, horaires théoriques, temps réel, perturbations, cache et mode dégradé sans perdre l'explication donnée aux équipes.

Le socle gagnant reste très concret: identifiants stables, formats cadrés, quota suivi, fraîcheur visible, seuils écrits, imports idempotents, journaux exploitables, owner nommé, rollback testé et support capable de lire chaque statut sans dépendre d'un développeur.

Cette rigueur rend l'élargissement possible. Une fois le référentiel stable, l'équipe peut ajouter des usages Navitia, des dashboards territoriaux, des cartes enrichies, des alertes voyageurs ou des analyses mobilité sans déplacer la dette vers les reprises manuelles.

Si vous devez brancher SNCF Open Data dans une architecture métier robuste, notre accompagnement en intégration API peut cadrer le périmètre, construire les connecteurs, sécuriser les caches, surveiller les quotas et livrer un runbook utilisable dès la mise en production.