Tests incrémentaux : prouver l’impact du drive-to-store
Le drive-to-store ne se démontre plus avec des visites attribuées, mais avec un contrefactuel crédible
Le Drive-to-Store, ensemble des stratégies visant à générer du trafic qualifié vers un point de vente physique, est entré dans une phase de maturité où les indicateurs déclaratifs ou probabilistes ne suffisent plus. Pendant longtemps, les campagnes locales ont été pilotées avec des métriques intermédiaires : impressions géolocalisées, clics, demandes d’itinéraire, coupons activés, visites estimées, taux d’exposition autour des magasins. Ces signaux restent utiles pour comprendre le parcours, mais ils ne prouvent pas l’impact commercial. La question centrale des directions marketing, retail et finance est désormais plus exigeante : quelle part des visites et des ventes en magasin n’aurait pas eu lieu sans la campagne ?
C’est précisément le rôle des tests incrémentaux. Un test incrémental consiste à comparer le comportement d’une population exposée à une campagne avec celui d’une population comparable non exposée, afin d’estimer l’effet additionnel du levier. Il ne cherche pas seulement à attribuer une vente à un contact marketing ; il cherche à isoler une causalité. Cette nuance est essentielle. Une campagne peut apparaître performante parce qu’elle touche des clients déjà intentionnistes, proches du magasin ou habitués à acheter pendant les temps forts commerciaux. Dans ce cas, le reporting attribué valorise le média, mais l’effet réel peut être faible.
L’incrémentalité repose sur une idée simple et difficile à exécuter : construire un contrefactuel. Le contrefactuel désigne ce qui se serait passé en l’absence de campagne. Comme il n’est jamais directement observable, il doit être estimé par une méthode expérimentale ou statistique. Pour un annonceur omnicanal, cette estimation conditionne des arbitrages majeurs : faut-il augmenter la pression mobile autour des magasins ? Faut-il privilégier SMS, push, display programmatique ou social local ? Faut-il cibler les clients fidèles, les dormants, les prospects géolocalisés ou les zones sous-fréquentées ? Faut-il optimiser au coût par visite, au ROAS ou à la marge incrémentale ?
Le ROAS, return on ad spend, ratio entre chiffre d’affaires attribué ou incrémental et dépenses marketing, devient réellement décisionnel lorsqu’il est calculé sur une base causale. Un ROAS attribué de 8 peut masquer un ROAS incrémental de 1,5 si l’essentiel des acheteurs exposés aurait acheté de toute façon. À l’inverse, une campagne moins spectaculaire en volume peut créer plus de valeur si elle modifie réellement le comportement d’audiences sous-activées. Pour les professionnels du marketing mobile, l’enjeu n’est donc pas de produire un reporting plus sophistiqué, mais d’installer une discipline de preuve.
Pourquoi l’attribution surestime souvent l’impact réel des campagnes locales
L’attribution, méthode qui assigne une conversion à un ou plusieurs points de contact marketing, est indispensable pour suivre les parcours. Mais elle ne répond pas à elle seule à une question causale. Le last click, modèle attribuant toute la conversion au dernier point de contact, peut sous-estimer les expositions amont et survaloriser les canaux de clôture. Les modèles multi-touch répartissent mieux la valeur entre les contacts, mais ils restent souvent corrélatifs : ils observent des séquences, sans prouver que la campagne a changé le comportement.
Dans le Drive-to-Store, le biais est amplifié par la proximité. Un utilisateur exposé à une publicité mobile dans un rayon de 800 mètres autour d’un magasin a déjà une probabilité de visite plus élevée qu’un utilisateur situé à 8 kilomètres. Si la campagne cible prioritairement les personnes proches, actives, intentionnistes ou déjà clientes, le taux de visite post-exposition sera naturellement supérieur. Sans groupe de contrôle, on confond alors propension préexistante et effet marketing.
Le même problème existe avec les coupons. Un coupon scanné en caisse constitue un signal de conversion fort, mais il ne prouve pas que la campagne a généré la visite. Certains clients auraient acheté sans remise et utilisent simplement l’avantage disponible. D’autres viennent grâce au message mais achètent sans scanner le coupon. Le coupon mesure donc une partie du parcours, pas l’impact total. Il peut surestimer l’effet sur les clients opportunistes et sous-estimer l’effet sur les visiteurs influencés mais non identifiés.
Les visites estimées par géolocalisation posent une autre difficulté. Les panels mobiles, signaux GPS consentis ou données issues d’applications partenaires peuvent aider à mesurer des visites, mais leur représentativité varie selon les devices, les permissions, la densité urbaine et la capacité à distinguer un magasin d’un lieu voisin. Une visite observée n’est pas toujours une visite causée. Elle doit être rapprochée d’un groupe témoin, d’un historique et, idéalement, de données transactionnelles.
Le funnel, parcours allant de l’exposition à la considération, puis à la conversion et à la fidélisation, doit donc être relu étape par étape. Une campagne locale peut produire de l’attention sans visite, de la visite sans achat, ou de l’achat sans marge additionnelle. Elle peut aussi améliorer la réactivation à 30 jours sans effet immédiat majeur. Le test incrémental permet de replacer ces signaux dans une hiérarchie : exposition, intention locale, visite, passage caisse, marge, réachat. C’est cette lecture qui évite de piloter le Drive-to-Store au volume apparent.
Choisir le bon design expérimental : holdout individuel, split géographique ou test par magasins
Le premier arbitrage méthodologique porte sur le design du test. Il n’existe pas une seule méthode universelle. Le choix dépend du canal activé, du niveau d’identification client, de la taille d’audience, du nombre de magasins, de la pression média et du niveau de preuve recherché.
Le design le plus robuste, lorsque le canal le permet, est le holdout individuel. Un holdout est un groupe témoin volontairement exclu de la campagne. Sur une base CRM, customer relationship management, ensemble des méthodes et outils permettant de gérer la relation client à partir de données, de scénarios et de points de contact, l’annonceur peut randomiser les clients éligibles : par exemple 90 % exposés et 10 % non exposés. Si les deux groupes sont comparables avant campagne, l’écart de visites ou d’achats après campagne mesure l’uplift, c’est-à-dire le gain incrémental.
Exemple : une enseigne de sport dispose de 600 000 clients opt-in mobile. Elle cible 540 000 clients par SMS et conserve 60 000 clients en holdout. Le groupe exposé affiche un taux d’achat magasin de 7,4 % sur sept jours ; le groupe témoin, 6,6 %. L’uplift est de 0,8 point. Sur 540 000 clients exposés, cela représente 4 320 achats incrémentaux. Si le panier moyen incrémental est de 48 euros, les ventes incrémentales atteignent 207 360 euros. Si la campagne coûte 32 000 euros, le ROAS incrémental est de 6,48 avant prise en compte de la marge. Si la marge brute moyenne est de 38 %, la marge incrémentale est de 78 797 euros, soit 2,46 fois le coût média et opérationnel.
Ce design est particulièrement adapté aux canaux adressés : SMS, RCS, push, email, audiences CRM activées en média, coupons personnalisés ou notifications applicatives. Il devient plus complexe en publicité programmatique ouverte, car l’exposition dépend des enchères, du matching, du capping et de la disponibilité d’inventaire. Dans ce cas, on peut recourir à un test géographique.
Le test géographique compare des zones exposées et des zones témoins. Une zone peut être définie par un magasin, une aire de chalandise, un code postal, une ville, un isochrone ou un cluster de points de vente. L’objectif est de mesurer si les zones activées surperforment les zones non activées après neutralisation des différences historiques. Ce design est utile pour les campagnes achetées via une DSP, demand-side platform, plateforme permettant aux annonceurs d’acheter automatiquement des impressions publicitaires. Dans un environnement RTB, real-time bidding, mécanisme d’enchères en temps réel pour acheter une impression disponible, il permet d’évaluer l’effet agrégé d’une pression média locale.
Le test par magasins est une variante opérationnelle : certains magasins sont activés, d’autres servent de contrôle. Il est pertinent lorsque l’objectif est de soutenir des points de vente sous-performants ou de tester une mécanique locale. Mais il exige une sélection rigoureuse. Deux magasins comparés doivent avoir des historiques proches : chiffre d’affaires, saisonnalité, surface, concurrence, zone de chalandise, météo, calendrier promotionnel, profil clientèle, niveau de stock. Sans appariement solide, l’écart de performance peut refléter une différence structurelle plutôt qu’un effet campagne.
Définir la métrique cible avant le test : visite, vente, marge ou valeur client
Un test incrémental mal cadré échoue souvent avant son lancement, parce que l’organisation ne s’accorde pas sur la variable à mesurer. Dans le Drive-to-Store, l’impact peut être défini à plusieurs niveaux : visite incrémentale, achat incrémental, chiffre d’affaires incrémental, marge incrémentale, nouveaux clients, réactivation, fréquence de retour ou LTV, lifetime value, valeur économique attendue d’un client sur toute la durée de relation. Chaque métrique répond à une décision différente.
Le coût par visite incrémentale est utile pour comparer des activations locales dont l’objectif principal est le trafic. Mais il peut être trompeur si les visites ne convertissent pas ou si elles concentrent des clients peu rentables. Le CPA, cost per acquisition, coût nécessaire pour générer une conversion attribuée ou incrémentale, doit donc être précisé : parle-t-on d’un coupon activé, d’une visite mesurée, d’un achat identifié, d’un nouveau client ou d’un achat additionnel ? Un CPA visite de 4 euros peut être excellent dans l’ameublement si le panier moyen dépasse 400 euros, mais insuffisant dans une catégorie à faible marge si le taux de conversion magasin est faible.
Le chiffre d’affaires incrémental est plus proche de la valeur business, mais il peut encore être insuffisant. Une campagne fondée sur une remise de 30 % peut générer du volume tout en dégradant la contribution. La marge incrémentale devient alors le vrai indicateur d’arbitrage. Elle doit intégrer le mix produit, le coût de la remise, le coût média, les coûts de production, les éventuels coûts de plateforme et, lorsque c’est possible, les coûts opérationnels en magasin. Un drive-to-store performant en trafic mais destructeur de marge peut rester justifié pour du déstockage, mais pas pour une stratégie récurrente d’acquisition.
La valeur client élargit encore la lecture. Une campagne de réactivation peut ne pas être profitable sur sept jours, mais devenir intéressante si les clients réactivés rachètent dans les 60 ou 90 jours. À l’inverse, une opération très rentable à court terme peut attirer des opportunistes qui ne reviendront pas. Pour les enseignes disposant d’un programme de fidélité robuste, il est donc pertinent d’observer plusieurs fenêtres : J+7 pour l’effet immédiat, J+30 pour la conversion différée, J+90 pour le réachat. Cette temporalité doit être définie avant le test, pas ajustée après coup pour trouver un résultat favorable.
Le choix de la métrique influence aussi la taille d’échantillon nécessaire. Une visite est plus fréquente qu’un achat, et un achat plus fréquent qu’un réachat. Plus l’événement mesuré est rare, plus il faut une audience importante pour détecter un effet avec un niveau de confiance acceptable. Un test qui cherche à mesurer un uplift de 0,2 point sur un segment trop petit risque de conclure à tort que la campagne ne fonctionne pas, simplement faute de puissance statistique.
Assurer la validité statistique : randomisation, puissance, fenêtres et contamination
La qualité d’un test incrémental repose sur quatre piliers : la comparabilité des groupes, la puissance statistique, la bonne fenêtre d’observation et le contrôle des contaminations. La randomisation est la méthode la plus simple pour créer des groupes comparables. Elle consiste à répartir aléatoirement les individus éligibles entre exposés et témoins. Si elle est bien exécutée, les différences préexistantes se répartissent de manière équilibrée : récence d’achat, fréquence, montant, distance au magasin, statut fidélité, appétence promotionnelle.
Lorsque la randomisation individuelle n’est pas possible, il faut compenser par un appariement ou une méthode quasi expérimentale. La méthode difference-in-differences, ou différence de différences, compare l’évolution d’un groupe test et d’un groupe contrôle avant et après campagne. Si les deux groupes suivaient une tendance parallèle avant activation, l’écart de trajectoire après campagne peut être interprété comme un effet probable de la campagne. Cette approche est fréquente dans les tests géographiques, mais elle dépend fortement de la qualité des historiques et de la stabilité des tendances.
La puissance statistique est souvent négligée. Elle mesure la capacité d’un test à détecter un effet réel. Trois variables la déterminent : la taille de l’audience, le taux de conversion de base et l’effet minimal détectable. Si une enseigne observe habituellement 5 % d’achat sur une population donnée et souhaite détecter un uplift relatif de 5 %, soit 0,25 point, il faudra un volume important dans chaque groupe. À l’inverse, si l’effet attendu est de 1,5 point, le test peut être plus court ou plus petit. Les équipes marketing doivent donc formuler une hypothèse d’effet avant le lancement : quel uplift justifierait économiquement le dispositif ?
La fenêtre d’observation doit correspondre au cycle d’achat. Pour une offre restauration ou alimentaire, l’effet peut se lire en 24 à 72 heures. Pour l’équipement de la maison, l’automobile, l’optique ou certains services, le délai de décision peut atteindre plusieurs semaines. Une fenêtre trop courte sous-estime l’impact ; une fenêtre trop longue augmente le bruit et le risque d’attribuer à la campagne des ventes liées à d’autres facteurs. Une bonne pratique consiste à définir une fenêtre primaire et une fenêtre secondaire : par exemple J+7 pour le pilotage immédiat et J+30 pour la conversion différée.
La contamination est un autre risque majeur. Un groupe témoin CRM peut être non exposé au SMS testé, mais recevoir un email national, une publicité sociale, une promotion en magasin ou voir l’offre par bouche-à-oreille. En test géographique, un consommateur peut habiter dans une zone témoin mais travailler dans une zone exposée. En magasin, une opération nationale peut perturber les résultats locaux. Il ne s’agit pas toujours d’éliminer toute contamination, ce qui est rarement possible, mais de la documenter et de la réduire : exclusions média, calendriers synchronisés, zones suffisamment séparées, analyse de sensibilité, lecture des autres activations en parallèle.
Cas concret : quand une campagne très attribuée devient moyenne en incrémental
Prenons le cas d’une enseigne spécialisée disposant de 180 magasins et d’une base CRM de 1,2 million de clients. Elle lance une opération mobile autour d’un week-end commercial : SMS vers les clients opt-in, display programmatique géolocalisé autour des magasins, créations mettant en avant disponibilité locale et coupon valable trois jours. Budget total : 95 000 euros, incluant achat média, routage, création et frais techniques.
Le reporting attribué est flatteur. Sur sept jours, 58 000 visites magasin sont observées chez des clients exposés ou dans des zones activées. Les ventes rattachées aux audiences exposées atteignent 820 000 euros. Le ROAS attribué ressort à 8,63. Les clics sur landing locale affichent un CTR, click-through rate, taux de clic entre impressions délivrées et clics, de 1,1 % sur mobile display et de 7,8 % sur SMS. La direction commerciale voit une opération réussie.
L’analyse incrémentale nuance fortement ce diagnostic. Pour le SMS, 10 % de la population éligible a été conservée en holdout. Le groupe exposé affiche 8,9 % d’achat sur sept jours, contre 8,1 % pour le témoin. L’uplift est donc de 0,8 point. Pour 450 000 SMS envoyés, cela représente 3 600 achats incrémentaux. Avec un panier moyen de 52 euros, les ventes incrémentales SMS atteignent 187 200 euros. Le coût SMS complet étant de 28 000 euros, le ROAS incrémental du canal est de 6,69.
Pour le display programmatique, un test géographique compare 60 zones activées à 60 zones témoins appariées. Les zones exposées progressent de 5,4 % par rapport à leur historique ; les zones témoins progressent de 3,9 %, portées par la saisonnalité et la promotion nationale. L’effet net est donc de 1,5 %. Rapporté aux ventes de référence des zones test, l’uplift incrémental est estimé à 74 000 euros. Pour un coût média et technique de 67 000 euros, le ROAS incrémental display est de 1,10. En chiffre d’affaires, il reste positif ; en marge, avec une marge moyenne de 32 %, il ne couvre pas directement son coût.
Le résultat global devient plus lisible : le ROAS attribué de 8,63 masquait un ROAS incrémental combiné d’environ 2,75. Le SMS CRM est fortement contributeur, car il touche une audience adressable et intentionniste avec un coût maîtrisé. Le display local joue davantage un rôle de couverture et de soutien, mais son efficacité dépend fortement des zones, de la distance et des créations. L’arbitrage n’est pas de couper mécaniquement le display ; il est de le reconfigurer : réduire les rayons trop larges, exclure les magasins déjà saturés, concentrer la pression sur les zones sous-fréquentées, tester des créations orientées stock plutôt que remise, et mesurer à nouveau.
Ce cas illustre une règle importante : l’incrémentalité ne sert pas seulement à valider ou invalider une campagne. Elle sert à comprendre où la campagne modifie réellement les comportements. Une moyenne globale peut cacher des poches très rentables et des segments destructeurs de valeur. L’analyse doit donc descendre par audience, distance, magasin, format, moment, fréquence et offre.
Transformer les résultats en décisions : segmentation, capping et réallocation budgétaire
Un test incrémental n’a de valeur que s’il modifie les décisions futures. Trop d’organisations produisent des études d’uplift sans les réinjecter dans le media buying, le CRM ou la stratégie magasin. La première exploitation consiste à identifier les segments à fort effet marginal. Un client fidèle peut présenter un taux de conversion élevé après exposition, mais un faible uplift s’il aurait acheté de toute façon. Un client dormant peut convertir moins en absolu, mais générer un uplift supérieur. La segmentation RFM, récence, fréquence, montant, doit donc être complétée par une lecture de sensibilité à l’activation.
La distance au magasin doit également entrer dans l’optimisation. Les tests montrent souvent des courbes non linéaires. À très courte distance, l’intention organique est élevée : l’attribution peut être forte, mais l’incrémentalité modérée. À distance intermédiaire, la campagne peut réellement déclencher un déplacement si l’offre ou le service justifie l’effort. À longue distance, le volume d’exposition peut être important mais l’effet faible, sauf pour des catégories rares, des événements ou des paniers élevés. Le bon rayon de ciblage n’est donc pas seulement celui qui maximise le taux de visite ; c’est celui qui maximise la visite ou la marge incrémentale.
Le capping, limitation de la fréquence d’exposition ou de sollicitation sur une période donnée, doit lui aussi être piloté par l’incrémentalité. Une fréquence de trois impressions peut être suffisante pour générer l’essentiel de l’effet dans certaines zones ; au-delà, les impressions supplémentaires améliorent peu les ventes mais augmentent le coût. En CRM mobile, un deuxième SMS peut parfois accroître l’achat court terme, mais provoquer des désabonnements et dégrader la valeur relationnelle. Les tests doivent donc intégrer des cellules de fréquence : un contact, deux contacts, trois contacts, ou combinaison SMS plus display, afin de mesurer le rendement marginal.
L’incrémentalité peut aussi guider l’orchestration omnicanale. Un push applicatif peut être plus efficace pour les utilisateurs actifs de l’application, tandis qu’un SMS restera préférable pour les clients à forte valeur mais peu engagés sur l’app. Le display programmatique peut compléter la couverture sur les prospects ou réactiver des zones faiblement pénétrées. L’email peut préparer la considération en amont. L’enjeu n’est pas de désigner un canal gagnant universel, mais de définir le rôle de chaque canal dans le funnel local et de mesurer les combinaisons.
Enfin, les enseignements doivent être partagés avec les équipes retail. Si certains magasins répondent mieux aux campagnes, il faut distinguer l’effet média de l’effet opérationnel : disponibilité produit, qualité de l’accueil, lisibilité de l’offre en rayon, capacité de retrait, concurrence locale. Une campagne peut créer une intention que le magasin ne convertit pas. À l’inverse, un point de vente très performant peut amplifier un trafic additionnel modeste. Le test incrémental doit donc devenir un outil commun entre marketing, data, e-commerce, CRM et réseau physique.
Conclusion : installer une culture de preuve incrémentale, pas une étude ponctuelle
Prouver l’impact du Drive-to-Store suppose de dépasser le réflexe du reporting attribué. Les impressions, clics, coupons et visites estimées décrivent des signaux ; ils ne suffisent pas à mesurer une causalité. Les tests incrémentaux apportent le chaînon manquant : ils estiment ce que la campagne ajoute réellement par rapport à une situation sans activation. Pour des annonceurs retail, locaux et omnicanaux, cette preuve est indispensable pour arbitrer les budgets, maîtriser la pression commerciale et défendre la contribution du marketing au chiffre d’affaires magasin.
Une feuille de route opérationnelle peut se structurer en huit étapes. Premièrement, formuler l’hypothèse business : quel comportement la campagne doit-elle changer et quel uplift rend l’opération rentable ? Deuxièmement, choisir la métrique cible : visite, achat, chiffre d’affaires, marge, réactivation ou valeur client. Troisièmement, sélectionner le design adapté : holdout individuel pour les canaux adressés, test géographique pour les médias locaux, appariement magasins lorsque l’enjeu est réseau. Quatrièmement, vérifier la puissance statistique avant lancement. Cinquièmement, définir les fenêtres d’observation et les règles d’exclusion. Sixièmement, documenter les contaminations possibles et les activations concurrentes. Septièmement, analyser les résultats par segment, distance, fréquence, magasin, canal et offre. Huitièmement, réinjecter les enseignements dans les plans média, le CRM, le capping et l’exécution terrain.
La rigueur incrémentale ne signifie pas chercher une précision absolue. Aucun test local n’est parfaitement pur : les consommateurs circulent, les magasins diffèrent, les campagnes se superposent, les données de visite restent imparfaites. Mais une méthode explicite, répétée et documentée vaut mieux qu’un ROAS attribué pris comme vérité. Elle permet de réduire les biais, de hiérarchiser les leviers et d’apprendre campagne après campagne.
Le point critique est culturel. Un test incrémental peut révéler qu’une campagne très visible crée peu de valeur additionnelle, ou qu’un canal moins séduisant génère une contribution supérieure. Il peut montrer que certains segments performants en conversion sont faibles en uplift, ou que la marge contredit le chiffre d’affaires. Accepter ces résultats exige une maturité marketing et financière. C’est précisément ce qui transforme le Drive-to-Store d’un levier de trafic apparent en un système de croissance piloté par la preuve.