TL;DR

Lead Scraper Pro est un pipeline open-source Node.js qui automatise la prospection B2B : scraping multi-sources (PagesJaunes, Pappers, Google Maps, Instagram…), déduplication et enrichissement email en une seule commande.

Lead Scraper Pro v2.1 — Prospection commerciale B2B automatisée

Vous passez des heures à copier-coller des noms d’entreprises depuis PagesJaunes, Pappers ou Instagram ? Vous croisez les données à la main dans un tableur pour trouver les bons contacts ?

Lead Scraper Pro v2.1 automatise l’intégralité de ce travail — de la collecte brute jusqu’au fichier CSV enrichi, prêt à l’envoi.

Conçu pour la prospection commerciale locale et régionale, il cible les PME et commerces qui n’ont pas encore de présence digitale solide. Pipeline Node.js + Playwright, open-source MIT, publié sur GitHub : une commande, un CSV propre, prêt pour Mailchimp, Lemlist ou votre CRM.

La prospection B2B manuelle : un gouffre de temps

Trouver des prospects qualifiés reste l’un des travaux les plus chronophages pour une agence, un consultant ou une équipe commerciale. Entre les annuaires éparpillés, les informations incomplètes et la vérification des contacts, une liste de 200 entreprises peut prendre une journée entière à constituer.

Les solutions du marché coûtent cher — Hunter.io, Apollo, Kaspr — imposent des abonnements mensuels et restent des boîtes noires sur les sources utilisées. Lead Scraper Pro prend le contre-pied : 100 % transparent, 100 % contrôlable, 100 % gratuit.

Vous savez exactement d’où vient chaque donnée et comment elle a été enrichie.

Un pipeline en 4 étapes bien huilées

Lead Scraper Pro orchestre un workflow complet depuis la collecte brute jusqu’au fichier final exploitable. Chaque étape est indépendante — vous pouvez les rejouer séparément si besoin.

ÉtapeCommandeCe qui se passe
1. Scannpm run scan6 scrapers parallèles collectent les données brutes dans des CSV sources séparés
2. MergeautomatiqueConsolidation des sources, déduplication par nom + adresse, normalisation des formats
3. Enrichnpm run enrichPour chaque entreprise : Google → site web → Facebook — extraction des emails
4. Post-processautomatiqueInjection d’adresses contact@domaine.fr pour les sites sans email détecté

6 sources de données pour une couverture maximale

Chaque source apporte des données complémentaires. Ensemble, elles couvrent l’écrasante majorité des entreprises locales françaises — y compris celles qui n’apparaissent que sur une seule plateforme.

  • PagesJaunes — annuaire historique, catégories métier, téléphones
  • Pappers — données légales, SIRET, dirigeants, statut juridique
  • Google Maps — géolocalisation, avis, horaires, sites web officiels
  • Planity — salons, spas, instituts (secteur beauté / bien-être)
  • Cylex — annuaire B2B européen, contacts directs
  • Instagram — profils pros, bio avec email, présence social media

Les doublons sont éliminés automatiquement par nom + adresse normalisés. Les numéros de téléphone sont uniformisés au format international. Les catégories métier sont harmonisées entre toutes les sources.

Enrichissement en 3 passes — pour ne rater aucun contact

Avoir le nom de l’entreprise c’est bien. Avoir l’adresse email directe du responsable, c’est mieux. L’enrichisseur parcourt chaque entrée de votre liste avec une logique progressive :

  1. Recherche Google — requête automatique « nom entreprise + ville + contact » pour identifier le site officiel et les pages de contact indexées.
  2. Scraping du site web — visite des pages de contact, mentions légales et pied de page pour extraire les adresses email présentes dans le HTML.
  3. Vérification Facebook — pour les profils Instagram confirmés, récupération des infos complémentaires depuis la page Facebook associée.

Filtrage qualité intégré : les adresses noreply, les domaines blacklistés, les patterns placeholder et les emails de plus de 80 caractères sont automatiquement rejetés.
Entre chaque requête, une pause aléatoire (15–40 secondes) évite tout bannissement par les plateformes.

Cas d’usage concrets

Le fichier CSV de sortie est directement importable dans les outils que vous utilisez déjà :

  • Mailchimp / Brevo — import direct pour des campagnes email segmentées par secteur, ville ou profil
  • Lemlist / La Growth Machine — séquences cold email automatisées avec personnalisation par données enrichies
  • HubSpot / Pipedrive — alimentation directe de votre CRM avec des contacts qualifiés et sourcés
  • Google Sheets — analyse, filtrage manuel, scoring commercial dans votre tableur habituel
  • Prospection locale — identifier les commerces sans site web dans votre zone géographique

⭐ Open-source MIT — disponible sur GitHub

Lead Scraper Pro est publié en libre accès sur GitHub. Clonez le repo, configurez vos paramètres (ville, secteur, rayon) et lancez votre premier scan en quelques minutes.

👉 github.com/molokoloco/lead-scraper-pro

Utilisation responsable & conformité RGPD

Lead Scraper Pro est un outil de collecte de données publiques à des fins de prospection commerciale professionnelle légitime. Son utilisation engage la responsabilité de l’utilisateur.

  • Respectez le RGPD — toute prospection par email doit être conforme à la réglementation française sur les données personnelles (CNIL).
  • Respectez les CGU des plateformes scrappées (PagesJaunes, Google, Instagram…).
  • Cet outil est conçu pour une prospection B2B propre : approche personnalisée, valeur ajoutée réelle, opt-out respecté.

👉 Accéder au projet sur GitHub
 · 
Discuter de votre projet de prospection

Un post de...

Image de Julien Guézennec

Julien Guézennec

Développeur web full stack senior basé à Pantin (93), créateur du studio julienweb.fr. Expert en conception digitale depuis 1998, il accompagne entreprises, startups et indépendants dans la création de sites web sur-mesure, performants, responsives et orientés UX. Il maîtrise l'ensemble de la chaîne web : développement front et back-end, WordPress, SEO, accessibilité, design UI, datavisualisation, IA et web 3D.

Disponible à distance ou en présentiel (Paris / Île-de-France) Contact : julien.guezennec@gmail.com Page de profil : Julien Guézennec, c'est qui ?

Image de Julien Guézennec

Julien Guézennec

Développeur web full stack senior basé à Pantin (93), créateur du studio julienweb.fr. Expert en conception digitale depuis 1998, il accompagne entreprises, startups et indépendants dans la création de sites web sur-mesure, performants, responsives et orientés UX. Il maîtrise l'ensemble de la chaîne web : développement front et back-end, WordPress, SEO, accessibilité, design UI, datavisualisation, IA et web 3D.

Disponible à distance ou en présentiel (Paris / Île-de-France) Contact : julien.guezennec@gmail.com Page de profil : Julien Guézennec, c'est qui ?

Publications similaires...