Scraper site

Cet article ne cite pas suffisamment ses sources (juillet 2023).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Cet article est une ébauche concernant Internet.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Un scraper site (traduction littérale, site rebut) est un site Web qui ne contient aucune information utile pour un internaute.

Certains scraper sites copient le contenu d'un ou de plusieurs autres sites utilisant une technique appelée web scraping. Ces sites n'ont pas de valeur parce qu'ils contiennent des informations déjà disponibles sur d'autres sites. De plus, comme les scraper sites ne sont pas mis à jour lorsque les sites sources sont mis à jour, ils deviennent rapidement désuets.

D'autres scraper sites contiennent des mots choisis aléatoirement dans un dictionnaire auxquels sont ajoutés des mots fréquemment recherchés (comme sexe et nudité) et des publicités. Comme les publicités sont les seuls éléments compréhensibles de ces sites, les visiteurs ont parfois le réflexe de cliquer sur ces publicités, ce qui est l'objectif premier du propriétaire du site.

Le but du scraper site est d'attirer des internautes pour générer des revenus avec les publicités affichées sur le site. Les scraper site attirent les internautes en trompant les moteurs de recherche qui affichent des liens vers ces sites dans les résultats de recherche. Comme les scraper sites tentent de tromper les moteurs de recherche, ils sont considérés comme des référencements abusifs et les algorithmes des moteurs de recherche comme le PageRank de Google tentent d'identifier ces sites pour les éliminer des résultats des recherches (voir la mise à jour Penguin de Google).

Légalité

Les scraper sites qui copient des informations à partir d'un site dont le contenu n'est pas libre violent la propriété intellectuelle de ces sites.

Même les scraper sites qui copient des contenus libres violent souvent les conditions des licences de ces sites. Par exemple, la licence de documentation libre GNU spécifie que les republieurs doivent informer leurs lecteurs des conditions des licences d'utilisation des informations et doivent créditer les créateurs des informations. Les scraper sites remplissent rarement ces conditions.

Notes et références

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

v · m

Spam

Attaques par courriels

Canular informatique
Chaîne de lettres
Courrier électronique de masse
Attaque d'annuaire
Joe job
DNSBL
DNSWL
Spambot
Contrat rose
Législations sur les courriels indésirables par pays

Autres spams

Lutte anti-spam

Technique	DKIM DMARC ARC (en) Empoisonnement de liste Filtrage bayésien du spam Greylisting Messagerie électronique temporaire SPF
Service	33700 Mollom Network Abuse Clearinghouse Signal Spam Spam and Open Relay Blocking System SpamCop The Spamhaus Project
Logiciel	Amavis (en) Bogofilter J-chkmail MIMEDefang OutClock PersonalAntispam Rspamd SpamAssassin Spamd Spamihilator SpamPal

Référencement abusif

Fraudes par internet

v · m Optimisation pour les moteurs de recherche
Exclusion standards	Protocole d'exclusion des robots Élément meta nofollow
Search marketing	Search engine marketing Social media optimization Answer Engine Optimization Online identity management (en) Paid inclusion (en) Coût par clic Bombardement Google
Spam	Spamdexing Web scraping Scraper site Ferme de liens Netlinking
Linking	Lien retour Netlinking Échange de liens Organic linking (en)
Gens	Danny Sullivan (en) Matt Cutts Vanessa Fox (en) Barry Schwartz (en) Olivier Andrieu
Autre	Ciblage géographique PageRank Mot vide Poison words (en) Ferme de contenus