Random Web Page

Retour à la Random Home Page

Ramdom Web Page est un site très simple, qui permet de surfer aléatoirement sur internet, de s'y promener, de flaner au fil des clics...

Comment ça marche

Le fonctionnement de ce site est très simple. Il utilise la fonction J'ai de la chance de Google. Cette fonction disponible en première page du moteur de recherche permet à partir d'un mot clé (d'une recherche quelconque) de rediriger l'internaute vers le site qui lui semble le plus pertinent. En gros, J'ai de la chance renvoie directement sur le premier site qui correspond à la recherche.

Le site Random Web Page choisi donc aléatoirement un mot clé de recherche parmi une base de mots (dans une langue donnée) et utilise google pour trouver la page la plus pertinente sur le sujet, dans la langue choisie par l'utilisateur.

Utiliser le lien avec le détail de la page principale permet de connaitre le mot qui a servi à la recherche. Mais ce n'est pas indispensable pour apprécier une balade numérique sur la toile.

Quelle base de mots clés le site utilise-t-il?

la base de données utilisée est la liste de mots français (ou étasunien pour la version anglaise) proposée par debian dans sa distribution GNU/Linux. Elle a initialement été téléchargée depuis ftp.ox.ac.uk, qui propose un large choix de listes de mots. Cette liste est sous licence GPL, et est donc librement utilisable. La version française contient 140 031 mots (dont des verbes conjugués), la version anglaise 96 274 mots, la version espagnole 86 061 mots, et la version allemande 160 086 mots.

Les mots français sont convertis en supprimant les accents. Tout d'abord, cela ne nuit pas à la recherche: google ne tient pas compte des accents dans ses recherches. Ensuite, la présence de ces accents peut nuire au fonctionnement du site: dans certains cas, les lettres accentuées sont remplacées par le caractère "?". Supprimer les accents permet donc de contourner ce problème.

Les recherches réalisées dans toutes les langues choisissent un mot aléatoirement dans tous les dictionnaires disponibles sur le site.

Mise en garde

Le fonctionnement de ce site fonctionnant sur la fonction J'ai de la chance de Google, il est impossible techniquement de restreindre les requêtes. Ainsi, tous les sites internet sont potentiellement accessibles via Random Web Page. Aussi bien les sites de musique que les sites de chasse ou pornographiques. Certaines pages peuvent donc choquer la sensibilité. L'auteur de Random Web Page ne peut en rien être tenu responsable.

Pourquoi un seul mot-clé?

Après quelques essais, je me suis dit qu'il serait plus intéressant d'utiliser plusieurs mots-clés dans la recherche au lieu d'un seul: cela augmenterais le nombre de sites potientiellement joignables. Mais cette idée n'est pas bonne. En effet, après l'avoir mise en pratique avec 3 puis 2 mots issus de la liste, je me suis rendu compte que peu de ces recherchse aboutissaient. Pour de nombreuses combinaisons, google n'a pas de site à proposer. Random Web Page n'aurait donc pu fonctionner parfaitement, car de nombreux clics auraient aboutis au message de google Essayez avec cette orthographe: .... C'est donc sur un choix de mot unique que se base l'algorithme utilisé.

Est-ce vraiment aléatoire?

Différents éléments viennent limiter l'aspect réellement aléatoire de ce site. Tout d'abord, une fonction informatique ne peut qu'être pseudo-aléatoire: en informatique, l'aléatoire n'existe pas. Mais on peut s'en contenter. Ensuite, ce site utilise une base de données dont la taille est très inférieure au nombre de pages d'internet: toutes les pages ne sont pas accessibles à partir de ce site (pour rappel, le dictionnaire français utilisé comporte environ 140 000 mots). Heureusement, on peut compter sur les mises à jour fréquentes de google pour espérer que les 140 000 sites associés à ces mots évoluent au cours du temps: on ne tombera donc pas toujours sur les mêmes sites. Il est d'ailleurs intéressant de remarquer que les sites que l'on visitera à partir de Random Home Page sont les sites les mieux classés pour une recherche donnée: les sites mal référencés, ou peu appréciés seront difficilement atteignables.

Licence: GPL

Ce site est réalisé à partir d'une base de données sous licence GPL. J'ai aussi choisi de placer son code source php sous la même licence (GPL donc). Le lien suivant permet de visualiser le code source du programme, et le répertoire des dictionnaires utilisés est le suivant. Vous trouverez la feuille de style CSS associée ici.

Idées d'améliorations (TODO)

J'aime bien l'aspect de la page principale du site, très simple. Mais on m'a fait part de plusieurs améliorations possibles, de variations à apporter à l'algorithme de choix de la page.

je pense donc réunir ces différentes améliorations dans une page supplémentaire.. Voici quelques unes de ces idées:

Après quelques discussions sur un journal de linuxfr.org, voici quelques améliorations à envisager:

Améliorations réalisées depuis la première version:

Voici les quelques améliorations déjà réalisées depuis la première version:

Site valide XHTML et CSS
Conception: Jm Trivial - Code source - Dernière modification: 10 juillet 2005