Les émanations du Web peuvent-elles être des outils de prédiction ?

par Pierre MECHENTEL
lundi 26 février 2007

Tout le monde connaît plus ou moins la théorie des marchés qui dit qu’en observant attentivement les mouvements de valeurs, on peut prédire ce qui va arriver. Bien entendu, le présent et le futur proche sont des conséquences du passé et du passé proche mais l’idée est ici aussi que, quand les informations qui vont changer la situation arrivent à la connaissance de certains acteurs du marché, ceux-ci vont avoir un comportement (maximisant leurs intérêts) qui, s’il est lisible, va permettre de connaître la suite des évènements. Avant l’annonce des résultats financiers d’une société, le nombre de titres échangés, l’évolution minute par minute du titre peuvent indiquer ce qui va se passer. Juste avant le départ d’une course de chevaux, les changements des cotes indiquent souvent de façon précise les chances réelles des chevaux. Il y a quelques années, le Pentagone avait même imaginé créer une sorte de salle des marchés de paris sur les évènements terroristes. En pariant sur le fait que les gens impliqués ou ayant connaissance d’évènements à venir deviendraient acteurs de ce marché, le Pentagone espérait, en surveillant les évolutions de ce marché, pouvoir déterminer de manière exacte le risque à venir d’attentats ou d’actions terroristes. Le projet a ensuite été abandonné car jugé trop manichéen par une partie des sénateurs. Via les blogs et le RSS, il est devenu ces derniers temps beaucoup plus facile de tracer l’activité et les émanations du Web. Celui-ci peut-il donc permettre de “prédire” ce qui va se passer dans le réel ?

Les modes de recherche sur le Web ont aussi subi une évolution majeure puisqu’on ne cherche plus uniquement par “pertinence- popularité” (la pertinence d’uns expression étant déterminée par des algorythmes secrets qui prennent en compte principalement la fréquence de mise à jour de la source, la présence “quantitative” de l’expression ) et surtout le nombre de liens pointant vers elle (censé déterminer la reconnaissance par les autres de la source, sa popularité), mais aussi chronologiquement.
La recherche chronologique sous-entend deux idées qui définissent de manière différente la pertinence et qui sont :

Ceci peut paraître simpliste mais dans le Web actuel où les “bonnes” sources (donc les sources qui sont “sérieuses”, sources non fantaisistes de type “script kiddies”) ont les moyens (le contenu à publier est devenu plus important que les moyens financiers et techniques puisque le coût technique de publication a énormément baissé) d’être souvent mises à jour et le sont de plus en plus, ces critères sont assez justes.

Par ailleurs, le nombre de pages Web et de “publishers” a augmenté énormémement (- + de 100 millions de sites internet dans le monde- Voir “Blogs et Entreprises” paragraphe 2.5.6 Users et Publishers, de moins en moins de différences) et on peut considérer que la masse d’informations peut être représentative de la réalité (ce qui pose entre autres, nous y reviendrons dans quelque temps, la légitimité des outils classiques de mesure de l’audience de la télévision par exemple...).
Il en résulte qu’une observation de la “volumétrie d’apparition” d’un sujet peut, peut-être (si les bases de représentativité et de pertinence sont vérifiées) annoncer, comme un marché financier, ce qui va se passer dans la réalité.

Ici Arnaud FISCHER a récupéré des informations intéressantes et tenté d’établir une corrélation entre le buzz sur Internet et les résultats des Oscars.

C’est une expérience très intéressante qui pourrait être répétée sur d’autres sujets !

Ailleurs, certains bruits circulent à propos de groupes d’investisseurs, bien organisés, qui tenteraient d’influencer et de manipuler les cours de bourse via les rumeurs du Web. L’idée est assez simple. Ils seraient divisés en 3 groupes A, B et C. A prendrait position sur des actions sans gros volume de transactions. B répandrait ensuite des rumeurs via des forums et des blogs afin de déclencher des mouvements favorables aux positions prises par A. C serait au repos pour éviter de se faire repérer. Une fois le mouvement déclenché, A liquide ses positions et passe au repos. B prend de nouvelles positions et C active le buzz, etc..

Si ceci était vrai, cela voudrait dire qu’au-delà même de l’idée que les émanations du Web reflètent de manière assez fidèle ce qui se passe dans la réalité, celle-ci peut être “influencée” par le Web.. donc que la boucle est bouclée.

Avec Presidentielle-2007.com, nous essayons de voir de qui on parle le plus sur le Web (via deux sources, Technorati et Google). La question des expressions et mots à tracer est essentielle car il faut éviter les synonymes ou les emplois “contre-productifs”, prendre en compte parfois les fautes d’orthographe... sans compter les splogs (mais l’existence de ceux-ci sur un sujet ne sont-ils pas un fait à prendre en compte, ne serait-ce qu’avec un coefficient différent ?).

Par ailleurs, le fait que beaucoup de flux RSS soient “coupés” et de manières différentes fait que le traitement des “sources” n’est pas homogène..

Sur un des sujets les plus actifs du Web français actuellement, les élections présidentielles, il est intéressant de voir ce que donnent les “charts” de Technorati.

Nous avons récupéré les graphes 30 jours et 90 jours pour les expressions "Nicolas Sarkozy" et "Ségolène Royal".

Quelles conclusions et questions en tirer ? (les expressions cherchées ont été “Ségolène Royal” et “Nicolas Sarkozy”, donc ne sont pas considérées les expressions “sarko”, “ségo”, “sarko2007”, etc.. les accents pour Ségolène ont été pris en compte)

Bien entendu, cela reflète uniquement le bruit ou “buzz” :

L’avenir pourra nous fournir des informations précieuses sur une possible corrélation

Dans tous les cas, si certains d’entre vous ont des idées et du temps pour essayer d’approfondir cette question, nous sommes preneurs et volontaires !


Lire l'article complet, et les commentaires