Random Thoughts by Fabien Penso

Indexation de buzz

(note: message envoyé d’abord sur LinuxFr)

J’ai envie de prototypes rapidement un système pour me permettre de suivre les tendances et les buzz. Je m’explique.

J’ai passé quelques heures ce week-end sur des sites par exemple sur celui là ou en gros on peut voir une personne en vidéo vous expliquer ce qu’est un geek, que pour être efficace il faut faire une réunion tous les soirs, et que pour se sécher après la douche il faut une serviette…

Il y a toujours les mêmes d’un microcosme Parisien qui font les mêmes soirées (en général à la Cantine) en ayant l’impression d’avoir inventé le monde (hier soir à une soirée DreamApero que je ne conseille à personne, un mec m’a parlé de son innovation de cartes de visite vidéo super à destination du B2B et dont une version est visible à http://itsmecard.com/berndhofstoetter). Je voudrais pouvoir suivre ces personnes et les cartographier pour voir que ce sont toujours les mêmes qui parlent de leur potes mais qu’au final rien n’en ressort.

Donc j’ai l’idée de faire un crawler de site qui irait prendre 10 ou 20 blogs connus en France (techcrunch) plus les blogs de quelques zigotos, de suivre les liens à +2 (ça ferait déjà beaucoup de pages) et d’indexer toutes les occurrences des mots, en notant le moment ou ils sont apparus.

Ensuite je pourrais faire des schémas qui indiquent jour après jour les tendances et les termes qui reviennent, pour retomber très rapidement ensuite éventuellement, et noter les sources ou ont été vu les termes et faire des bulles en fonction de leur origine. Je pourrais voir par exemple que le terme “DreamApero” a été évoqué sur les X blogs habituels mais pas ailleurs.

Je dis une connerie, vous avez des idées pour faire quelque chose d’efficace dans le genre ?