insideIT.fr : le blog des architectes IT de SFEIR

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 11 novembre 2010

Google Refine - Les dessous de l'outil pour manipuler des données

Google avait fait l'acquisition en juillet dernier de Metaweb, la société derrière le projet Freebase. Pour ceux qui ne connaissent pas Freebase, c'est un peu le wikipedia de la base de données : Des données tabulaires libres sur des sujets variés (Artistes, Films, Livres, etc.) enrichis et maintenus par la communauté. Metaweb avait également un outil opensource nommé "Freebase Gridworks" permettant de manipuler, corriger, transformer des données. Aujourd'hui Google annonce que Gridworks et renommé en Google Refine et passe en version 2.

3 vidéos de présentations sont proposés pour mieux comprendre comment fonctionne Refine. Elles sont visible ici. On y découvre les fonctionnalités principales de Refine qui sont : corriger les données (fusionner certains types, corriger les valeurs abérantes), transformer (par exemple : découper des chaines de caractères pour créer des nouvelles colonnes), enrichir (en appellant des webservices comme googlemap pour geolocaliser, freebase, ...)

Les sources du projet sont sur google code.

Le produit peut être exécuté sur sa machine. Un simple exécutable qui, une fois lancé, démarre un serveur web. Refine s'utilise donc ensuite depuis un simple navigateur web.

Un coup d'oeil rapide au code nous permet de voir quelques unes des technologies utilisées :

  • LessCss et Lessen : Un préprocesseur CSS très à la mode qui lui rajoute quelques élements très utiles comme les variables, l'imbrication, etc.
  • Jetty 6, qu'on ne présente plus
  • Smilie Butterfly Un framework web écrit en Java. Il a été créé par Stefano Mazzocchi, créateur de Apache Cocoon. Ce monsieur a aussi contribué à quelques JSR (JSR 53 - Servlet, 63 - JAXP, et 170 - Java Content Repository). Il travaillait chez Metaweb au moment du rachat et est donc maintenant chez google (oui encore un :-D ) et travaille sur Refine. Les particularités du framework sont : pensé pour créer des applis web modulaires ; bien qu'écrit en java, fait usage de javascript à la fois sur le client et sur le serveur via Rhino.

Sur le navigateur :

  • jquery avec les plugins jquery ui et event stack

Coté build et outils :

  • Ant
  • Des fichiers .projet, .gitignore qui trainent qui indique l'utilisation d'Eclipse et de Git
  • PMD
  • Launch4j en tant que task Ant pour la génération de l'exécutable

Je trouve Butterfly intéressant, on parle beaucoup du javascript coté serveur avec node.js depuis quelques temps. La frontière entre le client et le serveur est toujours difficile à franchir surtout lorsqu'on vient du monde java, malgré les progrès effectués ces dernières années (GWT, Wicket, ...) Node.js sera justement le sujet de mon prochain billet ! J'investiguerai peut être un peu plus Butterfly pour vous en reparler. A suivre donc...

Alexandre. Twitter : @alexandre_t

samedi 28 mars 2009

Chrome experiments, un sacré coup marketing

googleExperiments Google a trouvé un moyen très efficace d’imposer son navigateur. Un petit site très sympa proposant un tas de démos plus impressionnantes les unes que les autres et… nécessitant Chrome bien sûr. En effet elles reposent toutes ou presque sur le HTML 5 Canvas qui n’est pas supporté par tous les navigateurs avec la même fidélité.

Il s’agit ni plus ni moins d’une publicité comparative. Le site est là pour comparer les moteurs javascripts des différents navigateurs et c’est Chrome qui obtient les meilleurs résultats. Bien sûr, le site affiche son affinité. Mais force est de constater l’efficacité de la chose. Et puis c’est quand même plus drôle qu’une série de graphiques comparatifs.

Le site sort le même jour que le nouveau navigateur de Microsoft, IE8. La guerre est ouverte. Alors même qu’elle semble relancée entre Apple et Microsoft. Google tenterait-il d’en profiter ? Quand les arguments entre Mac et PC ne varient pas : “ils sont trop chers” contre “ils nous pillent”. Google apportera-t-il un peu de fraîcheur ? En tout cas on ne va plus savoir où donner de la tête.

Ces arguments semblent avant tout montrer que c’est la crise pour tout le monde. Quand il y avait de la place pour tous, les arguments étaient moins trash. Maintenant, on ne va pas bouder son plaisir, ces petites campagnes de pub comparatives à l’américaine sont assez drôles en général. C’est déjà ça.

On attend avec impatience le match MacOS/Windows 7. Alors, à quand l’OS Google sur PC ?

En tout cas de bons moments de rigolades en perspective (je parle du site bien sûr). Et à tester avec vos enfants bien sûr.

Le site à visiter absolument : http://www.chromeexperiments.com/