Data Mining in the Cloud

Ahhh the Cloud. Cela fait quelques mois que toute la communauté s’agite autour Windows Cloud, de SQL Data Services. Et voila que la team Data Mining MS de l’ami Jamie (McLennan) publie un outil (en fait deux outils, un web et un lourd) de Data Mining in the Cloud. Une occasion de rappeller (ou d’expliquer) en quoi cela consiste, ce que cela apporte, et pourquoi c’est génial (ça c’est mon point de vue on ne peut plus subjectif :))


Nuages???

Oui des nuages, en fait un nuage, celui que vous avez peut être dessiné à l’école ou à la fac, et qui est une représentation du Web. On parle de « Cloud computing » car on entre dans la catégorie des architectures massivement orientées services. L’idée est la suivante: fournir via d’énormes datacenters tous les services (calcul, stockage, authentification…) dont une application pourrait avoir besoin. Voire même un OS (d’ou Windows Cloud, qui serait un OS entièrement distribué).

SQL Data Services

SQL DS est un bon exemple d’implémentation de ce paradigme: on fournit à l’utilisateur la possibilité de stocker ses données dans une ferme et d’y accéder via SOAP ou REST, un peu à la manière d’un Amazon SimpleDB. Le stockage est robuste et convient parfaitement à une TPE par exemple, bien sur dans le cas d’applicatifs ne nécessitant pas de temps de réponse « fixes » (oh aléas du web….).

Data Mining in the Cloud

…que l’on aurait pu appeller « Data Mining Services »: vous aurez compris, il s’agit d’une implémentation de logique SaaS pour du Data Mining: on fournit des méthodes d’envoi de données dans « the Cloud » (donc un Web Service) soit via CSV soit via SQL DS. Puis des méthodes d’analyses sont proposées, inspirées de celles de l’addin Excel 2007. Les calculs sont effectués par le (ou les on s’en moque ;)) serveur(s) AS situés dans les nuages, et le résultat revient en SOAP.

Pourquoi c’est génial dans ce cas?

Parce que le processus d’apprentissage en Data Mining est exigeant en termes de ressources, autrement formulé le temps d’apprentissage d’un modèle dépasse très souvent (et ce très largement) le temps de transfert d’une requête via le web. Utiliser des serveurs distants très puissants pour générer les modèles fait donc totalement sens, puisque l’on est pas dans une configuration ou un service « local » donnera des résultats immédiats.

De plus investir dans un serveur puissant pour raccourcir des temps de process qui ne représenteront guère que 5% de son temps d’utilisation peut être difficilement justifiable dans un organisme.

En attendant, rendez vous sur http://www.sqlserverdatamining.com/cloud/ pour utiliser l’application web ou installer l’addin. Encore félicitations à l’équipe MS.

Quant à moi je vous donne rendez vous à priori en février quelque part dans l’ouest parisien, en espérant pouvoir vous parler un peu plus de ce nuage là!

A bientôt!

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s