Par Philippe Julio | Big Data Solutions Specialist 

Alors que les analystes prévoient une volumétrie de données sur disques de 35 zétaoctets soient 1 milliard de To d’ici 2020 dans le monde, la question de leur exploitation et de leur compréhension se pose de plus en plus.
Pour répondre à ces problématiques, de nouveaux concepts se sont développés et notamment un en particulier : Big Data

Face à l'afflux de communications, d'informations, de provenances diverses et variées, il est sans doute utile de redéfinir le Big Data.
Ce  concept de Big Data a émergé en 2010 grâce en partie à  Gartner et  IDC. Il s’est d’abord développé aux Etats Unis, puis  est arrivé sur le marché Européen et la France en 2011
Il s'est depuis largement popularisé avec un véritable bouillonnement à prévoir en 2012 autour de solutions désormais parfaitement opérationnelles.

Le Big Data part du constat que beaucoup de valeur business est cachée dans de très nombreuses sources d’informations de l’entreprise: mails, images, fichiers audio, vidéo, textes, et qu’il est possible grâce aux nouvelles technologies de l’information de mettre rapidement ces sources en ligne à disposition des utilisateurs pour qu’ils puissent les analyser et prendre les bonnes décisions en fonction de la stratégie de leur entreprise.

Le Big data est communément défini selon trois axes:

  1. la volumétrie : une masse de données importante et/ou en forte croissance, généralement  de plus de 100 téraoctets allant jusqu’à plusieurs pétaoctets.                                                                                                                                                              
  2. la vélocité à laquelle les données doivent être interprétables : plus le temps de mise à disposition des données business auprès des utilisateurs est court, plus l’entreprise peut prendre rapidement des décisions et accroître ainsi son avantage compétitif                                                                                                                                                                                                                                  
  3. la variété : les données de l’entreprise s’étendent au-delà des données structurées intégrées dans les bases de données mais aussi vers les données non structurées de toutes variétés possibles: images, vidéo, audio, texte, etc.
Il s'agit concrètement d'être capable d'appliquer des algorithmes mathématiques et statistiques, permettant de structurer, corréler, modéliser des données en vue d'une exploitation permettant des prises de décisions rapides.
Les solutions Big Data s’appuient sur des suites logicielles performantes et des architectures dites “hyperscale“ (cluster en grille) totalement différentes des architectures n-tiers dites “traditionnelles“, faisant intervenir par exemple, un serveur de base de données connecté à baie stockage SAN. Les architectures “hyperscale“, contrairement aux architectures “traditionnelles“, n’ont pas de limitations physiques de scalabilité. Elles diminuent drastiquement la latence réseau en rapprochant les traitements des données, réduisant ainsi significativement les temps de traitement et d’accès aux données.

La philosophie est bien de rapprocher la capacité de stockage de la capacité de traitement afin d'améliorer la performance.

Les entreprises françaises réalisent les énormes avantages business qu’elles peuvent tirer de telles solutions. Dell l’a aussi compris, et propose des infrastructures basées sur sa gamme serveurs PowerEdge C classée n°1 des ventes dans la catégorie “HyperScale“ sur la région EMEA avec, sur le troisième trimestre 2011, un taux de 69,76% de parts de marché loin devant ses concurrents. Source “IDC: 2011Q3 hyper-scale category servers unit share in EMEA”.

Les solutions Big Data intègrent des logiciels de type systèmes de fichiers supportant de très hauts volumes de données nécessaires aux analyses prédictives et décisionnelles.

Dell propose deux systèmes Big Data interopérables pour analyser à la fois les données non structurées et structurées existantes dans l’entreprise :

La solution Dell Hadoop basée sur la suite analytique Apache Hadoop pour analyser les données structurées et non structurées. Cette suite logicielle gratuite fait partie intégrante de la communauté open source. Hadoop a été initialement développé par Yahoo, mais depuis adopté par une très large communauté  visible ici. Hadoop  est conçu sur un socle technique scalable et hautement disponible composé du file system HDFS et du logiciel de traitements MapReduce.
Le portfolio Hadoop ,au-dessus de ce socle technique, est très large, intègre entre autres, Hive le système d’interrogation batch SQL développé par Facebook, et HBase la base de données non relationnelle et distribuée conçue par Yahoo. Des outils d’analyse OLAP comme Microstrategy peuvent s’appuyer sur Hive et produire des tableaux de bords interactifs, ainsi que Informatica PowerExchange pour intégrer rapidement des données dans le système de fichier HDFS à partir des multiples sources existantes dans l’entreprise. Les solutions Dell Hadoop sont basées sur des architectures “hyperscale“ composées pour le “NameNode“ et les “DataNodes“ de serveurs PowerEdge C à forte capacité de stockage interne (plusieurs dizaines de To par nœud) et de processeurs Intel et AMD multi-cores hautement performants. Pour la partie administration Dell a développé le logiciel open source Crowbar pour Hadoop pour faciliter et accélérer les déploiements des “DataNodes“.

Les domaines d’applications pour Hadoop sont multiples parmi lesquels :  le marketing digital, la détection et la prévention des fraudes, l’analyse des corrélations, les données issues d'automates, l’analyse des images d’observation de la terre et de l’espace et plus globalement l’exploration et la découverte des données....


La solution Dell Parallel Data Warehouse (PWD) basée sur l’appliance Dell Microsoft PDW pour analyser les données structurées. L'appliance PDW est développée conjointement par Microsoft et Dell OEM pour les clients exigeants nécessitant l'usage  d'entrepôt de données pouvant évoluer jusqu'à 600 téraoctets. Livré sous forme d'appliance, les clients reçoivent le logiciel et le matériel déjà intégré en usine incluant hardware, software et support. Parce que la solution PDW fait partie du portefeuille de SQL Server, les clients reçoivent à la fois l'entrepôt de données, la possibilité de s’interconnecter à Hadoop, à des outils de business intelligence pour l’analyse OLAP des données en ligne comme Microsoft Analysis Services. L’appliance Dell Microsoft PDW  est développée sur une architecture massivement parallèle permettant la  parallèlisation des requêtes pour accélérer les performances de restitution et d’analyse. Elle est composée d’une infrastructure comprenant un rack de contrôle relié via Infiniband à un maximum de 4 racks de données comprenant des nœuds de traitements Dell PowerEdge R Servers  connectés via Fiber Channel à des nœuds de stockage Dell PowerVault Fiber Channel SAN de haute capacité. La solution Dell Microsoft PDW est hautement scalable, disponible et performante offrant aux utilisateurs une base de données en ligne de plus de 600To.  

Au travers de ces deux architectures, DELL vous propose des solutions ouvertes basées sur des infrastructures optimisées pour le Big Data, par exemple les PowerEdge C sont particulièrement conçus pour optimiser le Coût total de possession dans le cadre de fonctionnement en grappe, et l'utilisation de noeud de stockage normalisé Dell PowerVault Fiber Channel SAN, permet un positionnement prix et un coût au Giga imbattable.

 Les deux solutions décrites ci-dessus sont interopérables au travers de connecteurs spécifiques :

Que vos besoins d’analyse soient sur n’importe quelles variétés de données structurées ou non structurées, nous pouvons y répondre en vous proposant des solutions innovantes, intégrées, capables de traiter rapidement plusieurs centaines de To de données en toute sécurité. Ces solutions vous permettent ainsi de prendre dans les plus couts délais les meilleures décisions pour votre entreprise, condition nécessaire pour accroître votre avantage compétitif et répondre à votre stratégie.

 L’Ere du Big Data a démarré, alors ne perdez pas de temps, nous sommes prêts à vous accompagner dans vos projets!

Philippe Julio  |  Big Data Solutions Specialist 

Christophe Menard |  Responsable Produit Stockage