Data / IA
Apache veut accélérer le big data avec Arrow
Par La rédaction, publié le 20 février 2016
Apache voit grand dans le big data. Avec le lancement d’Arrow, la fondation ambitionne de fournir une couche de données à haute performance pour l’analyse en mémoire utilisant le stockage en colonne. Selon l’organisation, les performances peuvent être améliorées selon un facteur de 100 sur le traitement analytique, comparé à l’existant.
Au-delà de la vitesse, Arrow permet aux données d’être partagées sans sérialisation ou désérialisation. Classé « top-level », le projet réunit des développeurs d’autres sujets liés au big data et gérés par Apache tels que Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark et Storm. D’ici quelques années, la fondation envisage ni plus ni moins que la majorité des données sera traitée au travers d’Arrow.