THUG héberge une introduction à Apache Spark

Publié dans Transformation digitale
Par Laura Leslie le 11 juillet 2014

Un chercheur en données et un membre de Rubikrew, Pardis Noorzad, ont assisté à la Introduction à Apache Spark Meetup ce mardi soir passé. Pardis a été en mesure de découvrir quelques détails intéressants sur Spark, un cadre de calcul de cluster Open source pour l'analytique des données. Officiellement libéré il y a moins de 2 mois, le cadre attire une attention considérable dans le monde de la technologie.

Le conférencier invité, Matei Zaharia est professeur assistant au MIT et CTO de Databricks. Pardis a été impressionné par son discours et la démo de Databricks Cloud. J'ai demandé à Pardis de partager un peu de son expérience à la Meetup, ses opinions sur Spark, et comment elle pense qu'il pourrait nous affecter ici à Rubikloud.

Q) comparé à d'autres meetups, pourquoi étiez-vous excité d'assister à l'intro à Apache Spark parler?:

A) j'ai été impatient de ce Meetup pendant un certain temps. Spark n'est pas facile à ignorer. Le discours de Matei était bien organisé et minutieux. Merci à THUG et BNotions pour l'organisation de l'événement.

Q) qu'avez-vous été le plus surpris d'apprendre?:

A) la fonctionnalité Notebook et Dashboard sur Databricks Cloud fait un excellent travail pour abstragir les complexités de l'agrégation et de l'analyse de données en temps réel et distribuées. La facilité d'intégration des tâches, y compris le streaming de tweets, la formation d'un modèle pour assigner la similitude de mot à "FIFA" basé sur le corpus Wikipedia, en utilisant le modèle formé pour filtrer le flux en direct, et enfin le tracé en temps réel de la résultante filtré ruisseau était très impressionnant.

Q) en général, quel est ce plus grand avantage que vous voyez venir de Spark? :

A) je suis impatient d'en savoir plus sur Google Cloud Dataflow, mais je doute que Google fera le cluster de l'infrastructure de calcul Open source. Databricks Cloud utilise Spark Open source qui est dit être l'un des projets open source les plus actifs sur Apache.

Q) Comment cela pourrait-il changer la façon dont vous/d'autres fonctionnent?:

A) en tant que Startup, plus vite nous pouvons exécuter nos expériences pour dériver la valeur des données de nos clients en tant que POC, le mieux. Les solutions généralisées comme Spark qui fournissent le traitement des flux, le traitement des graphes et l'apprentissage automatique hors de la boîte sont idéales pour notre stratégie Lean et agile.

Q) qu'avez-vous pensé de l'orateur? Quels étaient vos principaux Take-Away de son discours?:

A) Matei Zaharia est le type idéal de Data Scientist: avoir l'humilité, la connaissance et l'ouverture attendues d'un universitaire combiné avec la compétence, la perspicacité et la praticité d'un ingénieur de l'industrie. Ihs Thèse vaut vraiment la peine d'être lue.

Q) pensez-vous que nous allons utiliser Spark ou quelque chose de similaire bientôt?

A) nous utilisons une variété de cadres Open source combinés avec notre logiciel propriétaire dans notre pipeline de données. Les développements dans Spark sont certainement passionnants et nous espérons profiter de son potentiel.