【Hadoop】Hortonworksとの協業によるSX-Aurora TSUBASAの活用が凄い!【BigData】

この記事は約11分で読めます。

 

NECとHortonworks、SX-Aurora TSUBASAを活用したビッグデータ向け高速分析プラットフォームを共同開発

2018年10月15日に興味深いプレスが発表されましたね!

NECとHortonworks、SX-Aurora TSUBASAを活用したビッグデータ向け高速分析プラットフォームを共同開発
~Apache Hadoop/Sparkによる高速なAI処理に対応~日本電気株式会社(本社:東京都港区、代表取締役執行役員社長 兼 CEO:新野 隆、以下 NEC)とHortonworks, Inc. (本社:米国サンタクララ、CEO:ロブベアデン (Rob Bearden) 、以下Hortonworks)は、NECの次世代イノベーションプラットフォーム「SX-Aurora TSUBASA」上で、AIにも利用可能なビッグデータ向け高速分析プラットフォームを共同開発します。

共同開発の内容

  • 「SX-Aurora TSUBASA」が、Hadoop/Spark領域での代表的なリソース管理/分散アプリケーション管理基盤である「YARN(ヤーン、注2)」に対応することで、従来のHadoop/Sparkによるビッグデータ解析プログラムが「SX-Aurora TSUBASA」上で管理可能となるため、容易なアプリケーション連携とシステム管理者の負荷軽減を実現します。「YARN」を利用している一般的なシステム構成では、従来(注3)同等の解析を、最大99%少ないサーバリソースで実行できます。
  • NECのミドルウエア「Frovedis(フロベディス、注4)」をSparkに組み込むことにより、「SX-Aurora TSUBASA」上でのSparkを使用したAI(機械学習)アプリケーションが、従来(注3)のサーバ比で最大100倍高速に動作します。Spark上で、機械学習用のライブラリ「MLlib(エムエルリブ、注5)」などを活用したAI・ビッグデータ処理を高速に実行したい利用者へ、通常のHadoop/Sparkと同様な管理環境で利用可能な使いやすいプラットフォームとして提供していきます。

https://jpn.nec.com/press/201810/20181015_01.html

…なるほど。。。わからん。

 

知っている人にとっては割と目を引くプレスだと思いますが、初めて見る人からすると専門用語ばかりで「なんのこっちゃ?」という感じですよね。

 

要は、

今話題のビッグデータを扱うHadoop/Spark領域でSX-Aurora TSUBASAが使えるようにNECとHortonworksが協力するよ!

てことです。

 

今回のプレスを理解するには以下のような知識が必要になって来ると思います。

  • Hortonworksとはどういった企業か?
  • Hadoop/Sparkとは何か?
  • YARNとは何か?
  • Frovedisとは何か?
  • MLlibとは何か?

一つずつ確認していきましょう。

 

Hortonworks(ホートンワークス)とは?

Hortonworksは、Hadoop業界でトップクラスに君臨するベンダーです。

いわゆるHadoop業界のテクノロジーリーダーです。

 

HadoopといえばHortonworksといっても過言でもないくらい業界では有名な企業です。

 

なんでも2011年にYahoo!のApache Hadoop オリジナルチームのメンバー24 人のエンジニアによって設立されたんだそうです。

 

Hortonworksは、Hadoopに最も貢献している企業の一つ

出典:http://ajisakaa.blogspot.com/2015/02/the-activities-of-apache-hadoop.html

Hadoopはオープンソースで色々な人がコードのアップデートに貢献しているわけですが、コード修正の殆どをHortonworksが行っています。

2番手は上のグラフにもあるとおりClouderaですね。

 

Hadoop(Apache Hadoop)って何??

じゃあ、「Hadoop」って何??という話ですが、簡潔に言うと、

  • 大規模データの分散処理を支えるオープンソースのソフトウェアフレームワーク(ミドルウェア)

です。

 

・・・まあ、このあたりでよく分からなくなりますよね。

 

偉い人

ビッグデータだ!社内にあるだろう!膨大なデータが!ビッグデータを活用しろ!

 

悲しいかな。偉い人から漠然と抽象的な課題が落ちてきた。。。

 

そういうことってありますよね。

ビッグデータもその一つでしょう。

 

データがたくさん蓄積されているのは、誰でもわかるけれど、その活用方法がわからない

そんなビッグデータの活用を検討する際に出てくるのが、Hadoopでしょう。

 

偉い人

ビックデータを上手いことコンピュータに処理させれば「なんか良い結果」が「サクッと」出てくるだろ。今流行ってるんだし。

 

悲しいかな。

ビックデータを処理するのは、そんなに簡単ではないんですね。

「なんか良い結果」は、まず簡単に出なくて試行錯誤を繰り返す必要がありますよね。

 

また、「サクッと」は出てきません。

大規模なデータを処理するには、その仕組みを用意しないといけないんですよね。

 

そこで登場するのが、分散処理技術Hadoopです。

 

分散処理技術Hadoop

Hadoopのポイントは、分散処理です。

 

大規模なデータを、複数のコンピュータに分散してそれぞれに計算させる技術=Hadoopです。

コンピュータを増やせば、その分沢山の処理ができるようになります。

この技術により膨大なビッグデータの処理が現実的になってきました。

 

HDFS (Hadoop Distributed File System)といったファイルシステム等も重要なんですが、ややこしくなるのでここでは割愛します。

 

Sparkって何?

ちなみに分散処理フレームワークというとSparkというものもよく出てきますね。

 

SparkもHadoopと同じく分散処理のフレームワークです。

HadoopがJava言語で作られていて、SparkはJavaの派生言語であるScalaで作られているという違いがあります。

それぞれ得意分野が違うのでそれぞれ使い分けたり、もしくは「Hadoop+Spark」といった構成となることもあるそうです。

 

Hadoop内のYARNというリソース管理フレームワークの制御下でSparkを利用することが出来るからなんでしょうね。

 

YARNとは?

さらっとYARNが登場しましたが、YARNとは「Yet-Another-Resource-Negotiator」の略で、リソースを管理する縁の下の力持ち的な存在のフレームワークです。

 

大規模なシステムを扱うようになると、その制御がキモになってくるわけなんですよね。

 

大規模システムを構築するときって、大人数で手分けして作業するけど、プロジェクトマネージャーがポンコツだとグチャグチャになっちゃいますよね。

 

YARNは、リソースしっかりとコントロールするプロジェクトマネージャー的な存在と行ってもいいかもしれません。

 

SX-Aurora TSUBASAがYARNに対応すると何が嬉しいのか

出展:https://www.slideshare.net/Hadoop_Summit/new-digital-world-nec

今回のプレスのポイントは、「SX-Aurora TSUBASAがYARNに対応」ということでしたが、YARNに対応すると何が嬉しいのでしょうか?

 

Hadoopは、一般的に汎用的なコンピュータを沢山並べて利用されていますが、この汎用コンピュータをSX-Aurora TSUBASAに置き換えることが可能ということになります。

 

上記画像に色々書いてありますが、簡単なところだと、

SX-Aurora TSUBASAは、汎用的なコンピュータよりも高性能ですから、

  • 同じ処理を行うのであれば、より小規模なシステムでコストを抑えることが出来る
  • 今まで計算パワーが足りなくて出来なかったような大規模な計算が現実的な時間で処理できる

というメリットがありますね。

 

ちなみにSX-Aurora TSUBASAがコスパが良いという話は以下も参考にしてください。
【超コスパ】SX-Aurora TSUBASA A300-8はお金も電力もお得そう!

 

Frovedisとは何か?

今回のプレスでは「Frovedis(フロベディス)」というものが登場しましたが、こちらは何でしょうか?

 

実はこいつは、現在売り出し中のミドルウェアの一つですね。

 

出展:https://jpn.nec.com/rd/technologies/vectorprocessor/index.html

SX-Aurora TSUBASAはAI・機械学習に力を入れていて、このFrovedisってやつを使うと普通にSpark使うよりも、ものすごく速く計算を実行できるという事例が出てきてるみたいです。

 

SparkやPythonをそのまま利用可能

―― 既存の機械学習のシステムとは連携できますか?

いま機械学習において一般的に使われているSpark(注1)のユーザーであれば、そのままご利用いただくことが可能です。今回発表された製品を購入いただいて接続すれば、Sparkから普段通りにご活用いただけるようなミドルウェアを開発しているので、ハードウェアの違いを意識することはありません。
また、Python(注2)でもscikit-learn(注3)のインターフェースに合わせていますので、特別な設定や操作を意識することなく、これまで通りお使いいただけるようになっています。

https://jpn.nec.com/rd/technologies/vectorprocessor/index.html

Frovedisはミドルウェアなので、間に挟んであげるだけで、今までSparkを利用していた人たちはそのまま使えるっていうところもポイントですよね。

 

ちなみにこのFrovedisはGitHubに公開されていて、誰でも試して見ることが出来るようです。

太っ腹ですね!

 

Frovedis@GitHub⇒https://github.com/frovedis

 

MLlibとは何か?

出展:https://jpn.nec.com/hpc/sxauroratsubasa/auroraforum20180727.html

MLlibというものについても少し触れておきましょう。

MLlibは機械学習ライブラリです。

これがあると、機械学習がはかどります。

これについてはSX-Aurora TSUBASA対応がどんどん進んでいるようです。

機械学習をかじったことのある人であれば上記画像の中の単語でピンと来る人もいるのではないでしょうか。

 

Data Platform for Hadoop

なんでSX-Aurora TSUBASAはそんなにHortonworksやHadoopとうまくやっているのかと思ったら、結構、Hortonworksと昔から協力しているみたいですね。

「Data Platform for Hadoop」という製品を提供しているみたいです。

 

QATS (Quality Assured Testing Suite)というHortonworksの certificationを受けているのってかなり限られてて、日本だとNECくらいみたいですね。

https://jp.hortonworks.com/partners/qats/

 

これはSX-Aurora TSUBASAについても期待できますね。

 

まとめ:Hortonworksとの協業によるSX-Aurora TSUBASAの活用が凄い!

ちょっと私の理解が怪しいところもありますが、とりあえず、SX-Aurora TSUBASAがHadoopやSparkでモリモリ動くようになったら、かなりすごそうですね。

 

MLlibといった機械学習ライブラリ対応も進んでいるみたいですし、今後の動きについても目を離せませんね。

 

と、言っている間にスタンフォード大学にSX-Aurora TSUBASAを提供したというニュースも飛び込んでますし、何やらますます動きが加速していきそうな感じで楽しみです。

 

さて、今日はここまで!

おわりっ!