Hadoop Conference Japan 2011 Fall に参加してきました
月曜日の話ですが、ベルサール汐留で開催されたHadoop Conference Japan 2011 Fallに参加してきました。
そもそもHadoopを使い始めたのが最近で、カンファレンスの参加は初めてなのですが、コミッターの方や大規模に運用されている方の話が聞けて大変参考になりました。
当日は速攻でMacbook Airの電池が切れてしまったため手書きだったのでメモが大変でした…。
Keynote
"The role of the Distribution in the Apache Hadoop Ecosystem" by Todd Lipcon, Cloudera Inc
Hadoop Distributionの一つであるCDHに関する説明。
何故Distributionを使うのか?→バージョン管理、インストールを簡単にできる
"About Hortonworks" by Owen O'Malley, HortonWorks
Yahoo IncのHadoop部門が2011年7月に独立してできた会社。
HadoopへのContributionはYahoo Incと同じくらい。
"How Hadoop needs to evolve and integrate into the enterprise" by Ted Dunning, MapR Technology Inc
Lunch Time LT
"MapReduceをコーディングなしで?新しいデータ探索ツール BigSheets" by 土屋 敦, IBM
IBM製のツールの紹介。
表計算ソフトのようにHDFS上のデータを処理できる。
グラフなどのVisualizationもプラグイン(js)で簡単に実装できる。
コーディングがないのでビジネスの人も簡単に使える。
"Hadoopログを全員で使う方法と課題" by 宵 勇樹, DeNA
モバゲーにおけるHadoopの利用事例の紹介。
HadoopのWebGUI(GitHubで公開中)のHUEを使ってマイニングエンジニア以外でもセキュアにデータを見れるような環境構築。
HUEによってPigやHiveを権限付きで実行できるようにしている。
グループ管理でユーザの追加などにNameNodeの再起動が必要だが、LDAPで管理することで回避している。
"Hadoop+HBaseを基盤としたPaaSプラットフォームの構築" by 岡本 晴芳
HadoopとHBaseを使ったPaaSプラットフォームの開発基盤の構築の紹介。
Hadoop, HBase, ZooKeeper, Mahout, JMX, JDOなどを使う。
"パネルログ分析" by 小林 隆
Hadoopを使ったパネルログ(ユーザの行動ログ)の紹介。
ユーザの行動ログを使うので、サイトの時系列分析・リピート分析・サイト間の分析を行うことができる。
Technical Track
"Apache HBase: an Introduction" by Todd Lipcon, Cloudera Inc
"Architectural details and implications of MapR technology" Ted Dunning, MapR Technology Inc
- Read only file
- Many copies in I/O path
- Shuffle based on HTTP
- Spills go to local file space
MapRはファイルシステムとMapReduceを再実装してパフォーマンスを向上させた
- Hadoopよりも倍以上のRead/Writeのパフォーマンス
- 小容量で大量のファイルの処理でパフォーマンスが向上
- Random ReadのパフォーマンスはHBaseの倍
- NameNodeの冗長化
"NTTデータ流 Hadoop活用のすすめ 〜インフラ構築・運用の勘所〜" by 猿田 浩輔, NTTデータ
- マスタノードの可用性向上
しかし、実際にはHadoopの可用性だけではなくシステム全体としての可用性を考慮しないといけないので実績のある技術を駆使したほうが良い場合も
- 数千台規模のクラスタ運用
- 初期設定・設定変更・増設のコスト、障害時のコスト → オペレーションのパターンを最小限に
- OSの自動インストール、一貫した設定による構成管理 → 共通的な方法で簡潔に
- 例 :
- ある程度の割り切りは必要
- OSが入らないときは代替機
- あらかじめ許容出来る縮退率を把握して機器交換のタイミングの計画をする
- クラスタリソース情報の取得
- Gangliaによるリソース情報の可視化
- トポロジ設計
- エッジスイッチごとにラックアウェアネスを設計すると電源ごとにデータが分散されるとは限らない
"Hadoop 0.23 and MapReduce v2" by Owen O'Malley, HortonWorks
- Hadoop 0.23 Highlight
- HDFS federation
- namenode scaling
- split namespace between namenodes
- all datanodes are shared between all namenodes
- JobTrackerを2つのコンポーネントに
- Cluster resource management
- Application life-cycle managements
SPOFの解消やスケールの向上(6000-10000台のマシン)
Wire Compatibilityの解消
MapReduce以外のparadigmsのサポート
Community Track
"リクルート式Hadoopの使い方" by 石川 信行, リクルート
Sqoop+Hiveで集計
Mahoutで分析
BIツール
- Hadoopの真価
- 高速に処理できるのでTry and Errorを繰り返せる
- 全データを使えるのでサンプリングに頼らなくても良い
- MapRとCDHの比較
- MapRは約2倍速い