Prosperity and InSPIRE

最新技術レビューから時事ネタ、ユーモラスな小話まで、
幅広いコンテンツをPro-SPIRE独自の切り口で
発信していきます!

CP100A Google Cloud Platform Fundamentals

2016.11.24

株式会社Pro-SPIREのBigdata推進部の水之浦です。

当部署は、当社においてビッグデータに関連した事業、サービスを推進するために設立されました。DWH、ETLやBIツール、データ分析など、これまでもお客様先で大量データを取り扱ってきたメンバーが集結しています。そんな中、今期当部署において注目しているGoogle Cloud Platformについて、概要編のトレーニング(CP100A・無料)を受けてきましたので、レポートさせていただきたいと思います。日本では、Googleのトレーニングパートナーである株式会社TopGateで唯一トレーニングが開催されています。

Google Cloud Platform(以下、GCP)の特徴はなんと言っても、Google検索、YouTube、Gmailなどを支えるGoogleの圧倒的な技術力です。Googleが自身のために開発・利用している技術やインフラをベースにしてクラウド化を行うことができます。GCPは、主に下記のツール群で構成されています。(ツール群の詳しい説明は省略します)

    • プラットフォーム(コンピューティング)
      ーCompute Engine、App Engine、Container Engine
    • ストレージ
      ーCloud SQL、Cloud Storage、Cloud Datastore
    • ネットワーキングサービス
      ーCloud DNS、Load Barancing など
    • ビッグデータ&マシンラーニング(API)
      ーBig Query、Cloud Dataflow、CloudPub/Sub、Transrate API、Vision API など

 

このトレーニングでは、特にプラットフォームについて重点的な説明がありました。   

                      %e6%b0%b4%e4%b9%8b%e6%b5%a6%e3%81%95%e3%82%93

 

いずれも初期投資が少なく、信頼性の高いインフラ構築ができるという点で非常に有利です。GCP並みのロードバランス機能やスケーラビリティの高さ、耐久性の高さは自社で実現しようと思うと途方もないコストがかかります。またミドルウェアなどのアップデートなどは自動化されているため、運用コストが削減できます。

GCPの中でも導入事例が多いというBig Queryは、Googleの巨大なインフラありきの分散処理&並列処理(THE 力技)です。RDBでは適切なPrimaryKeyやIndexを設計しないと、効率の良い検索はできません。特にデータが大量になると、全く結果が返ってこないという苦い経験をした人も多いのではないでしょうか。Big Queryで問い合わせに使用するクエリーはSQL LIKEなものですが、内部処理は全く異なっています。クエリーを発行するごとに一瞬で何千台ものサーバが一斉に立ち上がり、一斉に分散&並列処理を実行することによって、高速な分析を可能にしBig Queryについては、今後更なるトレーニングを受講する予定なので、また後日レポートしたいと思います。  

 

世界的に巨大なハードウェアメーカーとしての一面も持つGoogleは、自社でサーバ、ネットワーク機器を製造しています。公開される論文や技術も、Googleのインフラ・ハードウェアありきの設計のため、ほかでは応用が難しいという面もあるようですね。

最後に…私の普段の業務はオンプレミスの業務アプリケーションやDWHのメンテナンスが中心のため、トレーニングにCloud系の技術の話は全くついていけないかもしれない、という不安な気持ちも少しありました。しかし基本的なネットワーク系や運用系の知識、これまでに扱ったツールなど、自分の中にある知識に置き換えることで、理解できた気がします。技術や扱うデータの規模は全く違うけれども、実現したいことやITが目指す方向などの根の部分は昔からあまり変わっていないのかもしれない、と感じました。そして、普段の業務において技術や知識は事足りているから新しい技術は自分には必要ない、と漠然と感じている人も、こういった講習や勉強会に参加すると、刺激を受けてよいと思います。