データレイクとは
多種多様なデータを本来のフォーマットのまま保管する広大な領域のこと。ログファイルや画像ファイル、音声ファイルなど特定の構造を持たないデータを「非構造化データ」といい、リレーショナルデータベースのようにデータの属性を構造的に管理するデータを「構造化データ」と呼ぶ。
従来は、分析の目的に合わせて膨大なデータから必要なものを絞り込み、表計算やデータベースの形式で保存していた。しかし、分析してから保存していては時間もコストもかかる上、データを絞り込んで保存すると、分析する対象が変わったときにデータ不足でニーズに応えられない事態も起こりうる。データレイクは、あらゆるデータを最初から収集しておくため、効率良く幅広い分析ニーズに応えられる。
センサーのログ、GPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声などの非構造化データの管理・分析に適し、IoT(モノのインターネット)のニーズが高い製造業で注目を集め、導入が進んでいる。