この記事では、ビッグデータについて、初心者にも分かりやすく、図解付きで丁寧に解説しています!
ビッグデータ
- ビッグデータとは人間には把握できないくらい多種多様で巨大なデータ群
- ビッグデータの貯蔵場所をデータレイクと呼ぶ
- ビッグデータを分析して新たな知見を得ることをデータマイニングと呼ぶ
- 表形式で保管できないデータを非構造化データと呼ぶ
- キーバリュー型のデータベースは非構造化データを保管できるデータベースで、保管したいデータとそのデータを一意に識別できる値を組み合わせて管理する
ビッグデータとは
ビッグデータとは人間には把握できないくらい多種多様で巨大なデータ群です。ビッグデータで扱うデータは数字や文字列だけでなく、画像、動画、音声も扱います。ビッグデータの特徴を表す言葉に「3つのV」というものがあります。
Volume(量) | 膨大な量のデータを扱う |
---|---|
Variety(種類) | 関係データベースのような行と列で管理されるデータだけでなく、コメント・画像・動画・音声なども扱う |
Velocity(速度) | 速くデータを処理する |
ちなみに、行と列の二次元の表形式で管理するデータを構造化データ、データに規則性がなく、表形式で管理することが困難なデータを非構造化データと言います。ビッグデータは構造化データも非構造化データも扱います。ビッグデータを保管する場所をデータレイクと呼びます。レイクは日本語で湖を意味します。
今まで構造化データを分析して様々な知見を得ていましたが、SNSのコメントや自動車の走行データなど非構造化データを上手く使えば、より充実した知見を得られるのでは?と考えたのがビッグデータの始まりになります。例えば、SNSの投稿内容を分析することで人の行動パターンが分かるようになれば、より儲かるチャンスを得れそうですよね。このようにビッグデータを分析して役に立つ知見を抽出する技術をデータマイニングと呼びます。
ビッグデータは取得したデータをそのまま保管します。変に加工すると、隠されていた大切な情報が削れたりする可能性がありますからね。
NoSQLの登場
関係データベースでは非構造化データを扱えないので、代わりに非構造化データを扱えるデータベースが必要になります。それがNoSQLです。NoSQLにはいくつかの型がありますが、ここでは試験で出題されたキーバリュー型を紹介します。
キーバリュー型のNoSQL
キーバリュー型のNoSQLは保存したいデータとそのデータを一意に識別できるキーを組み合わせて管理します。バリューに規則性は必要なく、保存したいデータを保存できます。

基本情報技術者試験での出題例
サンプル問題問23
基本情報技術者
科目A サンプル問題問23
ビッグデータのデータ貯蔵場所であるデータレイクの特徴として,適切なものはどれか。
ア あらゆるデータをそのままの形式や構造で格納しておく。
イ データ量を抑えるために,データの記述情報であるメタデータは格納しない。
ウ データを格納する前にデータ利用方法を設計し,それに沿ってスキーマをあらかじめ定義しておく。
エ テキストファイルやバイナリデータなど,格納するデータの形式に応じてリポジトリを使い分ける。
正解は”ア”
ビッグデータではあらゆるデータをそのまま保管します。
平成31年度春期問30
基本情報技術者
午前試験 平成31年度春期問30
ビッグデータの処理で使われるキーバリューストアの説明として,適切なものはどれか。
ア ”ノード”,”リレーションシップ”,”プロパティ”の3要素によってノード間の関係性を表現する。
イ 1件分のデータを”ドキュメント”と呼び,個々のドキュメントのデータ構造は自由であって,データを追加する都度変えることができる。
ウ 集合論に基づいて,行と列から成る2次元の表で表現する。
エ 任意の保存したいデータと,そのデータを一意に識別できる値を組みとして保存する。
正解は”エ”
キーバリュー型は保存したいデータとそのデータを一意に識別できる値を組み合わせて保存します。
平成29年度春期問29
基本情報技術者
午前試験 平成29年度春期問29
ビッグデータの活用例として,大量のデータから統計学的手法などを用いて新たな知識(傾向やパターン)を見つけ出すプロセスはどれか。
ア データウェアハウス
ウ データマイニング
イ データディクショナリ
エ メタデータ
正解は”ウ”
ビッグデータから新たな知見を得るための技術をデータマイニングと呼びます。