VS Code Data Wrangler クイック スタート ガイド
Data Wrangler は、VS Code および VS Code Jupyter Notebook に統合された、コード中心のデータ表示およびクリーニング ツールです。データの表示と分析、洞察に満ちた列の統計と視覚化の表示、およびデータのクリーニングと変換時に Pandas コードを自動的に生成するための豊富なユーザー インターフェースを提供します。
以下は、ノートブックから Data Wrangler を開き、組み込みの操作でデータを分析およびクリーニングする例です。その後、自動生成されたコードがノートブックにエクスポートされます。
このページの目的は、Data Wrangler をすぐに使い始められるようにすることです。
環境のセットアップ
- まだインストールしていない場合は、Python をインストールしてください (注: Data Wrangler は Python バージョン 3.8 以降のみをサポートしています)。
- Data Wrangler 拡張機能をインストールする
Data Wrangler を初めて起動すると、接続する Python カーネルを選択するように求められます。また、Pandas などの必要な Python パッケージがインストールされているかどうかをマシンと環境で確認します。
Data Wrangler を開く
Data Wrangler 内にいるときは常にサンドボックス環境にいるため、データを安全に探索および変換できます。元のデータセットは、変更を明示的にエクスポートするまで変更されません。
Jupyter Notebook から Data Wrangler を起動する
ノートブックに Pandas データフレームがある場合、df.head()
、df.tail()
、display(df)
、print(df)
、df
のいずれかを実行した後、セルの下部に [Data Wrangler で 'df' を開く] ボタン (df
はデータフレームの変数名) が表示されるようになります。
ファイルから Data Wrangler を直接起動する
ローカル ファイル (.csv
など) から Data Wrangler を直接起動することもできます。これを行うには、開きたいファイルを含むフォルダーを VS Code で開きます。エクスプローラー ビューで、ファイルを右クリックし、[Data Wrangler で開く] をクリックします。
UI ツアー
Data Wrangler には、データを操作する際に 2 つのモードがあります。各モードの詳細は、以下のセクションで説明します。
- 表示モード: 表示モードは、データをすばやく表示、フィルター処理、および並べ替えるためのインターフェースを最適化します。このモードは、データセットの初期探索を行うのに最適です。
- 編集モード: 編集モードは、データセットへの変換、クリーニング、または変更を適用するためのインターフェースを最適化します。インターフェースでこれらの変換を適用すると、Data Wrangler は関連する Pandas コードを自動的に生成し、これをノートブックにエクスポートして再利用できます。
注: デフォルトでは、Data Wrangler は表示モードで開きます。この動作は、設定エディター で変更できます。
表示モード インターフェース
-
データ概要パネルには、データセット全体または特定の列 (選択されている場合) の詳細な概要統計が表示されます。
-
列のヘッダー メニューから列にデータ フィルター/並べ替えを適用できます。
-
Data Wrangler の 表示 モードと 編集 モードを切り替えて、組み込みのデータ操作にアクセスします。
-
クイック分析情報ヘッダーでは、各列に関する貴重な情報をすばやく確認できます。列のデータ型に応じて、クイック分析情報は、データの分布またはデータポイントの頻度、および欠損値と個別値を表示します。
-
データ グリッドは、データセット全体を表示できるスクロール可能なペインを提供します。
編集モード インターフェース
編集モードに切り替えると、Data Wrangler で追加機能とユーザー インターフェース要素が有効になります。次のスクリーンショットでは、Data Wrangler を使用して、最後の列の欠損値をその列の中央値で置き換えています。
-
操作パネルでは、Data Wrangler の組み込みデータ操作をすべて検索できます。操作はカテゴリ別に整理されています。
-
クリーニング ステップパネルには、以前に適用されたすべての操作のリストが表示されます。ユーザーは、特定の操作を元に戻したり、最新の操作を編集したりできます。ステップを選択すると、データ グリッドの変更が強調表示され、その操作に関連付けられた生成されたコードが表示されます。
-
エクスポート メニューを使用すると、コードを Jupyter Notebook にエクスポートしたり、データを新しいファイルにエクスポートしたりできます。
-
操作を選択し、データに対する効果をプレビューすると、グリッドはデータに対して行った変更の データ差分 ビューでオーバーレイされます。
-
コード プレビュー セクションには、操作が選択されたときに Data Wrangler が生成した Python および Pandas コードが表示されます。操作が選択されていない場合は空のままです。生成されたコードを編集すると、データ グリッドでデータに対する効果が強調表示されます。
例: データセット内の欠損値を置換する
データセットが与えられた場合、一般的なデータ クリーニング タスクの 1 つは、データ内にある欠損値を処理することです。以下の例は、Data Wrangler を使用して、列の欠損値をその列の中央値で置き換える方法を示しています。変換はインターフェースを介して行われますが、Data Wrangler は欠損値の置換に必要な Python および Pandas コードも自動的に生成します。
- 操作パネルで、欠損値を埋める操作を検索します。
- パラメーターで、欠損値を何で置き換えるかを指定します。この場合、列の中央値で欠損値を置き換えます。
- データ グリッドにデータ差分の正しい変更が表示されていることを検証します。
- Data Wrangler によって生成されたコードが意図したものであることを検証します。
- 操作を適用すると、クリーニング ステップ履歴に追加されます。
次のステップ
このページでは、Data Wrangler をすぐに使い始める方法について説明しました。Data Wrangler が現在サポートしているすべての組み込み操作を含む、Data Wrangler の完全なドキュメントとチュートリアルについては、次のページを参照してください。