VS Code用 Data Wrangler クイックスタートガイド
Data Wrangler は、VS Code および VS Code Jupyter Notebook に統合された、コード中心のデータ表示・クリーニングツールです。データを表示・分析するためのリッチなユーザーインターフェースを提供し、列の統計情報や可視化を表示したり、データをクリーニング・変換する際に Pandas コードを自動生成したりできます。
以下は、Notebook から Data Wrangler を開き、組み込み操作を使用してデータを分析およびクリーニングする例です。その後、自動生成されたコードを Notebook にエクスポートします。

このページは、Data Wrangler を素早く使い始めるための手助けをすることを目的としています。
環境をセットアップする
- まだインストールしていない場合は、Python をインストールしてください(注: Data Wrangler は Python バージョン 3.8 以上のみをサポートしています)。
- Data Wrangler 拡張機能をインストールする
初めて Data Wrangler を起動する際、接続する Python カーネルを尋ねられます。また、Pandas などの必要な Python パッケージがインストールされているか、マシンと環境がチェックされます。
Data Wrangler を開く
Data Wrangler を使用している間は、サンドボックス化された環境にいることになり、安全にデータを調査・変換できます。変更を明示的にエクスポートするまで、元のデータセットが変更されることはありません。
Jupyter Notebook から Data Wrangler を起動する
Notebook 内に Pandas データフレームがある場合、df.head()、df.tail()、display(df)、print(df)、または df のいずれかを実行すると、セルの下部に Open 'df' in Data Wrangler ボタン(df はデータフレームの変数名)が表示されます。

ファイルから直接 Data Wrangler を起動する
ローカルファイル(.csv など)から直接 Data Wrangler を起動することもできます。これを行うには、開きたいファイルが含まれているフォルダーを VS Code で開きます。エクスプローラーでファイルを右クリックし、Open in Data Wrangler をクリックします。

UI ツアー
Data Wrangler には、データを扱うための2つのモードがあります。各モードの詳細は以下のセクションで説明します。
- 表示モード (Viewing mode): 表示モードでは、データの表示、フィルタリング、並べ替えを素早く行えるようインターフェースが最適化されています。このモードは、データセットの初期調査を行うのに適しています。
- 編集モード (Editing mode): 編集モードでは、データセットに対する変換、クリーニング、修正を適用するためにインターフェースが最適化されています。インターフェースでこれらの変換を適用すると、Data Wrangler は関連する Pandas コードを自動生成します。このコードは再利用のために Notebook にエクスポートできます。
注: デフォルトでは、Data Wrangler は表示モードで開きます。この動作は、設定エディター で変更できます。
表示モードのインターフェース

-
データサマリー (Data Summary) パネルには、データセット全体、または選択した特定の列の詳細なサマリー統計が表示されます。
-
列のヘッダーメニューから、任意のデータフィルター/並べ替えを列に適用できます。
-
Data Wrangler の表示モードと編集モードを切り替えて、組み込みのデータ操作にアクセスします。
-
クイックインサイト (Quick Insights) ヘッダーでは、各列に関する貴重な情報を素早く確認できます。列のデータ型に応じて、データの分布やデータポイントの頻度、欠損値や一意の値を表示します。
-
データグリッド (Data Grid) は、データセット全体を表示できるスクロール可能なパネルを提供します。
編集モードのインターフェース
編集モードに切り替えると、Data Wrangler で追加の機能とユーザーインターフェース要素が有効になります。以下のスクリーンショットでは、Data Wrangler を使用して最後の列の欠損値をその列の中央値で置換しています。

-
操作 (Operations) パネルでは、Data Wrangler のすべての組み込みデータ操作を検索できます。操作はカテゴリ別に整理されています。
-
クリーニング手順 (Cleaning Steps) パネルには、これまでに適用されたすべての操作のリストが表示されます。特定の操作の取り消しや、直近の操作の編集が可能です。ステップを選択すると、データグリッド内で変更箇所が強調表示され、その操作に関連付けられた生成済みコードが表示されます。
-
エクスポートメニュー (Export Menu) を使用すると、コードを Jupyter Notebook に戻したり、データを新しいファイルとしてエクスポートしたりできます。
-
操作を選択してデータへの影響をプレビューしている間、グリッドにはデータに加えた変更のデータ差分 (data diff) がオーバーレイ表示されます。
-
コードプレビュー (Code Preview) セクションには、操作が選択されたときに Data Wrangler が生成した Python および Pandas コードが表示されます。操作が選択されていないときは空のままです。生成されたコードを編集すると、データグリッド上でその影響が即座にハイライト表示されます。
例: データセットの欠損値を置換する
データセットにおいて、一般的なデータクリーニングタスクの1つは、データ内の欠損値を処理することです。以下の例は、Data Wrangler を使用して列内の欠損値をその列の中央値で置換する方法を示しています。インターフェースを通じて変換が行われる間、Data Wrangler は欠損値の置換に必要な Python および Pandas コードも自動的に生成します。

- 操作パネル (Operations Panel) で、Fill Missing Values(欠損値の補完)操作を検索します。
- パラメーターで、欠損値を何で置換するかを指定します。この例では、列の中央値で欠損値を置換します。
- データグリッドに表示されているデータ差分で、正しい変更が行われていることを確認します。
- Data Wrangler によって生成されたコードが意図したもの通りであるかを確認します。
- 操作を適用すると、クリーニング手順の履歴に追加されます。
次のステップ
このページでは、Data Wrangler の使い方を素早く始める方法について説明しました。Data Wrangler が現在サポートしているすべての組み込み操作を含む、完全なドキュメントとチュートリアルについては、以下のページを参照してください。