VS Code での Data Wrangler クイックスタートガイド
Data Wrangler は、VS Code および VS Code Jupyter Notebooks に統合された、コード中心のデータ表示およびクリーンアップツールです。これは、データを表示および分析し、洞察に富む列の統計情報と視覚化を表示し、データをクリーンアップおよび変換すると Pandas コードを自動的に生成するための豊富なユーザーインターフェースを提供します。
以下は、ノートブックから Data Wrangler を開き、組み込みの操作でデータを分析およびクリーンアップする例です。その後、自動生成されたコードはノートブックにエクスポートされます。
このページの目的は、Data Wrangler をすばやく使い始めるための手助けをすることです。
環境をセットアップする
- まだ行っていない場合は、Python をインストールしてください (注: Data Wrangler は Python バージョン 3.8 以降のみをサポートしています)。
- Data Wrangler 拡張機能をインストールする
Data Wrangler を初めて起動すると、接続したい Python カーネルを尋ねられます。また、Pandas などの必要な Python パッケージがインストールされているか、マシンと環境をチェックします。
Data Wrangler を開く
Data Wrangler を使用中は常に「サンドボックス化された」環境にいるため、安全にデータを探索し、変換できます。変更を明示的にエクスポートするまで、元のデータセットは変更されません。
Jupyter Notebook から Data Wrangler を起動する
ノートブックに Pandas データフレームがある場合、df.head()
、df.tail()
、display(df)
、print(df)
、df
のいずれかを実行すると、セルの下部に「Data Wrangler で 'df' を開く」ボタン (ここで df
はデータフレームの変数名です) が表示されるようになります。
ファイルから直接 Data Wrangler を起動する
ローカルファイル (.csv
など) から直接 Data Wrangler を起動することもできます。これを行うには、開きたいファイルが含まれるフォルダーを VS Code で開きます。ファイルエクスプローラービューで、ファイルを右クリックし、「Data Wrangler で開く」をクリックします。
UIツアー
Data Wrangler には、データを操作する際の2つのモードがあります。各モードの詳細は、以下のセクションで説明します。
- 表示モード: 表示モードでは、データをすばやく表示、フィルター処理、並べ替えができるようにインターフェースが最適化されています。このモードは、データセットの初期探索に最適です。
- 編集モード: 編集モードでは、データセットに変換、クリーンアップ、または変更を適用できるようにインターフェースが最適化されています。インターフェースでこれらの変換を適用すると、Data Wrangler は関連する Pandas コードを自動的に生成し、これは再利用のためにノートブックにエクスポートできます。
注: 既定では、Data Wrangler は表示モードで開きます。この動作は、設定エディター で変更できます。
表示モードのインターフェース
-
データ概要パネルには、全体的なデータセットまたは選択された特定の列の詳細な要約統計情報が表示されます。
-
列のヘッダーメニューから、列に任意のデータフィルター/並べ替えを適用できます。
-
Data Wrangler の表示モードまたは編集モードを切り替えて、組み込みのデータ操作にアクセスします。
-
クイックインサイトヘッダーは、各列に関する貴重な情報をすばやく確認できる場所です。列のデータ型に応じて、クイックインサイトはデータの分布やデータポイントの頻度、および欠損値と個別値を表示します。
-
データグリッドは、データセット全体を表示できるスクロール可能なペインを提供します。
編集モードのインターフェース
編集モードに切り替えると、Data Wrangler で追加の機能とユーザーインターフェース要素が有効になります。以下のスクリーンショットでは、Data Wrangler を使用して、最後の列の欠損値をその列の中央値に置き換えています。
-
操作パネルは、Data Wrangler のすべての組み込みデータ操作を検索できる場所です。操作はカテゴリ別に整理されています。
-
クリーンアップステップパネルには、以前に適用されたすべての操作のリストが表示されます。これにより、特定の操作を元に戻したり、最新の操作を編集したりできます。ステップを選択すると、データグリッドで変更が強調表示され、その操作に関連付けられた生成コードが表示されます。
-
エクスポートメニューを使用すると、コードを Jupyter Notebook にエクスポートしたり、データを新しいファイルにエクスポートしたりできます。
-
操作が選択され、データへの影響をプレビューしているとき、グリッドにはデータに行った変更のデータ差分ビューがオーバーレイ表示されます。
-
コードプレビューセクションには、操作が選択されたときに Data Wrangler が生成した Python および Pandas コードが表示されます。操作が選択されていない場合は空のままです。生成されたコードを編集でき、これによりデータグリッドでデータへの影響が強調表示されます。
例: データセットの欠損値を置換する
データセットが与えられた場合、一般的なデータクリーンアップタスクの1つは、データ内の欠損値を処理することです。以下の例は、Data Wrangler を使用して、列の欠損値をその列の中央値で置き換える方法を示しています。変換はインターフェースを通じて行われますが、Data Wrangler は欠損値の置換に必要な Python および Pandas コードも自動的に生成します。
- 操作パネルで、「欠損値を埋める」操作を検索します。
- パラメーターで、欠損値を何で置き換えるかを指定します。この場合、欠損値を列の中央値で置き換えます。
- データグリッドにデータ差分で正しい変更が表示されていることを検証します。
- Data Wrangler によって生成されたコードが意図したものであることを検証します。
- 操作を適用すると、クリーンアップステップ履歴に追加されます。
次のステップ
このページでは、Data Wrangler をすばやく使い始める方法について説明しました。Data Wrangler の完全なドキュメントとチュートリアル、および現在 Data Wrangler がサポートするすべての組み込み操作については、次のページを参照してください。