🚀 VS Code で で入手しましょう!

VS Code Data Wrangler クイック スタート ガイド

Data Wrangler は、VS Code および VS Code Jupyter Notebook に統合された、コード中心のデータ表示およびクリーニング ツールです。データの表示と分析、洞察に満ちた列の統計と視覚化の表示、およびデータのクリーニングと変換時に Pandas コードを自動的に生成するための豊富なユーザー インターフェースを提供します。

以下は、ノートブックから Data Wrangler を開き、組み込みの操作でデータを分析およびクリーニングする例です。その後、自動生成されたコードがノートブックにエクスポートされます。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

このページの目的は、Data Wrangler をすぐに使い始められるようにすることです。

環境のセットアップ

  1. まだインストールしていない場合は、Python をインストールしてください (注: Data Wrangler は Python バージョン 3.8 以降のみをサポートしています)。
  2. Data Wrangler 拡張機能をインストールする

Data Wrangler を初めて起動すると、接続する Python カーネルを選択するように求められます。また、Pandas などの必要な Python パッケージがインストールされているかどうかをマシンと環境で確認します。

Data Wrangler を開く

Data Wrangler 内にいるときは常にサンドボックス環境にいるため、データを安全に探索および変換できます。元のデータセットは、変更を明示的にエクスポートするまで変更されません。

Jupyter Notebook から Data Wrangler を起動する

ノートブックに Pandas データフレームがある場合、df.head()df.tail()display(df)print(df)df のいずれかを実行した後、セルの下部に [Data Wrangler で 'df' を開く] ボタン (df はデータフレームの変数名) が表示されるようになります。

a screenshot showing the entry point into Data Wrangler from a notebook

ファイルから Data Wrangler を直接起動する

ローカル ファイル (.csv など) から Data Wrangler を直接起動することもできます。これを行うには、開きたいファイルを含むフォルダーを VS Code で開きます。エクスプローラー ビューで、ファイルを右クリックし、[Data Wrangler で開く] をクリックします。

a screenshot showing the entry point into Data Wrangler from a file

UI ツアー

Data Wrangler には、データを操作する際に 2 つのモードがあります。各モードの詳細は、以下のセクションで説明します。

  1. 表示モード: 表示モードは、データをすばやく表示、フィルター処理、および並べ替えるためのインターフェースを最適化します。このモードは、データセットの初期探索を行うのに最適です。
  2. 編集モード: 編集モードは、データセットへの変換、クリーニング、または変更を適用するためのインターフェースを最適化します。インターフェースでこれらの変換を適用すると、Data Wrangler は関連する Pandas コードを自動的に生成し、これをノートブックにエクスポートして再利用できます。

注: デフォルトでは、Data Wrangler は表示モードで開きます。この動作は、設定エディター で変更できます。

表示モード インターフェース

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. データ概要パネルには、データセット全体または特定の列 (選択されている場合) の詳細な概要統計が表示されます。

  2. 列のヘッダー メニューから列にデータ フィルター/並べ替えを適用できます。

  3. Data Wrangler の 表示 モードと 編集 モードを切り替えて、組み込みのデータ操作にアクセスします。

  4. クイック分析情報ヘッダーでは、各列に関する貴重な情報をすばやく確認できます。列のデータ型に応じて、クイック分析情報は、データの分布またはデータポイントの頻度、および欠損値と個別値を表示します。

  5. データ グリッドは、データセット全体を表示できるスクロール可能なペインを提供します。


編集モード インターフェース

編集モードに切り替えると、Data Wrangler で追加機能とユーザー インターフェース要素が有効になります。次のスクリーンショットでは、Data Wrangler を使用して、最後の列の欠損値をその列の中央値で置き換えています。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 操作パネルでは、Data Wrangler の組み込みデータ操作をすべて検索できます。操作はカテゴリ別に整理されています。

  2. クリーニング ステップパネルには、以前に適用されたすべての操作のリストが表示されます。ユーザーは、特定の操作を元に戻したり、最新の操作を編集したりできます。ステップを選択すると、データ グリッドの変更が強調表示され、その操作に関連付けられた生成されたコードが表示されます。

  3. エクスポート メニューを使用すると、コードを Jupyter Notebook にエクスポートしたり、データを新しいファイルにエクスポートしたりできます。

  4. 操作を選択し、データに対する効果をプレビューすると、グリッドはデータに対して行った変更の データ差分 ビューでオーバーレイされます。

  5. コード プレビュー セクションには、操作が選択されたときに Data Wrangler が生成した Python および Pandas コードが表示されます。操作が選択されていない場合は空のままです。生成されたコードを編集すると、データ グリッドでデータに対する効果が強調表示されます。

例: データセット内の欠損値を置換する

データセットが与えられた場合、一般的なデータ クリーニング タスクの 1 つは、データ内にある欠損値を処理することです。以下の例は、Data Wrangler を使用して、列の欠損値をその列の中央値で置き換える方法を示しています。変換はインターフェースを介して行われますが、Data Wrangler は欠損値の置換に必要な Python および Pandas コードも自動的に生成します。

an example of using Data Wrangler to replace missing values in your dataset

  1. 操作パネルで、欠損値を埋める操作を検索します。
  2. パラメーターで、欠損値を何で置き換えるかを指定します。この場合、列の中央値で欠損値を置き換えます。
  3. データ グリッドにデータ差分の正しい変更が表示されていることを検証します。
  4. Data Wrangler によって生成されたコードが意図したものであることを検証します。
  5. 操作を適用すると、クリーニング ステップ履歴に追加されます。

次のステップ

このページでは、Data Wrangler をすぐに使い始める方法について説明しました。Data Wrangler が現在サポートしているすべての組み込み操作を含む、Data Wrangler の完全なドキュメントとチュートリアルについては、次のページを参照してください。

Data Wrangler の操作