VS Code での Data Wrangler クイック スタート ガイド
Data Wrangler は、VS Code および VS Code Jupyter Notebook に統合された、コード中心のデータ表示およびクリーニング ツールです。データ表示、分析、洞察力に富んだ列の統計と視覚化、およびデータ クリーニングと変換の際の Pandas コードの自動生成のための豊富なユーザー インターフェイスを提供します。
以下は、ノートブックから Data Wrangler を開いて、組み込み操作でデータを分析およびクリーニングする例です。その後、自動生成されたコードはノートブックにエクスポートされます。
このページは、Data Wrangler をすばやく起動して実行できるようにすることを目的としています。
環境をセットアップする
- まだ Python をインストールしていない場合は、インストールしてください (注: Data Wrangler は Python バージョン 3.8 以降のみをサポートしています)。
- Data Wrangler 拡張機能をインストールする
Data Wrangler を初めて起動すると、接続したい Python カーネルを尋ねられます。また、Pandas などの必要な Python パッケージがインストールされているか、マシンと環境をチェックします。
Data Wrangler を開く
Data Wrangler を使用中は常にサンドボックス環境にいるため、データを安全に探索し、変換できます。元のデータセットは、変更を明示的にエクスポートするまで変更されません。
Jupyter Notebook から Data Wrangler を起動する
ノートブックに Pandas データフレームがある場合、df.head()
、df.tail()
、display(df)
、print(df)
、および df
のいずれかを実行した後、セルの下部に Data Wrangler で 'df' を開くボタン (df
はデータフレームの変数名) が表示されます。
ファイルから直接 Data Wrangler を起動する
ローカル ファイル (.csv
など) から Data Wrangler を直接起動することもできます。これを行うには、開きたいファイルを含む任意のフォルダーを VS Code で開きます。ファイル エクスプローラー ビューでファイルを右クリックし、Data Wrangler で開くをクリックします。
UIツアー
Data Wrangler は、データの操作時に 2 つのモードを備えています。各モードの詳細は、以下のセクションで説明します。
- 表示モード: 表示モードは、データをすばやく表示、フィルター処理、および並べ替えるためのインターフェイスを最適化します。このモードは、データセットの初期探索を行うのに最適です。
- 編集モード: 編集モードは、データセットに変換、クリーニング、または変更を適用するためのインターフェイスを最適化します。インターフェイスでこれらの変換を適用すると、Data Wrangler は関連する Pandas コードを自動的に生成し、これを再利用のためにノートブックにエクスポートできます。
注: デフォルトでは、Data Wrangler は表示モードで開きます。この動作は、設定エディター で変更できます。
表示モードのインターフェイス
-
データ概要パネルには、データセット全体の詳細な概要統計、または選択されている場合は特定の列の概要統計が表示されます。
-
列のヘッダー メニューから、列にデータ フィルター/並べ替えを適用できます。
-
Data Wrangler の表示モードと編集モードを切り替えて、組み込みのデータ操作にアクセスします。
-
クイック インサイトヘッダーには、各列に関する貴重な情報をすばやく表示できます。列のデータ型に応じて、クイック インサイトはデータの分布またはデータ ポイントの頻度、および欠落値と個別値を表示します。
-
データ グリッドは、データセット全体を表示できるスクロール可能なペインを提供します。
編集モードのインターフェイス
編集モードに切り替えると、Data Wrangler で追加の機能とユーザー インターフェイス要素が有効になります。次のスクリーンショットでは、Data Wrangler を使用して、最後の列の欠損値をその列の中央値に置き換えます。
-
操作パネルでは、Data Wrangler のすべての組み込みデータ操作を検索できます。操作はカテゴリ別に整理されています。
-
クリーニング手順パネルには、以前に適用されたすべての操作のリストが表示されます。ユーザーは特定の操作を元に戻したり、最新の操作を編集したりできます。ステップを選択すると、データ グリッド内の変更が強調表示され、その操作に関連付けられた生成コードが表示されます。
-
エクスポート メニューでは、コードを Jupyter Notebook にエクスポートしたり、データを新しいファイルにエクスポートしたりできます。
-
操作を選択し、データへの効果をプレビューすると、グリッドはデータに行った変更のデータ差分ビューでオーバーレイされます。
-
コード プレビューセクションには、操作が選択されたときに Data Wrangler が生成した Python および Pandas コードが表示されます。操作が選択されていない場合は空のままです。生成されたコードを編集すると、データ グリッドがデータへの影響を強調表示します。
例: データセットの欠損値を置き換える
データセットの場合、一般的なデータ クリーニング タスクの 1 つは、データ内に存在する欠損値を処理することです。以下の例は、Data Wrangler を使用して、列の欠損値をその列の中央値に置き換える方法を示しています。変換はインターフェイスを介して行われますが、Data Wrangler は欠損値の置き換えに必要な Python および Pandas コードも自動的に生成します。
- 操作パネルで、欠損値の入力操作を検索します。
- パラメーターで、欠損値を何に置き換えるかを指定します。この場合、欠損値を列の中央値に置き換えます。
- データ グリッドがデータ差分で正しい変更を表示していることを確認します。
- Data Wrangler によって生成されたコードが意図したものであることを確認します。
- 操作を適用すると、クリーニング手順の履歴に追加されます。
次のステップ
このページでは、Data Wrangler のクイック スタート方法について説明しました。Data Wrangler の現在のすべての組み込み操作を含む、Data Wrangler の完全なドキュメントとチュートリアルについては、次のページを参照してください。