VS Code での Data Wrangler の使用開始
Data Wrangler は、VS Code および VS Code Jupyter Notebooks に統合された、コード中心のデータ表示およびクリーニングツールです。データの表示と分析、洞察に満ちた列統計と視覚化の表示、およびデータのクリーニングと変換を行う際に Pandas コードを自動的に生成するための豊富なユーザーインターフェースを提供します。
以下は、ノートブックから Data Wrangler を開き、組み込みの操作でデータを分析およびクリーニングする例です。その後、自動生成されたコードがノートブックにエクスポートされます。
このドキュメントでは、次の方法について説明します。
- Data Wrangler のインストールとセットアップ
- ノートブックから Data Wrangler を起動する
- データファイルから Data Wrangler を起動する
- Data Wrangler を使用してデータを探索する
- Data Wrangler を使用してデータに対する操作とクリーニングを実行する
- データラングリングコードを編集してノートブックにエクスポートする
- トラブルシューティングとフィードバックの提供
環境をセットアップする
- まだインストールしていない場合は、Python をインストールしてください。 重要: Data Wrangler は Python バージョン 3.8 以降のみをサポートしています。
- Visual Studio Code をインストールします。
- Data Wrangler 拡張機能をインストールする
Data Wrangler を初めて起動すると、接続する Python カーネルを選択するように求められます。また、Pandas など、必要な Python パッケージがインストールされているかどうかをマシンと環境で確認します。
以下は、Python および Python パッケージに必要なバージョンと、Data Wrangler によって自動的にインストールされるかどうかの一覧です。
名前 | 最小必須バージョン | 自動的にインストール |
---|---|---|
Python | 3.8 | いいえ |
pandas | 0.25.2 | はい |
これらの依存関係が環境に見つからない場合、Data Wrangler は pip
を使用してインストールを試みます。Data Wrangler が依存関係をインストールできない場合、最も簡単な回避策は、手動で pip install
を実行し、Data Wrangler を再度起動することです。これらの依存関係は、Data Wrangler が Python および Pandas コードを生成するために必要です。
Data Wrangler を開く
Data Wrangler を使用しているときはいつでも、サンドボックス化された環境にいます。つまり、データを安全に探索および変換できます。元のデータセットは、変更を明示的にエクスポートするまで変更されません。
Jupyter Notebook から Data Wrangler を起動する
Jupyter Notebook から Data Wrangler を起動するには、3 つの方法があります。
- Jupyter > 変数 パネルで、サポートされている任意のデータオブジェクトの横に、Data Wrangler を起動するためのボタンが表示されます。
- ノートブックに Pandas データフレームがある場合、データフレームを出力するコードを実行した後、セルの一番下に Data Wrangler で 'df' を開く ボタン ('df' はデータフレームの変数名) が表示されるようになりました。これには、1)
df.head()
、2)df.tail()
、3)display(df)
、4)print(df)
、5)df
が含まれます。 - ノートブックツールバーで、データを表示 を選択すると、ノートブック内のサポートされているすべてのデータオブジェクトのリストが表示されます。次に、そのリストで Data Wrangler で開く変数を選択できます。
ファイルから Data Wrangler を直接起動する
ローカルファイル (.csv
など) から Data Wrangler を直接起動することもできます。これを行うには、開きたいファイルが含まれているフォルダーを VS Code で開きます。エクスプローラービューで、ファイルを右クリックし、Data Wrangler で開く をクリックします。
Data Wrangler は現在、次のファイルタイプをサポートしています。
.csv
/.tsv
.xls
/.xlsx
.parquet
ファイルタイプに応じて、ファイルの区切り文字やシートを指定できます。
これらのファイルタイプをデフォルトで Data Wrangler で開くように設定することもできます。
UI ツアー
Data Wrangler には、データを操作する際に 2 つのモードがあります。各モードの詳細については、以下のセクションで説明します。
- 表示モード: 表示モードは、データをすばやく表示、フィルター処理、および並べ替えるためのインターフェースを最適化します。このモードは、データセットの初期探索を行うのに最適です。
- 編集モード: 編集モードは、データセットへの変換、クリーニング、または変更を適用するためのインターフェースを最適化します。インターフェースでこれらの変換を適用すると、Data Wrangler は関連する Pandas コードを自動的に生成し、これは再利用のためにノートブックにエクスポートできます。
注: デフォルトでは、Data Wrangler は表示モードで開きます。この動作は、設定エディター で変更できます。
表示モードインターフェース
-
データ概要 パネルには、データセット全体または特定の列 (選択されている場合) の詳細な概要統計が表示されます。
-
列のヘッダーメニューから、列に任意の データフィルター/ソート を適用できます。
-
Data Wrangler の 表示 モードまたは 編集 モードを切り替えて、組み込みのデータ操作にアクセスします。
-
クイックインサイト ヘッダーは、各列に関する貴重な情報をすばやく確認できる場所です。列のデータ型に応じて、クイックインサイトには、データの分布またはデータポイントの頻度、および欠損値と個別値が表示されます。
-
データグリッド には、データセット全体を表示できるスクロール可能なペインが表示されます。
編集モードインターフェース
編集モードに切り替えると、Data Wrangler で追加の機能とユーザーインターフェース要素が有効になります。次のスクリーンショットでは、Data Wrangler を使用して、最後の列の欠損値をその列の中央値に置き換えています。
-
操作 パネルは、Data Wrangler の組み込みデータ操作全体を検索できる場所です。操作はカテゴリ別に整理されています。
-
クリーニングステップ パネルには、以前に適用されたすべての操作のリストが表示されます。これにより、ユーザーは特定の操作を元に戻したり、最新 の操作を編集したりできます。ステップを選択すると、データ差分ビューで変更が強調表示され、その操作に関連付けられた生成されたコードが表示されます。
-
エクスポートメニュー を使用すると、コードを Jupyter Notebook にエクスポートしたり、データを新しいファイルにエクスポートしたりできます。
-
操作を選択し、データに対する効果をプレビューしている場合、グリッドはデータに対して行った変更の データ差分 ビューでオーバーレイされます。
-
コードプレビュー セクションには、操作が選択されたときに Data Wrangler が生成した Python および Pandas コードが表示されます。操作が選択されていない場合は空のままです。生成されたコードを編集すると、データグリッドにデータに対する効果が強調表示されます。
Data Wrangler の操作
組み込みの Data Wrangler 操作は、操作 パネルから選択できます。
次の表に、Data Wrangler の初期リリースで現在サポートされている Data Wrangler 操作を示します。近い将来、より多くの操作を追加する予定です。
操作 | 説明 |
---|---|
並べ替え | 列を昇順または降順に並べ替える |
フィルター | 1 つ以上の条件に基づいて行をフィルター処理する |
テキスト長の計算 | テキスト列の各文字列値の長さに等しい値を持つ新しい列を作成する |
One-hot エンコード | カテゴリデータをカテゴリごとに新しい列に分割する |
マルチラベル二値化 | 区切り文字を使用してカテゴリデータをカテゴリごとに新しい列に分割する |
数式から列を作成 | カスタム Python 数式を使用して列を作成する |
列の型の変更 | 列のデータ型を変更する |
列の削除 | 1 つ以上の列を削除する |
列の選択 | 保持する列を 1 つ以上選択し、残りを削除する |
列の名前変更 | 1 つ以上の列の名前を変更する |
列の複製 | 1 つ以上の列のコピーを作成する |
欠損値の削除 | 欠損値のある行を削除する |
重複行の削除 | 1 つ以上の列に重複値があるすべての行を削除する |
欠損値の補完 | 欠損値のあるセルを新しい値に置き換える |
検索と置換 | 一致するパターンを持つセルを置き換える |
列でグループ化して集計 | 列でグループ化して結果を集計する |
空白のトリミング | テキストの先頭と末尾から空白を削除する |
テキストの分割 | ユーザー定義の区切り文字に基づいて列を複数の列に分割する |
最初の文字を大文字にする | 最初の文字を大文字に、残りを小文字に変換します |
テキストを小文字に変換する | テキストを小文字に変換する |
テキストを大文字に変換する | テキストを大文字に変換する |
例による文字列変換 | 指定した例からパターンが検出された場合に、文字列変換を自動的に実行します |
例による DateTime 形式設定 | 指定した例からパターンが検出された場合に、DateTime 形式設定を自動的に実行します |
例による新しい列 | 指定した例からパターンが検出された場合に、列を自動的に作成します。 |
最小/最大値のスケール | 数値列を最小値と最大値の間でスケールします |
丸め | 数値を指定された小数点以下の桁数に丸めます |
切り捨て (floor) | 数値を最も近い整数に切り捨てます |
切り上げ (ceiling) | 数値を最も近い整数に切り上げます |
カスタム操作 | 例と既存の列の派生に基づいて新しい列を自動的に作成します |
Data Wrangler でサポートしてほしい操作が不足している場合は、Data Wrangler GitHub リポジトリ に機能リクエストを提出してください。
前の手順の変更
生成されたコードの各ステップは、クリーニングステップ パネルで変更できます。最初に、変更するステップを選択します。次に、操作 (コードまたは操作パネルのいずれか) を変更すると、データに対する変更の効果がグリッドビューで強調表示されます。
コードの編集とエクスポート
Data Wrangler でのデータクリーニングステップが完了したら、Data Wrangler からクリーニングされたデータセットをエクスポートするには、3 つの方法があります。
- コードをノートブックにエクスポートして終了: これにより、生成したすべてのデータクリーニングコードが Python 関数にパッケージ化され、Jupyter Notebook に新しいセルが作成されます。
- データをファイルにエクスポート: これにより、クリーニングされたデータセットが新しい CSV または Parquet ファイルとしてマシンに保存されます。
- コードをクリップボードにコピー: これにより、データクリーニング操作のために Data Wrangler によって生成されたすべてのコードがコピーされます。
列の検索
データセット内の特定の列を見つけるには、Data Wrangler ツールバーから 列へ移動 を選択し、目的の列を検索します。
トラブルシューティング
一般的なカーネル接続の問題
一般的な接続の問題については、上記の「Python カーネルへの接続」セクションで、代替の接続方法を参照してください。ローカル Python インタープリターオプションに関連する問題をデバッグするには、問題を解決する可能性のある方法の 1 つは、Jupyter および Python 拡張機能の異なるバージョンをインストールすることです。たとえば、拡張機能の安定版がインストールされている場合は、プレリリースバージョン (またはその逆) をインストールする場合があります。
既にキャッシュされたカーネルをクリアするには、コマンドパレット ⇧⌘P (Windows、Linux Ctrl+Shift+P) から Data Wrangler: キャッシュされたランタイムをクリア
コマンドを実行できます。
データファイルを開くと UnicodeDecodeError
が発生する
Data Wrangler からデータファイルを直接開くときに UnicodeDecodeError
が発生した場合、これは次の 2 つの可能性のある問題が原因である可能性があります。
- 開こうとしているファイルのエンコードが
UTF-8
以外である - ファイルが破損している。
このエラーを回避するには、データファイルから直接ではなく、Jupyter Notebook から Data Wrangler を開く必要があります。Jupyter Notebook を使用して、Pandas を使用してファイルを読み取ります。たとえば、read_csv メソッドを使用します。read
メソッド内で、encoding
および/または encoding_errors
パラメーターを使用して、使用するエンコードまたはエンコードエラーの処理方法を定義します。このファイルで使用できるエンコードがわからない場合は、chardet などのライブラリを試して、機能するエンコードを推測できます。
質問とフィードバック
問題、機能リクエスト、またはその他のフィードバックがある場合は、GitHub リポジトリに Issue を送信してください: https://github.com/microsoft/vscode-data-wrangler/issues/new/choose
データとテレメトリ
Visual Studio Code 用の Microsoft Data Wrangler 拡張機能は、製品とサービスの向上に役立てるために、使用状況データを収集して Microsoft に送信します。詳細については、プライバシー ステートメント をお読みください。この拡張機能は、https://vscode.dokyumento.jp/docs/configure/telemetry で詳細を確認できる telemetry.telemetryLevel
設定を尊重します。