# 1-2. 分析設計 - データの収集、加工、分割／統合
分析などのデータは，例えば[メディア芸術データベース](https://mediaarts-db.artmuseums.go.jp)などから入手できる．他にも様々なデータベースがあるのでそれを利用することもできる．

以下では，実際に生のjsonデータをダウンロードしてから，どのように目的のデータ（今回は「バンダイビジュアル」が提供するアニメビデオパッケージの，タイトルおよび値段の項目のみに絞ったデータ）になるように加工するのかを見ていく．

## データセットの準備
以下では，[メディア芸術データベースのデータ](https://github.com/mediaarts-db/dataset)を利用する．
上記のリンクから「アニメビデオパッケージ」の「.json」ファイルをダウンロードした後，このノートブックにアップロードしよう．

※「1-2. クラスタリング/1-4. クラスター分析」，「1-2. データの収集、加工、分割／統合」は同じデータセットを利用するため，もし同じものを持っている場合は以下の取得作業は不要である．そちらをアップロードしよう．

ファイルサイズがとても大きいためアップロードには時間がかかる．ファイル名が反映されたことを確認するだけでなく，ファイルアップロード時の画面の下部にあるアップロードの進捗を示す円形のバーが全て進行するまで待ってから作業しよう．（およそ5分程度）

In [None]:
import json
import pandas as pd

#データ入手
json_open = open('/content/metadata_an-item_an202_00001.json', 'r')
json_load = json.load(json_open, strict=False)

## 加工・分割・統合

In [None]:
#加工
#publisherがバンダイビジュアルのもののみ抽出する
df = pd.DataFrame(json_load["@graph"]).dropna(subset=['publisher', 'label', 'price'])
df=df[df['publisher'].str.contains("バンダイビジュアル")]

#分割
#データをlabelとpriceごとに分割
label_df = df['label']
price_df = df["price"]
print(label_df)
print(price_df)


3391                                                ヒピラくん
3418                                          宇宙戦艦ヤマト2199
3420                                      おねがい*ティーチャーツインズ
3444                                     Kurobas cup 2013
3445                ラブライブ!school idol project-国立音ノ木坂学院案内-
                              ...                        
9567                                           攻殻機動隊arise
9577                                           攻殻機動隊arise
9703            機動戦士ガンダムUC episode 6 「宇宙*と地球*と」*[そら]*[ほし]
9875    (新)テニスの王子様OVA vs genius10 The prince of tennis...
9876                           (新)テニスの王子様 OVA vs genius10
Name: label, Length: 147, dtype: object
3391    3990円 (税込)
3418    3990円 (税込)
3420    7140円 (税込)
3444    8190円 (税込)
3445    6300円 (税込)
           ...    
9567         6800円
9577         6800円
9703    6264円 (税込)
9875         6000円
9876         6000円
Name: price, Length: 147, dtype: object


In [None]:
#統合
#上のデータを統合
merged_df = pd.concat([label_df, price_df], axis=1)
print(merged_df)

                                                  label       price
3391                                              ヒピラくん  3990円 (税込)
3418                                        宇宙戦艦ヤマト2199  3990円 (税込)
3420                                    おねがい*ティーチャーツインズ  7140円 (税込)
3444                                   Kurobas cup 2013  8190円 (税込)
3445              ラブライブ!school idol project-国立音ノ木坂学院案内-  6300円 (税込)
...                                                 ...         ...
9567                                         攻殻機動隊arise       6800円
9577                                         攻殻機動隊arise       6800円
9703          機動戦士ガンダムUC episode 6 「宇宙*と地球*と」*[そら]*[ほし]  6264円 (税込)
9875  (新)テニスの王子様OVA vs genius10 The prince of tennis...       6000円
9876                         (新)テニスの王子様 OVA vs genius10       6000円

[147 rows x 2 columns]
