# 1-4. データ分析 - ロジスティック回帰分析

ロジスティック回帰モデルとは，二値分類によく使われるモデルであり，ある1つの説明変数$x$がある目的変数$y=\{0,1\}$のいずれかに対応するとき，$y=0$になる確率を$\frac{exp(a+bx)}{1+exp(a+bx)}$, $y=1$になる確率を$\frac{1}{1+exp(a+bx)}$,というように表すことで予測を行うモデルのことを指す．

ロジスティック回帰分析では，尤度関数の最大化によってモデルのパラメータ$a,b$を決定する．

[メディア芸術データベースのデータ](https://github.com/mediaarts-db/dataset)を利用して，簡単なロジスティック回帰分析のサンプルコードを見ていこう．


## データセットの準備
以下では，[メディア芸術データベースのデータ](https://github.com/mediaarts-db/dataset)を利用し，マンガタイトルから「集英社」，「小学館」のどちらが出版したマンガなのかを予測するロジスティック回帰を行う．
上記のリンクから「マンガ単行本」の「.json」ファイルをダウンロードした後，このノートブックにアップロードしよう．

※「1-4. 単回帰分析」，「1-4. ロジスティック回帰分析」，「1-5. 1～3次元の図表化」,「1-5. 関係性の可視化（ネットワーク構造）」，「1-7. ソートアルゴリズム」，「1-7. 探索アルゴリズム」，「2-5. データ加工」，「3-3. 機械学習」は同じデータセットを利用するため，もし同じものを持っている場合は以下の取得作業は不要である．そちらをアップロードしよう．


ファイルサイズがとても大きいためアップロードには時間がかかる．ファイル名が反映されたことを確認するだけでなく，ファイルアップロード時の画面の下部にあるアップロードの進捗を示す円形のバーが全て進行するまで待ってから作業しよう．（およそ30分程度）

In [None]:
import json
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

json_open = open('/content/metadata_cm-item_cm101_00001.json', 'r')
json_load = json.load(json_open, strict=False)

## ロジスティック回帰分析

In [None]:
df_logi = pd.DataFrame(json_load["@graph"])
df_logi=df_logi[['label',"publisher"]]
df_logi["publisher"]=df_logi["publisher"].str[:3]
df_logi=df_logi[(df_logi["publisher"].str.contains("集英社")) |(df_logi["publisher"].str.contains("小学館"))]

# 出版社が「集英社」なら1、それ以外（つまり小学館）なら0に変換する関数
def convert_publisher(publisher):
    if  '集英社' in publisher:
        return 1
    else:
        return 0

# 出版社列を集英社なら1それ以外を0に変換
df_logi['publisher'] = df_logi['publisher'].apply(convert_publisher)

# テキストデータをベクトル化するオブジェクトを作成
vectorizer = TfidfVectorizer()
# テキストデータをベクトル化
features = vectorizer.fit_transform(df_logi['label'])

#訓練データとテストデータに分割
X_train, X_test, Y_train, Y_test = train_test_split(features, df_logi['publisher'], test_size = 0.2, random_state = 0)
logistic=LogisticRegression()
#フィッティング
logistic.fit(X_train,Y_train)
#予測
Y_pred = logistic.predict(X_test)
#正解率表示
print('正解率 = ', accuracy_score(y_true=Y_test, y_pred=Y_pred))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_logi['publisher'] = df_logi['publisher'].apply(convert_publisher)


正解率 =  0.847540185094983
