#1-7. アルゴリズム - 探索アルゴリズム（リスト探索）
あるデータセットから所望のデータを探すとき，どのようなアルゴリズムを使うかによって効率的に探索できるのかどうかが変わってくる．実際にコードを動かして確認してみよう．

##データセットの準備

以下では，[メディア芸術データベースのデータ](https://github.com/mediaarts-db/dataset)を利用し，「ONE PIECE」のタイトルを出版日から探索していく．
上記のリンクから「マンガ単行本」の「.json」ファイルをダウンロードした後，このノートブックにアップロードしよう．

※「1-4. 単回帰分析」，「1-4. ロジスティック回帰分析」，「1-5. 1～3次元の図表化」,「1-5. 関係性の可視化（ネットワーク構造）」，「1-7. ソートアルゴリズム」，「1-7. 探索アルゴリズム」，「2-5. データ加工」，「3-3. 機械学習」は同じデータセットを利用するため，もし同じものを持っている場合は以下の取得作業は不要である．そちらをアップロードしよう．

ファイルサイズがとても大きいためアップロードには時間がかかる．ファイル名が反映されたことを確認するだけでなく，ファイルアップロード時の画面の下部にあるアップロードの進捗を示す円形のバーが全て進行するまで待ってから作業しよう．（およそ30分程度）

In [None]:
import json
import copy
import time

In [None]:
# ファイルを開き，読み込む
j_file=open('/content/metadata_cm-item_cm101_00001.json')
data = json.load(j_file)

# 漫画のデータは'@graph'配下にあるので，そこを切りだす
comics=data['@graph']

In [None]:
# ONE PIECEのタイトルを格納するリスト
onepiece=[]

# comicsデータ内の各要素（comic）を順番に見ていく
# 「タイトルに"ONE PIECE"が入っている」かつ「出版日のデータがあるもの」を"onepiece"リストに格納していく
for comic in comics:
  if 'label' in comic.keys() and 'ONE PIECE' in comic['label']:
    if('datePublished' in comic.keys()):

      date=comic['datePublished']
      date=date.replace('-','')
      date=date[0:6]
      onepiece.append([comic['label'],int(date)])

のちに紹介する二分探索では，探索するデータがソートされている必要がある．
そのため，ソート済みのデータも用意しておく．

In [None]:
# onepieceリストのコピーを作り，それをソートする
sorted_onepiece = copy.deepcopy(onepiece)

# 時間計測開始
start = time.time()

# 要素を頭から順番に見ていく
for i in range(len(sorted_onepiece)-1):
  # sorted_onepiece[0]~[終端]の中で，値の大きいものを次の値と交換するということを繰り返し，最大値を持つものを終端に追いやる
  # 終端側（値の大きい方）のi個がソート済みになるので，新しく最大値が終端に追いやられるたびに終端の位置を一つ手前にする（=len(sorted_onepiece)-1-iの意図）
  for j in range(len(sorted_onepiece)-1-i):
    if sorted_onepiece[j][1]>sorted_onepiece[j+1][1]:
      tmp1=sorted_onepiece[j]
      tmp2=sorted_onepiece[j+1]
      sorted_onepiece[j]=tmp2
      sorted_onepiece[j+1]=tmp1

# 時間計測終了
print("計算時間: ", time.time() - start)

sorted_onepiece

計算時間:  0.0008900165557861328


[['ONE PIECE冒険ロマン解析書', 199911],
 ['ONE PIECEキャラクター心理分析書', 200111],
 ['ONE PIECE RED', 200201],
 ['ONE PIECE 巻23', 200204],
 ['ONE PIECE 巻25', 200209],
 ['ONE PIECE 巻26', 200212],
 ['ONE PIECE 巻27', 200302],
 ['ONE PIECE熱血キャラ解析書', 200307],
 ['ONE PIECE 巻35', 200411],
 ['ONE PIECE THE 3RD LOG “NAMI', 200512],
 ['ONE PIECE COLOR WALK 3', 200601],
 ['ONE PIECE THE 4TH LOG “GRAND LINE', 200601],
 ['劇場版 ONE PIECE', 200803],
 ['ONE PIECE THE 13TH LOG “NICO ROBIN', 200907],
 ['ONE PIECE 巻55', 200909],
 ['ONE PIECE THE 6TH LOG “ARABASTA', 201002],
 ['ONE PIECE COLOR WALK 4', 201003],
 ['ONE PIECE THE 8TH LOG “SKYPIEA', 201003],
 ['ONE PIECE FILM STRONG WORLD 上', 201012],
 ['ONE PIECE BLUE DEEP CHARACTERS WORLD', 201203],
 ['ONE PIECE 総集編 THE11TH LOG', 201208],
 ['ONE PIECE 総集編 THE13TH LOG', 201208],
 ['ONE PIECE EXTRA LOG 1', 201212],
 ['ONE PIECE 総集編 THE20TH LOG', 201212],
 ['ONE PIECE COLOR WALK 6', 201401],
 ['ONE PIECE最強でサイコーの名言集', 201403],
 ['ONE PIECE 巻74', 201406],
 ['ONE PIECE 500 QUIZ 

##リスト探索

今回は2009年9月に出版された本について調べる．

In [None]:
want_num=200909

###線形探索

線形探索では，先頭（もしくは最後）から順番に要素を見ていって，条件に合致するものが見つかるまで続ける．

### ソートしていない配列に対する線形探索

In [None]:
# 時間計測開始
start = time.time()

# 所望のデータが見つかったかどうかを判定するフラグ
not_found=True

# 先頭から要素を見ていく
for i in range(len(onepiece)):
  # もし所望のデータが見つかったらprintし，フラグの値を変えてループから抜け出す
  if(onepiece[i][1]==want_num):
    print(onepiece[i][0])
    not_found=False
    break

if not_found:
  print('Not Found')

# 時間計測終了
print("計算時間: ", time.time() - start)

ONE PIECE 巻55
計算時間:  0.0015740394592285156


###ソート済みの配列に対する線形探索

In [None]:
# 時間計測開始
start = time.time()

# 所望のデータが見つかったかどうかを判定するフラグ
not_found=True

# 先頭から要素を見ていく
for i in range(len(sorted_onepiece)):
  # もし所望のデータが見つかったらprintし，フラグの値を変えてループから抜け出す
  if(sorted_onepiece[i][1]==want_num):
    print(sorted_onepiece[i][0])
    not_found=False
    break

if not_found:
  print('Not Found')

# 時間計測終了
print("計算時間: ", time.time() - start)

ONE PIECE 巻55
計算時間:  0.00213623046875


###二分探索

二分探索では，ソート済みのデータに対して探索を行う．

In [None]:
# 時間計測開始
start = time.time()

# 所望のデータが見つかったかどうかのフラグ
not_found=True

compare=sorted_onepiece

# リストを左半分・右半分に分割
mid=len(compare)//2
left_list=compare[:mid]
right_list=compare[mid+1:]

# リストの中央値と所望のデータを比べ，左右どちらのリストに所望のデータがあるのか判断
# 選んだ方のリストの中央値を見つけてまた半分にする...という作業を繰り返す
# 中央値が所望のデータになった（＝見つかった）時点で終了（成功）．
# 見つからず，かつリストが半分にできなくなってしまった場合も終了（失敗）．
while  len(compare)>0  and not_found:
  if compare[mid][1]>want_num:
    compare=left_list
    mid=len(compare)//2
    left_list=compare[:mid]
    right_list=compare[mid+1:]
  elif compare[mid][1]<want_num:
    compare=right_list
    mid=len(compare)//2
    left_list=compare[:mid]
    right_list=compare[mid+1:]
  else :
    not_found=False
    print(compare[mid][0])
    break

if not_found:
  print('Not Found')

# 時間計測終了
print("計算時間: ", time.time() - start)

ONE PIECE 巻55
計算時間:  0.0005247592926025391
