在對tag的Pre-prcessing中 , 我們分成兩個步驟:
Step 1: 對個別Tag進行similarity的比較 , 將similarity較高的tag分為同一群組.
Step 2: 藉由Step 1的data對每張image的tag進行統計.
一 . Tag 分群
我們共有3152個tag , 針對每個tag ,我們藉由search engine的協助 , 將每個tag丟
到search engine進行search , 並截取了Search Engine所回傳的URL (取Top-10 )
對每個tag的URL , 進行兩兩比較 , 若存在著1個以上相同的URL , 我們就視為這
兩個tag 具有相同的meaning , 其中越晚比較的tag ,其結果將會覆蓋前面的tag
結果.(因為tag 一開始是依照image的順序進行排列 , 所以根據這樣的關係 , 我
們認為兩個tag的位置越接近的話 , 會比較遠的tag較具有較大程度上的關係.
以下的檔案記錄了每個tag 所分到的群組.
http://taipei-kw.myweb.hinet.net//MMAI/Project/dataset/Tag_Cluster.txt
二 . Picture中 , 相同meaning的 tag數目統計
藉由Tag的分群資料 , 我們先對每個image的tag進行比對並統計了具有相同
meaning的tag出現次數 , 並選出了每個群組中具有代表性的tag .
picture的tag群組資料檔案:
http://taipei-kw.myweb.hinet.net//MMAI/Project/dataset/pic_cluster.txt
各個群組的代表性tag:
http://taipei-kw.myweb.hinet.net//MMAI/Project/dataset/Cluster.txt