あらすじ:
語感から受ける印象には形状,大きさ,美しさなど様々なものが考えられる.膨大な種類の発音に対するラベル付きデータを用意して機械学習を直接行なえば,未知の発音に対してその語感から受ける印象を推定することは可能である.しかしそのような手法では,推定結果がブラックボックス化されて説明可能性が欠落してしまう.そこで本発表では,Contrastive Language-Image Pre-training(CLIP)を利用し,発音から画像生成を行なう手法を構築することで,注目する語の語感から受ける印象の可視化を検討する.また,生成した画像に対してCLIPを再度適用することで,特定の印象を連想させる発音の検索も試みる.
種類: Poster at MIRU Symposium (画像の認識・理解シンポジウム)
日付: July 2022