樋口 直哉 Higichi Naoya


photo2 thumb 160xauto 20138樋口 直哉

学位

博士(情報工学)

所属
  • 情報学科 

研究キーワード

類似検索検索、大規模データベース

研究室の紹介

大規模データベースに対する類似検索の高性能化ーコンピュータの演算能力や記憶容量などの性能の向上により、音楽や動画、画像といったマルチメディアデータを大量に利用したシステムが多く作られています。このようなシステムにおいて、目的の音楽や動画、画像データに類似したデータを高速に探しだす類似検索の技術は重要です。

類似検索の応用例としては、たとえば、Youtubeなどの動画投稿サイトでの検索が考えられます。動画の検索でキーワードを利用することが一般的ですが、動画や画像を使い、それに類似している動画を検索することが出来れば便利です。また、動画投稿サイトでの違法アップロードの検出にも類似検索は利用できます。この場合、保護対象の動画データに類似している動画を動画投稿サイトのデータベースから検索します。保護対象の動画と似ている動画は違法アップロードされた動画の可能性が高いと言えます。

有名な動画投稿サイトやソーシャルメディアへ投稿される画像や動画などの量を思い浮べてもらえば分かるように、検索対象のデータベースが非常に大規模なものであることはめずらしくありません。このような場合では、目的のデータを膨大な数のデータの中から効率良く見つけ出すことは困難になります。また、検索対象がマルチメディアである場合には、それぞれのデータ自体が大量の情報から成り立っていることも、検索を効率良く行なうことへの妨げとなります。例えば、デジタルカメラで撮影して得られる画像データは、ぱっと見ただけだと私達が自分自身の目でみた風景と同じに見えますが、拡大してみると、画像データが実は小さな色のついた大量の四角いマス(画素やピクセルと呼ばれます。)から成り立っていることが分ります。

私の研究テーマは類似検索手法の高速化です。大量のマルチメディアデータからの類似検索では次元縮小や
R-treeやM-treeと呼ばれる空間索引を利用るものが一般的に利用されています。しかしながら、R-treeやM-treeにはデータベースに類似データが存在しない場合に検索速度が遅くなってしまうという問題があります。私の近の研究では、空間索引による類似検索ではなく、スケッチと呼ばれる手法による検索候補の絞り込み利用する類似検索の高速化を提案しました。ここではスケッチによって検索対象のデータを短かいバイナリ文字列に圧縮し、スケッチ間の距離によって検索対象の候補を絞っています。

 学生にむけて

情報系でも分野による違いはありますが、プログラミング能力は重要だと思います。これは単にプログラムが書けるというだけでなく、物事を論理的に示す能力という意味です。プログラミングはやればやるだけ上達します。最初は面白みが感じにくいですが、手足のように使えるようになれば、自分の作りたいものを作れるようになり、プログラミングが楽しくなってきます。私の研究では計算コストを大幅に削減できたときや、同程度の計算コストで検索精度を向上させられたときに、目に見えて結果が出ます。私の研究室の学生にはぜひ、プログラミングの楽しさと達成感を体験して欲しいです。