TRIPIT Labs > 技術紹介
技術紹介
TRIPITの関連検索の根幹を支えているのは、言語処理とデータベース構築に高い技術力を有する株式会社サーバードメイン(以下、サーバードメイン社)と共同開発した富士フイルム独自のシソーラス辞書です。
シソーラス辞書
本シソーラス辞書は、日本語処理技術並びに数学的な理論を応用して構築されています。シソーラス構築において、文章中の「ことば」と「ことば」の繋がりを抽出してデータベース化し、それぞれの「ことば」同士の関連性を各種統計量などから重み付けを行うなど当社独自の計算方法により定量化することにより、独自の言語体系を構築しています。
またTRIPITには、より多くのことばを学習させることにより、自動で辞書を拡張する次世代学習エンジンを組込んでおり、富士フイルムは今後もより精度の高い関連検索を実現させるため、市場のニーズに応じて、情報源の拡張とともに、シソーラスを随時拡充させていきます。
現在シソーラス辞書に収録されている語彙数は数十万語。それらの言語同士の関連は数千万にも上ります。また、文章中の「ことば」同士の関連性を数値化するに当たっては、オンライン百科事典Wikipediaの記事上におけるキーワードの関連をスコアリングに応用しています。
高速データベース検索
シソーラス辞書を用いた関連画像検索を高速に実現するために欠かせないインデックス処理には、サーバードメイン社の高度なデータベース構築技術が活かされております。




