SHACHI

言語資源メタデータデータベースSHACHI
Language Resources Metadata Database SHACHI

SHACHI の概要

  1. SHACHI ホーム >
  2. SHACHI の概要

情報通信機構NICTと名古屋大学では、共同で、言語資源の有機的結合を目的に、欧米・アジア諸国の言語資源の詳細なメタ情報を大規模に収集し、大規模言語資源データベースSHACHIを構築している。本プロジェクトの目的は、付与した詳細なメタ情報を利用して、言語資源間の関係性を記述し、言語資源間を有機的に結合することである。

SHACHIに収録されている言語資源(コーパス・辞書・シソーラス・語彙リスト)は1700件を超え、大規模な言語資源アーカイブとなっている。Metadataは、OLACmetadataSetを拡張したもので、全45種類に及ぶ詳細なメタ情報を人手によって収集している。本言語資源データベースSHACHIは既にいくつかの研究機関に公開しており、アジアの言語資源イニシアティブとして、今後貢献していく予定である。本論文では、SHACHIの設計・構築、および、メタ情報を用いたファセット検索機能の実現について述べる。