Up
コーパス (corpus)
作成: 2025-05-10
更新: 2025-05-10
自然言語 (自然な言語表現) のデータベース
文章や会話などを大量に集めて,コンピュータで処理しやすいように構造化した,言語データベース。
チャットボットの製作では,実際の言語使用の状況(頻度・文脈)を,教師なし学習で学習させる。,
この学習のデータセットとして,コーパスがよく使われる。
日本語コーパス
国立国語研究所・他 :「現代日本語書き言葉均衡コーパス(BCCWJ:Balanced Corpus of Contemporary Written Japanese)」
データのフォーマット
BCCWJ の場合 : ファイル形式 XMLで電子化
「サンプル画像 : 係り受け構造、節単位、重要文情報ビューワー」
参考ウェブサイト
Adcal :「コーパスとは?AI開発を支える“言語データの資産”を徹底解説」
Wikipedia
コーパス
国語研コーパスポータル :「言語コーパスガイダンス」