予備実験、評価実験など、全ての実験をする前に、評価実験の手順書を作成します。
手順書には、以下の項目を書きます。
- 実験の目的
- 評価するデータ
- 比較システム、比較手法
- 評価する方法
実験の目的 †
可能な限り「具体的に」書く。具体的でなければ意味がない。例えば、
- 専門用語の抽出システムの精度を評価する。
- アイデア発想支援システムのアイデア発想の有用性を評価する。
- 議論活性化支援システムの議論活性の有用性を評価する。
など、自分の作ったシステムが行う事を具体的に書き、その有用性を評価する、と、目的に書く。
評価するデータ †
これも可能な限り具体的に書く。具体的でなければ、実験が始められない。例えば、
- 提案システムを用いて抽出された専門用語の集合と、人手により抽出された専門用語の集合の重複を評価する。
- 提案システムを用いて発想されたアイデアの質と、比較システムを用いて発想されたアイデアの質を比較し、評価する。
- 提案システムを用いたときに出された話題の数と、比較システムを用いたときに出された話題の数を比較し、評価する。
など、実験で出すデータを具体的に書き、何と比較するかを書く。比較対象がなければ、自らの有用性は主張できない。
比較システム、比較手法 †
自らのシステムの良さを証明するためには、「●●と比べて」という修飾語が必要である。絶対的に良いシステムなど存在しない。システムは、全て、何かと比べて、相対的に良いものである。
比較システムは、提案システムと勝負させて、フェアな勝負ができるものでなければならない。よわよわな比較システムを持ってきて、「勝ちました!」と主張しても、鼻で笑われるだけである。
提案システムのコアの部分を除いて、比較システムを作る事が多い。例えば、
- 議論活性化のために、提案システムが話題にするとよい単語を出すのであれば、単語を出す機能だけを除いて比較システムを用意する。
など、研究目的を達成するために作った一番のコアを除くとフェアな実験ができる。
評価する方法 †
数値または、アンケートによる評価方法がある。アンケート単独では評価にならないため、数値のみ、または数値ANDアンケート(数値による評価がびみょーな場合)と2通りの方法がある。例えば、
- 提案システムの専門用語抽出の適合率と再現率とF値を算出する。
- アイデアを、新規性、実現可能性、独創性の観点から4段階で評価する主観評価実験を追加で行う。提案システムのアイデアの質と、比較システムのアイデアの質について、4段階の平均を出し、平均について統計的検定を行い、有意の差を確認する。
- 提案システムの話題の数と、比較システムの話題の数に対して、それぞれ平均を出し、統計的検定を行う。
などが考えられる。他手法との数値の比較をする際には、統計的検定が必須であるので、「マンガで分かる統計的検定」を読んで勉強すること。ツールとしてはRを使えばよい。
実験手順書を作る †
以下の項目を埋めて、実験手順書を作ります。
- 実験目的
- 実験手順
- Youtubeでサッカーを検索し、上位10件の動画と音声ファイルを入手する
- 10件の音声ファイルを書き起こし、テキストを作る。
- 人手により、テキストから専門用語を抽出する
- 提案システムを用いて、テキストから専門用語を抽出する
- 比較システムを用いて、テキストから専門用語を抽出する
- 提案システムと、比較システムの専門用語抽出の精度を算出する
- 比較システム、比較手法
- 評価するデータの種類と数
- 人手により抽出された専門用語×10個のテキスト
- 提案システムにより抽出された専門用語×10個のテキスト
- 比較システムにより抽出された専門用語×10個のテキスト
- 被験者の種類と数
- 評価方法
- 提案システムによる専門用語抽出の適合率と再現率×10個のテキスト、および平均と分散
- 比較システムによる専門用語抽出の適合率と再現率×10個のテキスト、および平均と分散
補足 †
卒論執筆前に、これを読んでおくとよい。
http://www015.upp.so-net.ne.jp/notgeld/sotsuron.html