評価実験手順書作成

予備実験、評価実験など、全ての実験をする前に、評価実験の手順書を作成します。手順書には、以下の項目を書きます。

実験の目的 †

可能な限り「具体的に」書く。具体的でなければ意味がない。例えば、

など、自分の作ったシステムが行う事を具体的に書き、その有用性を評価する、と、目的に書く。

これも可能な限り具体的に書く。具体的でなければ、実験が始められない。例えば、

など、実験で出すデータを具体的に書き、何と比較するかを書く。比較対象がなければ、自らの有用性は主張できない。

自らのシステムの良さを証明するためには、「●●と比べて」という修飾語が必要である。絶対的に良いシステムなど存在しない。システムは、全て、何かと比べて、相対的に良いものである。

比較システムは、提案システムと勝負させて、フェアな勝負ができるものでなければならない。よわよわな比較システムを持ってきて、「勝ちました！」と主張しても、鼻で笑われるだけである。

提案システムのコアの部分を除いて、比較システムを作る事が多い。例えば、

など、研究目的を達成するために作った一番のコアを除くとフェアな実験ができる。

数値または、アンケートによる評価方法がある。アンケート単独では評価にならないため、数値のみ、または数値ANDアンケート（数値による評価がびみょーな場合）と２通りの方法がある。例えば、

提案システムの専門用語抽出の適合率と再現率とF値を算出する。
アイデアを、新規性、実現可能性、独創性の観点から4段階で評価する主観評価実験を追加で行う。提案システムのアイデアの質と、比較システムのアイデアの質について、4段階の平均を出し、平均について統計的検定を行い、有意の差を確認する。
提案システムの話題の数と、比較システムの話題の数に対して、それぞれ平均を出し、統計的検定を行う。

などが考えられる。他手法との数値の比較をする際には、統計的検定が必須であるので、「マンガで分かる統計的検定」を読んで勉強すること。ツールとしてはRを使えばよい。

以下の項目を埋めて、実験手順書を作ります。

実験目的
- 専門用語の抽出システムの精度を評価する。
実験手順
1. Youtubeでサッカーを検索し、上位10件の動画と音声ファイルを入手する
2. 10件の音声ファイルを書き起こし、テキストを作る。
3. 人手により、テキストから専門用語を抽出する
4. 提案システムを用いて、テキストから専門用語を抽出する
5. 比較システムを用いて、テキストから専門用語を抽出する
6. 提案システムと、比較システムの専門用語抽出の精度を算出する
比較システム、比較手法
- 提案システムから●●の機能を除いたもの。
評価するデータの種類と数
1. 人手により抽出された専門用語×10個のテキスト
2. 提案システムにより抽出された専門用語×10個のテキスト
3. 比較システムにより抽出された専門用語×10個のテキスト
被験者の種類と数
- 専門用語抽出する被験者×3名
評価方法
1. 提案システムによる専門用語抽出の適合率と再現率×10個のテキスト、および平均と分散
2. 比較システムによる専門用語抽出の適合率と再現率×10個のテキスト、および平均と分散

卒論執筆前に、これを読んでおくとよい。 http://www015.upp.so-net.ne.jp/notgeld/sotsuron.html