2013年度4年生後期ゼミの変更点

追加された行はこの色です。
削除された行はこの色です。
2013年度4年生後期ゼミへ行く。
2013年度4年生後期ゼミの差分を削除
* 出欠 [#b13087fd]

||12月6日|	12月10日|	12月13日|	12月17日|	12月20日|	12月24日|	1月7日|	1月10日|	1月14日|	1月17日|
|小林|o|○|○||||||||
|鍵田	|o|聴講|○||||||||
|日比野|o|○|○||||||||
|上野	|o|○|風邪||||||||
|金児	|o|発表|○||||||||
|梁|o|発表|○||||||||
|岩佐	|o|就活|○||||||||

~

||	11月1日|	11月5日|	11月8日|	11月12日|	11月15日|	11月19日|	11月22日|	11月26日|	11月29日|	12月3日|
|岩佐|○|○|○|○|○|○|○|○|○|○|
|上野|○|○|○|○|○|○|部活|○|○|○|
|鍵田|○|○|○|○|○|遅刻|○|風邪|○|○|
|金児|○|○|○|○|○|○|○|○|発表|○|
|小林|○|○|○|○|○|○|○|○|○|○|
|日比野|○|○|○|○|×|風邪|○|○|○|○|
|梁|結婚式|○|○|○|○|○|○|○|家の都合|○|

~

||9月27日|10月1日|10月4日|10月8日|10月11日|10月15日|10月18日|10月22日|10月25日|10月29日|
|岩佐|○|内定式|○|発表|○|○|発表|○|-|○|
|上野|○|内定式|○|発表|○|○|発表|部活|-|○|
|鍵田|○|発表|○|○|発表|○|遅刻|○|-|○|
|金児|○|○|発表|○|○|○|○|発表|-|○|
|小林|○|発表|○|○|○|○|○|○|-|○|
|日比野|○|内定式|○|○|発表|○|○|発表|-|○|
|梁|○|内定式|○|○|○|○|○|風邪|-|○|
|大泉|×|×|×|×|×||||-||
|菱田|×|×|×|×|×||||-||




*連絡 [#hf3e3d41]
- 小林君に年末のサーバシャットダウンとリスタートをお願いする

*進捗 [#m36ca4d3]
**岩佐 [#ce608fec]
***10/8 [#s095e0eb]
- 「電子掲示板への投稿を避けるべき文章の自動判定システム」で確定
- バッドワードを追加／更新するアルゴリズムを考えて、手動で動作チェックした
- アルゴリズムが良くわからなかったので、分かりやすく書き直してもらって、個人ミーティングをする。個人ミーティング後にプログラム作成にはいる。

***10/18 [#jd6e21ad]
- タイトル確定
- アルゴリズムのフローチャートを作成
- アルゴリズムに基づいてプログラムを作るが途中
- 次回までの課題&#9312;プログラムを完成させる、&#9313;完成させたプログラムの動作チェックのため、ミスコリアとそれ以外のデータについて出力を出す。
- BWの評価値を更新する方法はまだ考えていない

***11/5 [#a1295a2e]
- プログラムを完成させた
- 投稿判定に使う単語を名詞と連体詞に絞った。自立語を全て対象とするとゴミが増えるので。
- ノイズの単語としては、数字、ひらがな１文字、～っ（はしった-->はし、っ、た）があった
- ５つのデータに対してプログラムを走らせて、適合率、再現率、F値を算出した。
- 適合率をあげるために、「代名詞」は判定単語から除いてみる
- 実験に使うデータを南さんが集めているので、それがあがってきたら岩佐君と個人ミーティング
- (1) 1人以上が選んだコメントを正解とする。(2) 代名詞は判定対象の単語から消す。(3) ２ちゃんの誹謗中傷を扱っているスレッドを紹介するので、探してもらう。それで実験。
- 動詞の一部にはバッドワードがありそう「死ね、消えろ」など。形容詞なども重要度の評価値で対応する。

***11/19 [#e95637ee]
- ゴミを除く処理を追加
- １名以上が選んだコメントを正解としてプログラムを実行
- 再現率、適合率が以前より上がった。再現率が0.18から0.58、適合率が0.52から0.88となっている
- 南さんから貰ったデータが形式に不備がある（元記事がない）ので、作り直すように説明する
- 11月末までにエクセル作って、アンケートして、評価値が必要なデータを示す

***12/3 [#mc42b62f]
- アンケートの作成
- 記事文章中の単語の評価値を次の式で評価するように修正
-- 記事文章内の単語の評価値=記事文章内での単語iの頻度/記事文書内の単語の種類数*log(記事文章内の文数/記事文章内でiが出現した文の数)
- この数式の理屈が説明できるようになること
- 数式の第１項目だけで単語の重要度が出せるので、２項目が必要かどうかを考える必要がある
- アンケート開始、回収期限が12/11。アンケートの結果を使って、プログラムを実行した結果を12/16（月）に見せてもらう

**上野 [#a235714c]
***10/8 [#m0bd47ee]
- 「批判に対する効果的な返答を自動抽出するシステム」を修正する。「効果的な」を変える。相手を納得させる、言いくるめる、言い返せない、だまらす
- 他のデータを集めるため、映画のタイトルをピックアップする。逆転裁判、HERO、半沢直樹（youtube）、リーガルハイ

***10/18 [#a2580efa]
- タイトルを修正。「批判した相手を説き伏せる発言の自動判定システム」
- 次の課題がプログラムを完成させる。データを入力してみて出力結果を出してみる。

***11/5 [#x78d5c01]
- タイトルを修正「批判した相手を説き伏せる返答の自動判定の研究」
- ４つの評価関数をプログラムにした。
- 論理的な返答の判断にはコサインと共起単語数の両方を使った方がよさそう。短い文同士では論理的なつながりは見えない。
- 丁寧な返答の判断には「です」「ます」に加えて「下さい」を追加する
- 否定しない返答の判断には否定の単語が使われている回数をカウントする
- 短い返答の判断には文内の自立語の単語数をカウントする
- 良い返答のアンケートを実施する。良い返答の評価値の統計量を出す

***11/15 [#c322bc2d]
- 映画を１本みたけど、良いデータにはならなさそう
- 丁寧な返答を取り出すプログラムを修正した
- 12月までにせねばならないことは、
-- 実験で使うDVDを決める（５本）
-- プログラムを完成させる
-- 良い返答、悪い返答のアンケートを作る（５本）
-- 宇代君に返してもらう

&ref(ueno1115.jpg,,10%);

***11/26 [#gc9b5950]
- 12人の怒れる。。。のデータに対して被験者実験を行った
- DVDの候補として、「12人の優しい日本人」「真実の行方」の2本が使えそう。それ以外は使えない。
- アンケート結果の考察。多くの人が選んだ返答の発言は、本研究であげた４つの特徴に被っていることが多かった。
- 「～じゃないんです」は「ない」があるけれど、否定ではない。
- 裁判員制度に関するDVDが題材としてよさそう。
- じゃないんです」の「ん」は和らげる意味の「の」なので、否定の断定を和らげている。プログラムで例外処理をするとよいかも。
- 次の課題は、アンケートを集計し、各返答に100点満点の点数を付ける
- アンケート結果に対して、重回帰分析をする
- 次のデータ候補を鑑賞する。

**鍵田 [#kb721d41]
***10/11 [#d189a9bf]
- 「歌詞の特徴抽出と要約」。惹かれるところを歌詞中の単語の共起と繰り返しに着目して評価する。プログラムの出力を行単位に設定する。歌詞の要約ではなくて、歌詞のハイライトを出力する。タイトルを推敲する。やりたいことは歌詞を入力した時に惹かれる箇所を含む歌詞を行単位で出力するシステム。
- 式＝α×Σ（繰り返された回数）+β×（形態素の並びが全く同じ行のペア数）＋γ×Σ（異なる２行で繰り返された形態素の数）
***10/29 [#z689f0d2]
- 「表現特徴に着目した歌詞の印象的フレーズ抽出」でタイトルを決定
- 研究会論文の概要とはじめにを執筆した。研究会論文の章立てを決定した。8日までに実験データが集まれば大丈夫。Googleドライブでアンケート、フォームを使う。
***11/8 [#jdf197ef]
- 特徴量をモデル化して、プログラムを作り始めた。
- 行単位での繰り返しのプログラムを作った
- 日曜までにプログラム完成、月曜からSVM。
***11/21 [#h5ea1a26]
- 印象的なフレーズを抽出する実験を行って、システムの性能を評価し、学会論文を投稿した
- システム改良点の考察。他に追加できそうな特徴を列挙
-- 比喩、押韻、特別なよみがなの割り振りなど。14個ある。見た目、意味、音などの特徴で14個の特徴を系統的にまとめる
- 感性的な評価をしている。音楽の情報はできるだけ取り除いている。歌詞の評価をしました。
- 各特徴の歌詞における割合

***12/17 [#kf4e3373]
- wi2に参加してきた。参考文献を1つ見つけた
- 他手法との比較実験結果を見せた。展望台と光と影の重要文抽出システム
- TeXで書く。卒論の箇条書きを書き始める

**日比野 [#o37aea0b]
***10/11 [#a9e94159]
- 似ている目的語のまとめかたを考える。写真と画像データは似ている単語と評価したい。
- データベースとして追加するジャンル。「家電、パソコン、通信」「インテリア、日用品」
- 組み合わせる際に、行為の意味が変わらないように発想してもらう。行為の意味を変えてもいいから無理矢理発想してねという実験もやる

***10/22 [#m5397f80]
- 二つの目的語が同じ場合のプログラムを完成した。データベースの作り方をまとめた。
- 目的語が同じ場合は、ありふれたものしか出て来ない。動作の順番をどうやって決めるか。出力する際に「そして」があるのはユーザの発想を促す。組み合わせた結果、既存のものと同じになる場合もある。目的語が同じ場合のプログラムの出力を見せてもらって、目的語が同じ場合の出力を変える方法を考える。データベースの作り方の議論をしたかったけど、情報が不足していたので、情報を追加してもらってから個人ミーティング。次までの課題は、今のプログラムでの全部の出力をつくる。データベースの作り方を修正する。Webでヒット数を取るプログラムを使って、目的語が違う時の組合せを作るプログラムを作る。ゲットナビをチェックする。
***11/8 [#ad771aed]
- 目的語が同じになる動作の組合せを出した
- 目的語が異なる動作の組合せを出した
- データベースの作り方をまとめた
- 当たり前の使われ方をする組合せ＜＜意外な使われ方をする組合せ。重みを変えてあげるとなおよし。ただし、これは発展の内容。
- データベースに登録するフレーズを「人が（A）をつかって、（B）を（C）する」にマッチしているかをアンケートで確認する。アンケートはGoogle Driveで実施し、3年生にお願いする。アンケート結果で不自然なものが多ければ、書き換える。アンケート準備に時間がかかれば手伝う。
- DBを修正したのち、ヒット数を取り直して、組合せの出力に順番を付けた方が良いかどうかを予備的な実験で検証する
***11/21 [#r5f136aa]
- 達成できる動作をフレームにはめて整形した
- 達成できる動作を評価してもらうアンケートを作った。アンケート依頼済み。
- アンケートの結果から、達成できる動作を表現できないものを列挙できる
- 訂正文を作る時、wordnetを使えるかもしれない。同じレイヤーにあるグループ名をまとめて、代替単語として使う。「使う」の概念
- use aの概念図ができれば面白い。これは来年のテーマになるかも。
- 有害情報のフィルタリングにwordnetの単語が使えないか。
- 29日までに予備実験の準備をする

***12/6 [#s87c9d1c]
- データベースの修正。達成できる動作
- ヒット数の少なさ＝達成できる動作があまり認識されていない-->斬新な組合せになる可能性がある
- 修正事項：完全一致でとるようにプログラムを変える
- ヒット数をとる。年内にプログラム完成

**小林 [#r005eefd]
***10/15 [#y9d23ed3]
- 研究テーマを「議論テキストの分析により議論の進行を促すヒントを出すインタフェース」に修正？
- 議論が盛り上がった所、議論がこれ以上盛り上がらないと判断される所を判定して、「次に移って下さい」というヒントを出す
- 誤っている単語、正解の単語を区別して表を作り直す。接尾辞はまとめて、一単語とする。記号はまとめて一単語とする。

***11/1 [#qcceefdb]
- 「議論テキストの分析により、議論の進行を促すヒントを出すインタフェース」
- 議論を活発化させた質問が出るタイミングをとりたい。そういう質問の直前には名詞の重複が多いので、名詞の重複の直後に診られる質問の適合率再現率を調べた。
-　岩佐君の提案により、単語が重複した発言に着目して、5W1Hの要素が埋まっていないかを確認し、話のトピックが変わったら着目した発言を作り直して5W1Hの質問を投げるようなインタフェースにしていく。
- 次の課題は、会話データ1,2,3にたいして、話が切り替わったところで出せる質問を書き出してみる。次回のミーティングでは不要な質問、適切な質問を皆で議論する。
***11/12 [#ec738860]
- 疑問文を作り投げるアルゴリズムを考えた
- 発言を前から見て行って、各発言中の単語の重複をしらべ、名詞と動詞と疑問詞のペアをカウントする。最もカウントの多い名詞をとりだし、それと共起していて最もカウントの多い動詞を出す。次に、取り出した名詞と動詞のペアに対して、まだ使われていない疑問詞を取り出して、疑問文を作る。作った疑問文を投げる。
- 次回までに、発言が流れてきた時に疑問文を出すプログラムを作成する

***11/19 [#k1e80ecb]
- プログラム作成途中
- 形態素解析と5W1Hのキーワードをとれるようにした
- 11/26に完成。11/29にチャットプログラムを次回ゼミで皆で試す。12/3に発表

***12/3 [#a17170a9]
- 実験
- 問題点を列挙。順に解決していく。

&ref(kobayashi1203.jpeg,,10%);
&ref(kobayashi1203exp.jpeg,,10%);

***12/17 [#x91bae12]
- 正確な疑問文を作るようにする
- 色が被ると個別識別しづらい
- 質問の文字を大きくする



**梁 [#b223ccc0]
***10/15 [#n14dbabd]
- 研究テーマを「議論テキストから重要発言を抽出するシステム（仮）」に変更
- アンケートで効果的な発言を抽出してもらった。抽出された発言の特徴として(1)意見のある発話、(2)wh疑問文があった。この2つの発言で抽出された発言の半分くらいとれる。
- 名詞に着目して、単語が繰り返されている文の直前の文をとってくるプログラムをつくってみて、エラーがどれくらい出るか考える。
***10/29 [#ece8411b]
- 「議論テキストから重要な発言を抽出するシステム」。重要な発言とは議論を前へと進める発言を指す。
- 名詞に着目して、異なる話者の間で同じ名詞が繰り返されている会話文を抽出するプログラムを作った。
- 全体の発言数、重要な発言の数、プログラムで取った数などをリストアップして、適合率再現率などのデータを示せるようにしておく。
- 繰り返しを判定する範囲をどこまでにするかを決める必要がある
- 抽出している発言は「問題提起の発言」ではないか。「提案」などの発言に相当する。
***11/12 [#pffc808a]
- 本研究での重要な発言とは問題提起の発言
- 作っているプログラムの適合率、再現率を出すためにベン図を作った
- 単語が被っている発言の最初のもの＝問題提起の発言としている
- 単語が被っている発言だとゴミを抽出することが多い。繰り返されている単語が、代名詞、ひらがな、数字の場合、文が完全一致（あいづちなので）、短い文（繰り返されている単語以外の単語の数が少ない）の場合はゴミとして処理する予定
- 各単語に重みをつけて、重みの高い単語が繰り返されている場合に抽出するようにプログラムを変えて行きたいとのこと。これを検証するために各単語の頻度をデータとして出してもらう
- 1週間後までにゴミを取り除く処理を入れたプログラムを完成させ、単語の頻度のデータもだす。
***11/26 [#nb4fbf5a]
- ノイズを落とす処理を加えた
- 適合率と再現率を再度計算した。適合率は低い（14%から36%）。再現率は高い（67%から72%）。
- ノイズは大分落とせた。再現率はノイズ処理の前から少し下がったが、思ったよりは下がらなかった。
- whyとhowはオープンクエスチョンの疑問詞だけど、親しい間柄なせいか、whyの質問のときは話がすぐに移り変わってしまうことが多かった。howは話が広がる。
- 全体の適合率と再現率次第ですが、whyの疑問文を取ることも考えて行くとよいかも。
- 次にやることは：同意が来た場合の処理を加えて、３つの方法で抽出される発言を出してみる。処理で出された結果と議論テキストを見比べることによって、ディスカッションの流れを把握できるかを考える。
- 12/6までに3つの手法で文を出して結果を眺める
&ref(ryo1126.jpg,,10%);

***12/13 [#h94ae2a8]
- プログラムの修正
- 火曜日を目処にして、会話データ１から３に対して、修正した項目３項目を順に変えて、それぞれの適合率と再現率をだす。

**金児 [#e1ca8cc3]
***10/22 [#f213bc98]
- 「音響情報からの演奏表情付け抽出」？　ピアノソナタに限定、楽譜を使う、演奏表情付け、などを使って、研究テーマを考える。
- フレームごとの音量を抽出するプログラムを作成した。打鍵時の音の大きさを抽出する。演奏記号の付け方はどうするか。全ての音符に記号を付けるのはおかしい。ピアノをひくとき、気持ちの問題として、pp,p,mp,n,mf,ffとなっていて、ニュートラルの部分は普通に引いてねという意味。ニュートラルに当てはまる部分にはNは付けない。次の課題は拍に対して音量の値を割り振るプログラムを作って、ppの音量分布、pの音量分布を調べる。分布をヒストグラムで作る。次のゼミで資料にミスがあったら、発表やりなおし。
***11/1 [#h1f25a51]
- 研究テーマを「楽譜と音響情報を用いたピアノソナタに対する演奏表情付与」と仮おき。もう少し考える
- 参考文献を調査。midiから表情付けした曲を作って流すシステム。midiは１つ１つの音の情報が数値として入っているもの、wavは振幅情報が入っているもの。金児君の研究ではプロが引いたピアノの曲を録音して、システムに投げられるけど、参考文献の研究はmidiしか使っていない。
- ibtは拍数の推定に誤差がある。今回は3フレーム分の平均音量を１拍の音量とする。
- 次の課題は３フレーム分の１拍の音量にするようにプログラムを改良。30楽曲データに対してプログラムの出力を出す。音量の分布を出す。評価実験の方法を考え始める。
- 作った楽譜からmidiをつくって、音楽を聴かせて、誰の演奏データを元にして作られた音楽かをあてさせる実験など。システム性能の評価、その後演奏家の支援の評価。

***11/15 [#z2cacf83]
-「 楽譜と音響情報を用いたピアノソナタにおける強弱記号による演奏表情の可視化」で仮おき。もう少し考える。
- 音量の確率分布を正規分布と仮定する
- 記号と拍と音量を結びつけるプログラムを修正した
- 音量の分布が混在しているので、楽譜をいくつかに分けて、移動平均をとって、音量の分布をとってみる。
&ref(kaneko1115.jpg,,10%);

***11/29 [#e8394e85]
- 横軸時間、縦軸音量のグラフに対して、fとpの位置に標をつけた。
- （移動平均の音量ー音量）をみた。仮説として、差がプラスならばp、マイナスならばfと仮説を立てたが、仮説は成り立たなかった。移動平均の音量を10フレーム分で出してるが、もっと多くのフレームをとれば差が出るかもしれない。
- 実際の拍数とマーシャスでとれる拍数が10拍くらい違う可能性が出てきた。何泊違うのかを12/3までに調べて報告する~
&ref(kaneko1129.jpg,,10%);

***12/13 [#ibc3b84b]
- ibtで取り出される拍と、実際の拍のズレを調べた
- 音データのリストを用意してもらう-->CDを買う
- アルゴリズムはBを採用する
- １フレーズごとに区切った時にfの音量、pの音量に差があるかどうかをリストにする（月曜まで）
2013年度4年生後期ゼミ の変更点

2013年度4年生後期ゼミの変更点