2013年度4年生前期ゼミの変更点

追加された行はこの色です。
削除された行はこの色です。
2013年度4年生前期ゼミへ行く。
2013年度4年生前期ゼミの差分を削除
* 出欠 [#tba4d98a]

||第１回|第２回|第３回|第４回|第５回|第６回|第７回|第８回|第９回|第10回|第11回|第12回|第13回|第14回|第15回|
||４／１２|４／１６|４／２３|４／２６|５／７|５／１０|５／１７|５／２１|５／２８|５／３１|６／４|６／１１|６／１４|６／２８|７／１２|
||合同|単独|単独|合同|単独|合同|合同|単独|単独|合同|単独|単独|合同|合同|合同|
|岩佐|就活|×|○|○|○|就活|就活|○|○|就活|○|○|○|○|×|
|上野|○|○|○|○|○|○|○|×|○|○|実習|実習|実習|○|○|
|大泉|講義|○|○|講義|○|講義|講義|○|○|講義|遅刻|○|講義|講義|講義|
|鍵田|○|○|○|×|○|○|○|×|○|就活|○|○|遅刻|○|○|
|金児|○|○|○|就活|○|○|○|○|○|×|○|就活|○|○|○|
|小林|○|就活|○|○|○|×|○|○|○|×|○|○|○|○|○|
|菱田|○|×|○|×|○|○|×|○|○|○|○|○|○|×|×|
|日比野|×|就活|○|○|○|○|就活|就活|○|○|○|○|○|○|○|
|梁|就活|×|○|就活|○|就活|×|○|○|×|○|○|遅刻|○|○|


*発表予定 [#u2d1372c]
- 第3回　4/23(火)　単独　小林・日比野・梁
- 第4回　4/26(金)　合同　岩佐・菱田(6/25の昼休みに振替-->欠席）
- 第5回　5/7(火)　  単独　上野・大泉・小林・梁
- 第6回　5/10(金)　合同　日比野・鍵田
- 第7回　5/17(金)　合同　金児・菱田(7/9の昼休みに振替)
- 第8回　5/21(火)　単独　小林・岩佐・梁
- 第9回　5/28(火)　単独　大泉・岩佐・日比野
- 第10回　5/31(金)　合同　上野

プログラムを作り始める。中間発表までにプロトタイプを完成させる。

- 第11回　6/4(火)　  単独　鍵田・小林・梁
- 第12回　6/11(火)　単独　大泉・岩佐・日比野
- 第13回　6/14(金)　合同　金児・菱田
- 第14回　6/28(金)　合同　金児・鍵田
- 第15回　7/12(金)　合同　上野・菱田

- 8/2(金) 合同（上野、菱田、欠席）
- 8/9(金) 合同
- 8/30(金) 合同

*前期中間発表までに作るもの [#b65cfceb]
**岩佐 [#l0cc8b7f]
- 誹謗中傷メッセージを判定するプログラムを作る
-- 入力：話題文書、文書に対するメッセージ
-- 出力：メッセージが誹謗中傷しているならばYES、そうでないならばNO。YESの場合は話題文書中の誹謗中傷している部分も併せて出力。
-- 処理：
--- メッセージが関係する話題文書中の部分を、話題文書から抽出する
--- メッセージが誹謗中傷するか、どうかを判定する
- 考慮すること
-- 2つの処理、どちらを先にするかは要検討


**上野 [#gac2dfe2]
- 批判に対する効果的な返答を抽出するプログラムを作る
-- 入力：会話テキスト
-- 出力：批判に対して効果的に返答している発言
-- 処理：
--- 会話テキストを読込み、批判発言を判定する
--- 批判発言に対して、効果的な返答をしている発言を抽出する
- 考慮すること
-- 現在までに明らかにした、効果的な返答の特徴は４つある。返答の発言を抽出する際、４つの特徴を組み合わせる必要があるはず。どの組合せが一番抽出できるか確認する必要がある。

**大泉 [#s32a752d]
- 名前のキラキラ度を判定するプログラムを作る
-- 入力：名前
-- 出力：キラキラ度
-- 処理：
--- 入力された名前のキラキラ度を判定する
--- キラキラ度を出力する
- 考慮すること
-- はじめはオフラインで動くものを作る。その後、オンライン化する

**小林 [#p1f17576]
- howやwhatなど、5W1Hを出すタイミングを明らかにする

**日比野 [#h4ce760b]
- 組合せを入力したら、達成可能な動作を表示するプログラムを作る
-- 入力：組合せ
-- 出力：達成可能な動作
-- 処理：
--- DBの中から、入力された組合せで達成できる動作をひっぱり、表示
- 考慮すること：
-- 最終成果物では、表示する動作を絞り込んだり、動作から連想されるシーンの流れを考えたりする必要がある

**梁 [#j2c9e3c4]
- 効果的な発言を抽出するプログラムを作る
-- 入力：会話テキスト
-- 出力：効果的な発言
-- 処理：
--- 効果的な発言の特徴をもとに、発言を抽出する
- 考慮すること：
-- 最終成果物は議事録の作成なので、効果的な発言の周りに追加する情報も考えていく必要がある



*進捗 [#ge8c67ec]
**岩佐 [#x85001e1]
***達成済み [#g1e1b54e]
- 炎上に関わるtweetデータを集めて、投稿すべきかどうかを分類
- 投稿すべきでない理由を分類。犯罪告白、他人の行動暴露、怒りをぶつけるなどが多い。
- 投稿すべきでない場合、判断に使えるキーワードを抽出。
- 怒りをぶつけるtweetの特徴を調べるため、掲示板からtweetデータを100個くらい集める。

- &#9313;「他人を誹謗中傷」と&#9317;「自分の怒りを相手にぶつける」のデータに絞って分析をする
- &#9313;と&#9317;について、228件のデータを追加分析。
- SNS-->電子掲示板やTwitter、インターネット上で流れる多人数向けメッセージ。
- 単一のメッセージではなく、連続で考えないといけない？　行間を分析する必要がありそう。
- 単一のメッセージだと誹謗中傷にはならないことが多い。誹謗中傷する元になるものがあって、それに対して個々のメッセージが誹謗中傷している。話題との関連を考えないといけない。
- 投稿メッセージとその話題の元となる文章との関連性を調べた
- 元の文書を句点で区切り、文に番号を付けた
- メッセージが関連する元の文書中の文を対応づけた
- 文書の数は5件
- 対応づけられた元の文は集中していることが分かった
- 元の文書を要約する。主要な文だけ抜き出す。


***次の課題 [#zf760251]
- 関連するメッセージと話題文書の関連を自動的に判別するプログラムを作り
- メッセージ中の単語と汚い単語のDBとマッチングをとり
- 最終出力は「このメッセージは、この話題文に対して、誹謗中傷している」

- 元の話題をみて、メッセージが中傷している対象を明らかにする。
- メッセージを抽出するときに、ワードだけで推定する方法を超えること
- 卒業研究で作るプログラムの全体像を考え、夏の中間発表までに達成するプログラムの範囲を考える

- コメントが与えられた時、元の文書中の文との対応付けのプログラムを作る
- コメントが与えられた時、誹謗中傷コメントかどうかを判定するプログラムを作る。作る時に、確実に誹謗中傷に使われる単語から初めて、判定につかう単語をどんどん増やしていく。例えば、「w」は確実に誹謗中傷に使われると判定し、「w」とよく使われる単語をコメント内から調べ、判定に使う単語をどんどんと増やしていく
- tetdmの環境を使って開発をするので、今度説明する。

***やったこと [#y430295e]
- 個々のメッセージに対して、元の話題の文と関連するもの、関連しないものを分類する（１週間以内）
- 話題文書に含まれる単語のリスト、個々のメッセージに含まれる単語のリストを列挙
- 話題文書に複数含まれる単語が、メッセージmに含まれていれば、メッセージmを話題に関連するメッセージと判定する
- メッセージmが「w」を含めば誹謗中傷メッセージと判定する
- メッセージmに「w」は含まれないが、「w」と共起することが多い単語が含まれるならば、メッセージmを誹謗中傷メッセージと判定する


**上野 [#h00fe6f9]
***達成済み [#pa0200c8]
- 12人の怒れる男達の全台詞を書き出した
- 批判とそれに対する返答をチェック
- 返答の種類を8種類に分類
- ８種類の返答に対して、単語や文法上の特徴を調べる。プログラムで批判に対する返答を抽出できるようにするために
- 分かったこと：A短い、B丁寧、C論理的、D否定しない

***やったこと [#v7875f6b]
- 定性的な特徴（a,b,c...）と言語の特徴（ABCD）の対応表を作る
- 丁寧な文章、論理的な文章、否定しない文章を評価する単語を考えた
- 論理的な文章とは、批判に対して関連がある、かつ批判に対する意見と根拠がセットになっている


***次の課題 [#y0cdc396]
- データからAの特徴である短い文の文字数を決め、短い文と判断できるプログラムを作る
- 丁寧な言葉が使われているOR否定的な言葉が使われていると判断するプログラムを作る
- 「たかじん」の討論データを書きおこす
- 論理的な発言の評価方法を考える
- C論理的とABDは別軸。CとABDの併せ技で判断する
- 二重否定は論理的でない
- 論理的の判定は前の発言も考慮する。前とのつながりをみる。前の発言とのコサイン類似度を見ると良い。
- 単語が違うと判定ができないが、関連語も対応するか？
- 文の類似度を求めるプログラムを作る(8/9まで)
- 関連性理論の４つの公理を使うかも

**大泉 [#f4ee0e0b]
***達成済み [#q3ad35bc]
- キラキラネームと普通の名前を男女１００個ずつあつめ、キラキラと普通の共通点、異なる点を列挙。AからGまである
- 特に多いのがABD
- ABDの違いは、Aは全くの当て字、Bは一部、音読み、訓読みになる、Dはカタカナになおしたときに、既に対象物がある
- 漢字のDBを探した
- キラキラネームの読み方を調べた
- 読み方が音読み、訓読みに当てはまらないものはキラキラの可能性が高い

***やったこと [#z5bf9aa4]
- データが混乱してきたので、整理がいる。名前の漢字と読みが与えられた時に、漢字と読みが１体１対応になってるものと、そうでないものに分ける。
- 漢字の読みをれっきょして、名前の読みと対応する部分があるかないかをみて、音読み訓読みのありなしをしらべる。
- 調査が残っている名前400件について、データをまとめる
- 漢字の読み方において、音読みと訓読みの読み方に当てはまるかを区別した結果
-- 普通の名前（男）は100個中、34個がキラキラ
-- （女）は100個中、16個がキラキラ
-- キラキラネーム（男）は100個中、8個が普通の名前
-- （女）は100個中7個が普通の名前

***次の課題 [#o1f633fe]
- 名前を入力すると、キラキラ、そうでないを判定するプログラムを作る(8/9まで)
- 漢字の音読み、訓読みをみることで、キラキラとそうでないを大体判定できそう
- あむと、じゅりあをキラキラと判定する方法も考える
- ABDの特徴をプログラムでとるための方法を考える。
- クライアントサーバシステムで作ることを考える
- 漢字の読みのDBを探して来る
- Dの特徴から判定するプログラムを考える



**鍵田：「詞の特徴抽出と歌詞の要約」 [#s67b6f87]
***達成済み [#g70ac291]
- 詞から抽出できる特徴を列挙。９種類ある。
- 予備実験をする。被験者に歌詞を読んでもらって、印象をもつ部分にチェックをいれさせる実験。共通してチェックがいれられた部分と、９種類の特徴との対応を調べる。
- 予備実験をした。
- 実験結果をまとめた。
- 各特徴の数値化
- 歌詞の定性的な特徴を列挙し、定量的に抽出する方法を考えた
-- 共起、特徴のある読み方、繰り返し、組合せ、音数

***やったこと [#v2e862b5]
- 惹かれる箇所の特徴として、被験者実験で解答が多かったのが、繰り返しと共起であったので、この２つから惹かれる箇所を評価するプログラムを作ることを決めた


***次の課題 [#w81efa4c]
- 聞いたことない音楽／聞いたことある音楽に分けてデータを分析
- 特徴量を実際にプログラムでとっていく。Webのヒット数を取るプログラムが使えるかも。山西先生に渡す
- 歌詞中で2-gramをつくり、コーパス中での共起確率を算出するプログラムを作る
- 他にも、「の」で接続された名詞句、名詞集合と直後の動詞の組合せも考慮していく
- アラジン、新聞記事とコーパスをかえて、実験をしてみるとよい。新聞記事だとコーパスの大きさが足りないかも
- 7/12までにプログラムバージョン１を作る



**金児「音響情報から演奏表情付け抽出」 [#oca8f2cb]

***達成済み [#od96467d]
- 特徴を列挙
- 楽曲20曲と、演奏している演奏家を１曲あたり5人集めて来た
- 特徴の中でも音量を扱う。音量は音楽情報のフォルテ、ピアノなど、音の大きさ強さを表現する演奏記号に相当する。
- 1から5と9のデータについて、楽譜、CDを集める。音響情報をまとめる。（5/21の(火)まで）
- ５月まつまでに20曲×５名分の楽譜と音源データを集める
- マーシャスを使えるようにする
- 楽曲20曲と演奏家5名を集めてリストにする
- 楽譜に拍情報を書き込み、データを整理する
- 音源から拍情報を抽出する。マーシャスのibt関数で拍情報を抽出した。秒数がとれるらしい。
- 拍は演奏リズム、スピードに寄って、曲の進行中にも変化する

***やったこと [#he226b9c]

***次の課題 [#m026de68]
- Marsyasにある音量抽出関数を探して、音量抽出しデータとして落とす(7/5までに)
- 楽譜上の拍数と、ibt関数の拍数は1対1対応ではないかもしれない。マッチングはどうとるの？
- 両方を7月頭までに
- 拍、音量、強弱記号のデータを完成させる。７月中。

**小林 [#d1467cf6]

***達成済み [#la826777]
- 会話データを３件取り、書き下しずみ
- 効果的な発言をチェック。5W1Hをチェック
- 効果的な発言の前後にある法則性を発見する（途中）
- 具体的な改善案の意見の前にはhowが多いことを発見した
- 会話中で明確に5W1Hがないところに、5W1Hを追加した
- 会話データをセクションで区切る
- ☆と★がどの5W1Hから影響を受けているかをカウント
- 会話データ2について☆と★は出た直前の5W1Hの影響を受けたと見なして、データを再度カウント
- 会話データ2の効果的な発言が、どの5W1Hの後に出たかをカウントし直した。
- whatがあると、話題が始まる。
- whatとhowの後に効果的な発言が出やすい。当たり前か？どう出すかがポイント？

***今回やったこと [#kd854858]
- 会話データ1と3についても表をまとめる
- ある程度時間がたつと、5W1Hを促すとよいかも。そのときにどの5W1Hを促すかを考えるべき

***次の課題 [#b16d169b]
- howとwhatが出る直前の文の特徴を探す
- 効果的な発言（☆現状の問題、★改善案）が出て来るときの前の特徴を調べる
- 作るプログラムの全体像を考え、夏までに終わらせるプログラミングを決める
- 卒業研究で作るプログラムの全体像を考え、夏の中間発表までに達成するプログラムの範囲を考える
- how,why,whatが出るルールを探す。１日３、４時間を１０日間やって出なかったら一緒に探す。
- whatやhowなどの中にDoes anyone have any ideas?があるので、表を作り直す


**菱田「歌詞情報と音響特徴量を用いた楽曲印象推定とその応用」 [#of996d60]
***達成済み [#s6d382a1]
- 音響特徴量の列挙。楽曲構造／メロディ／コード／ビート
- MARSYASが使えるようになる

***やったこと [#x7e9615b]
- 楽曲の構成要素の分類(a)楽曲構造(b)メロディ(c)コード(d)ビート
- Marsyas上で構成要素の抽出に使えるライブラリを検索
-- (a) 楽曲構造：ibt, peakClustering
-- (b) メロディ：bextract, phasevocoder, peakClustering
-- (c) コード：bextract
-- (d) ビート：ibt
- Marsyasで曲の入力ができるようになった。

***次の課題 [#s80a5055]
- 曲を入力して、ライブラリを使用して、特徴量を抽出する
- 金児君に教えてもらってibt関数を使って出力する
- 4つの関数についても出力をする（１週間以内）
 
- 音楽データから特徴量を取り出してデータベース化する

**日比野 [#n8e611e6]：有効な組合せと達成可能な動作の提示による新商品の発想支援システム [#u556e41e]

***達成済み [#n8d72498]
-  組合せ100を集め、分解、売れる売れないを○△×でチェック
- △とつけたデータにあえて、○と×をつける
- △売れるか売れないか微妙と判断していた組合せに○か×を付け直した
- ○を付けた基準と×を付けた基準を書き起こした
--（×：手間が省けない、他商品と機能が被っている、特定の人しか興味を示さない）
- 商品のジャンルについては、「家電・生活編」が○の数が多かった。
- 一方、「グルメ＆スポット編」「ファッション編」は×が多かった。
-- 掛け合わせるもとのジャンルによっても売れないことがある（tsutayaとガムは×）
-- 使う年齢層によっても売れる売れないが変わって来る
- エクセルデータの整理。組合せを構成するものABを別のセルに分けた。組合せが達成できることを最後の列に追加した。
- エクセルを印刷するときは、範囲指定してね。

***今回やったこと [#ed918a7b]
- 商品が達成できることを書き出し、組合せのものが達成できることをABと列挙した
- 組合せが達成できることをまとめたDBを作る。中間発表までに

***次の課題 [#teecbdef]
- ○と×をつけた基準を整理する
- 皆に分類をしてもらう
- ○と付けたデータについて、付加価値、メリットをプログラムで判定する方法を考案
- または×と付けたデータについて、付加価値、メリットがないことをプログラムで判定する方法を考える。
- データをつくるときに組合せを構成するものを別々のセルにいれる
- 5/22の個人mtgで決まったこと&#9312;組合せを構成する要素ABを別々のセルに入れたエクセルを作る、&#9313;組合せで達成できていることをエクセルに記入する、&#9314;組合せのABができる動作をセルに入れたエクセルを作る。ABの動作をそれぞれ別のセルにいれる。動作を探すときは、機械ならば仕様のページをみる。それ以外のたべものなどについては、Googleの検索結果上位10件を見て、可能な動作を目で探して記入する


**梁 [#dd1a3746]：効果的な発言に焦点を置いた議事録作成システム [#h27862d8]

***達成済み [#mbe696da]
- 小林君と同じデータ
- 効果的な発言にチェック
- 文の種類分けをした。意見と疑問文、接続詞。
- ○：効果的、●：多分効果的、◆：文の中に接続詞が含まれる
- 転換の後に○が来ることが多い
- 発言の種類を書いた論文を渡すので、全文に発言の種類をつけて、表を埋める
- 会話データ１でデータを完成させる
- SWBDの発言タグを使って会話データにアノテーション
- タグごとに、○：効果的、●：多分効果的の分類をした
- アノテーションタグで不明なものを明らかにする
- 意見のない発話／ある発話に対して、例をあげた
- 意見のある発話を３つに分けた。提案、批判、評価
- 他の２つのデータに対しても、○と●がついた文の特徴を調べる。表にまとめる。
- 抽出する文として、意見のある発話、yn,wh,付加疑問文、要約が考えられる。その中の一部が効果的な発言に相当するので、絞り込む必要がある。
- 最終目標物は、ディスカッションテキストから効果的な発言を抽出してハイライトするプログラム

***今回やったこと [#q02fa347]
- 「ディスカッションの書き起こしデータから効果的な発言の抽出システム」
- 前期にやったことをまとめた
- 卒業研究で作るプログラムの全体像を考え、夏の中間発表までに達成するプログラムの範囲を考える

***次の課題 [#xee4ec82]
- 効果的な発言の種類を分ける。種類毎の文の特徴を調べる。再現率、適合率を出す。
- 他の人にもアノテーションをしてもらって、データ整理
- 意見の文をとるための条件（ifぶんの中身）を考える
- 意見のある発話、wn疑問文、yh疑問文で、効果的な発言とそうでない発言の特徴の違いを列挙する
- wh疑問文にたいして、効果的な発言とそうでない発言を分類するプログラムを作る(8/9まで)
2013年度4年生前期ゼミ の変更点

2013年度4年生前期ゼミの変更点