Index of 卒研データ

NameDateSizeDescription
[BACK]広兼ゼミ--Parent Directory
[P]卒論概要_西村.pdf2003/02/20 17:16128KB(PDF:converted)ラフ集合に基づく決定ルールの導出とその評価 1.はじめに 現在の知識獲得研究における最大の関心事は,データベースなどに蓄えられた膨大なデータから,如何に知識を抽出するかということである.ラフ集合論は,近年このような知識獲得の分野で注目されている手法のひとつである.しかし,データサイズの増加に伴い計算時間が指数関数的に必要となる問題が残されていた.そこで,計算時間の問題を解決するため...
[P]卒研発表.pdf2003/02/16 22:461.43MB(PDF:converted)ラフ集合論に基づく決定ルールの導出とその評価 研究の背景 膨大な情報からルール型知識を抽出する ラフ集合と遺伝的アルゴリズムを用いた知識獲得システム 研究の目的 未知の事例に対する正答率を高める 問題点:正答率があまり高くない 正答率の高いルールを導出したい 兵庫県南部地震における建築基礎被害調査事例 調査された建造物が180件、調査項目が32項目。 地震被害ルールの導出 簡潔で正しいルールが得...
[P]dt2rc_promotion.pdf2002/11/13 02:18190KB(PDF:converted)タブ区切りCSVの決定表データからRSGAとC4.5用のデータファイルを生成するWindowsプログラムの操作手順説明。卒研用にC++で製作。Windows XPで動作。
[P]C4.5オプション説明.pdf2002/12/17 00:1846.3KB(PDF:converted)C4.5 マニュアル OPTIONS Options and their meanings are:-f filestem Specify the filename stem (default DF)ファイル名を指定。-u Evaluate trees produced on unseen cases in file filestem.test.ファイル「filestem.test」で、目に見えないケース上に生成されたツリーを評価する。-s Force "subsetting" of all tests based on discrete attributes with more than two values. C4.5 will construct a te...
[TEXT]21_01_rsga_result.txt2002/12/08 02:571.1MBCondition attributes are { 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22 } Decision attributes are { 23 } DependCoef = 1.000000 CORE = { } All of generated rules by strategy 1 : Rules ( 560 ) DecisionTable (Generated by GA, elite individual): 0 Condition Attributes (20/23) :{ 0,1,2,3,4,5,7,8,9,10,12,13,14,15,16,17,18,19,20,22 } Covered Objects (40/40) :{ 0,1,2,3,4,5,6,7,8,9,10,11,1...
[FOLDER]base2003/09/25-卒論概要_英文.doc , 卒論概要グラフ用.xls , 卒論概要_集計グラフ2.gif , 卒論概要_結果3_MA_C45.gif , 卒論概要_集計グラフ.psd , 卒論概要_集計グラフS.gif , 卒論概要_結果2_MA_C45.psd , 卒論概要_結果2_MA_C45.gif , 卒論概要_結果2_MA.gif , 卒論概要_集計グラフ.gif , 卒論概要案1.doc , 卒論概要案0.doc , C4.5OptionsManuals.txt , C45オプション説明.doc , 21_01_rsga_result.txt , dt2rc_promotion.doc , 卒研メモ....
[FOLDER]DataDocuments2003/09/24-RSGA重付結果_base.xls , RSGA重付結果1stSet.xls , RSGA重付結果eq101.xls , RSGA重付結果eq102.xls , RSGA重付結果eq103.xls , RSGA重付結果eq104.xls , RSGA重付結果eq107.xls , RSGA重付結果eq109.xls , RSGA重付結果eq112.xls , RSGA重付結果eq115.xls , RSGA重付結果eq120.xls , RSGA重付結果eq122.xls , RSGA重付結果eq126.xls , RSGA重付結果eq131.xls , RSGA重付結果eq143.xls , RSGA重付結果GoodSet.xls , 元事例50件...
[FOLDER]ForWorkDocuments2003/02/06-データ生成実行状況記録表.doc , データ生成手順メモ.doc , 進行状況メモ.doc
[FOLDER]TrainingAndTestFiles2003/02/04-eq101.info , eq101_c45.data , eq101_c45.names , eq101_c45.rules , eq101_c45.tree , eq101_c45.unpruned , eq101_c45_result.txt , eq101_c45_rules.txt , eq101_rsga.txt , eq101_test.txt , eq101_training.txt , eq102.info , eq102_c45.data , eq102_c45.names , eq102_c45.rules , eq102_c45.tree , eq102_c45.unpruned , eq102_c45_result.txt , eq102_c45_rules.txt , eq102_rsga.txt , eq102_test.txt , eq102_trai...
[FOLDER]rsga_results2002/12/17-C4.5_対RSGA比較用データ.xls , WeightTestResult1.xls , a\21_02_rsga_result.log , a\21_02_rsga_result.txt , a\21_2.txt , a\21_03_rsga_result.log , a\21_03_rsga_result.txt , a\21_3.txt , a\21_04_rsga_result.log , a\21_04_rsga_result.txt , a\21_4.txt , a\21_05_rsga_result.log , a\21_05_rsga_result.txt , a\21_5.txt , a\21_06_rsga_result.log , a\21_06_rsga_result.txt , a\21_6.txt , a\21_07_rsga_resul...
[FOLDER]tools2003/09/07-CompareDT.exe , CompareUnit.cpp , DataChange.cpp , dt2rc_ps.zip , ExchangeTreeToRule.exe , GenerateEachSHFile.exe , GenerateMasterSHFile.exe , GenerateRedirFiles.exe , c45rule2rsga.exe , CheckAllRsgaDT.exe , CheckAllRsgaDT.INI
[FOLDER]dt2rc2002/11/27-prg_rc1.zip , test_c45.data , test_c45.names , test_rsga.txt , CompareDT.exe , dt2rc.exe , dtrc.zip , eq_BaseDeciTable.txt , eq001_CompareDT.txt , eq001_rsga_out.txt , originaldecisiontable.txt , dtrc\dtrc\a , dtrc\dtrc\dtrc_BaseDeciTree.txt , dtrc\dtrc\dtrc_BaseDeciTree.xls , dtrc\dtrc\dtrc40results.xls , dtrc\dtrc\eq001_c45.data , dtrc\dtrc\eq001_c45.names , dtrc\dtrc\eq001_c45.rules , dtrc\d...
[FOLDER]c4.52003/09/25-earthquake1.data , earthquake1.names , earthquake1.rules , earthquake1.tree , earthquake1.unpruned , earthquake2.data , earthquake2.names , earthquake2.tree , earthquake2.unpruned , eq1result.txt , eq1resultV3.txt , eq2result2.txt , result_eq1_vd.txt , result_eq2_vd.txt , earthquake_results_report.doc

卒研データ Properties

Description of 卒研データ

データ山盛り

Excerpts

  1. 現在の知識獲得研究における最大の関心事は,データベースなどに蓄えられた膨大なデータから,如何に知識を抽出するかということである.事例が決定表の形で与えられると,まずは,ラフ集合を用いてルール群の導出を行う.本研究では,評価関数内の各項目の重み付けのかけ方を12通り用意した.本研究では,GAの評価関数の各項目に重み付けを加えることで,未知の事例に対する,正答率の高い極小のルール群を見つけ出す方法を検討した.
  2. ラフ集合論に基づく決定ルールの導出とその評価,研究の背景,研究の目的,兵庫県南部地震における建築基礎被害調査事例,地震被害ルールの導出,調査された建造物が180件、調査項目が32項目。地震被害ルールの導出,先の決定表の事例と全く同じ事例があることは多くはない。建築面積が500未満で杭施工法が打ち込みなら、他の条件が何であっても「中破」であるというルールが見つかれば、分かりやすいし、条件が減った分該当する件数も増え、判断の役に立つ。システムの概要(決定ルール導出の流れ),本研究で行った簡約化の流れ。元の決定表からルール型知識を抽出するために、RSLやGAなどを用いて簡約化を行っている。簡約化の方法として、最初はRSLを用いた。RSLで簡約化を行うと、データが増加すればするほど、計算時間が指数関数的に必要になる問題があった。そこで、RSLで決定規則群を導出し、そこからGA(遺伝的アルゴリズム)を適用し、計算時間の問題を解決した。RSLで導出した決定規則群から、GAを用いて簡約化された決定表を得る。RSLとGAを用いた手法でも、データサイズが増加すると、準最適解への収束が困難になる問題がある。そこで、本研究では、決定規則の条件数と支持度をもとに、決定規則群の絞込みを行って数を減らし、残りに対してGAを用いることで、簡約化を行った。遺伝子コーディング,評価関数,重み付け,検証方法(1/2),検証方法(2/2),検証結果,総合結果,検証結果まとめ,今後の課題,最大平均とは,決定規則の絞り込み,正答率を高める手法,従来からの問題点,システムの概要
  3. ① 元の決定表(Excelからタブ区切りテキスト形式で出力したもの)を読み込む ② 属性名の行、値が始まる行、決定属性にする列をそれぞれ指定 ③ 決定表の中身を確認する ④ トレーニングデータとして使用する事例数を指定する (左の表は、決定属性値と事例番号の対応表。右の表は、決定属性値がそれぞれ何個存在するか。) ⑤ トレーニングデータを何件作成するかを指定 (表は、それぞれの決定属性値を持つ事例が、何個ずつトレーニングデータに含まれるか。) (事例の選択はランダムだが、必ず全ての決定属性値を同じ割合で含むようになる。) ⑥ 生成先フォルダやベースファイル名、連番の開始番号を指定 ⑦ 作成されるファイルと数・連番の範囲を確認 ⑧ 必要なファイルが生成される(1件につき6ファイル) ⑨ ファイルの生成完了 この後の処理… ⑩ RSGA・C4.5・C4.5ruleを、トレーニングデータの数だけ連続実行するためのバッチファイルを生成(RSGAは、リダイレクト用ファイルも生成) ⑪ 3つのプログラムを順にシェルに渡して実行させる ⑫ 結果が出揃ったら、テストデータと比較して、正答率を計算。 ⑬ 結果を表示
  4. C4.5 マニュアル ファイル名を指定。2以上の値で不連続の属性に基づいてすべてのテストの「 subsetting 」を強制する。C4.5がそれぞれの枝と結び付けられた値の下位グループでテストを組み立てます。Probabilistic識閾が継続する属性のために使われます。トライアルの指定された数で、Iterative(反復)モードをセットする。冗長レベル0~3を設定する。(デフォルトは0)このオプションは、プログラムが何をしているか説明するのを補助するかもしれない、いっそう多量のアウトプットを生成します。(しかしそれを当てにしないで下さい。)次のオプションは同じく利用可能です。しかし木生成の実験以外で使う必要はありません。最初のウインドウのサイズを設定。(デフォルトは、20パーセントとデータオブジェクトの数の平方根の2倍の最大値です。)それぞれの繰り返しにおいて加えられることができるオブジェクトの最大の数をウインドウにセットする。(デフォルトが最初の窓大きさの20パーセントです。)ゲイン基準を、テストを選択するために使う。デフォルトはゲイン比率基準を使う。すべてのテストで、少なくとも2つのブランチがオブジェクト(デフォルト2)の最小数を含んでいなくてはなりません。 このオプションは最小数が変えられることを可能にします。刈り込んでいる確信レベルをセットする。(デフォルトでは、25%。)
  5. Condition attributes are { 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22 } Decision attributes are { 23 } DependCoef = 1.000000 CORE = { }1 method of inferencing 40 good decisions for 40 all is 100 % 2 method of inferencing 40 good decisions for 40 all is 100 % 3 method of inferencing 40 good decisions for 40 all is 100 % Elapsed Time: 1192 sec

Speculated Index


17~18は先生が在室ではないので注意。その前後に大学へ行くこと必須。打ち合わせも含めて。

日本ファジィ学会シンポジウムの冊子:
p.415
p.51
を読んでおく。
テストデータのダウンロードと使えるかどうかの確認。

卒研進行優先順位:
1.C4.5側結果のカバー率を調べる
2.決定表のブランクを、どうツリーに表現するかを考える
3.GAのパラメータを変化させて、横長ツリー/縦長ツリーなど望みどおりのツリーを表現できるように。
4.各条件属性の重み付けを示せるように…?

50件のデータのうち、40件からルールを抽出して、残りの10個の事例をどれだけ正答できるか確認。
これを、RSGAとC4.5の両方で確認し、比較する。

Attributes of 卒研データ

No attributes.

See also...