オルタナティブ・ブログ > ビジネスとデータ分析と技術の狭間 >

データ分析・技術のビジネスへの応用を考えていきます。

偏差値をRでデータ分析してみよう。

»

どうも、小谷です。

高校偏差値.netというサイトを発見しましたので、ここのデータをコピペしてCSVをつくって回帰分析をしてみました。

被説明変数を偏差値にして、説明変数に創立年(対数にした)、私立か公立か、共学か否か、地域(都道府県名)にしてみました。

これはあくまで遊びですので、特に自分の意見とかそういうのはないので、あしからず。

**

サンプル数は9907(学科単位ってことかな)。

以下がRの全体の結果。

Residual standard error: 0.1674 on 9844 degrees of freedom
Multiple R-squared: 0.149, Adjusted R-squared: 0.1436
F-statistic: 27.8 on 62 and 9844 DF, p-value: < 2.2e-16

Adjusted R-squaredが0.1436であんまり当てはまりがよくない。
でも折角だから、有意な変数(95%以上)はいくつかあるから、ピックアップしながら解釈してみよう。

まずは公立かどうかの指標。

国立 15.49630 0.54742 28.308 < 2e-16 ***
市立 3.37650 0.48171 7.009 2.55e-12 ***
私立 1.09267 0.21995 4.968 6.89e-07 ***
組合立 -1.89496 2.69326 -0.704 0.481702
町立 1.23729 5.99121 0.207 0.836391
都立 -3.14223 0.73045 -4.302 1.71e-05 ***
道立 -2.74245 0.88362 -3.104 0.001917 **
府立 1.70211 0.68664 2.479 0.013196 *

これみると、都立、道立だと県立より偏差値下がるみたいだし、国立だと偏差値が高くなるから、全部国立にした方がいいね。私立より市立の方が回帰係数高いし、市と国レベルで税金は効果的に使われているってことでいいかな。

次に、共学か否か。

女子 -0.91654 0.37302 -2.457 0.014023 *
女子(一部共学) -1.99488 4.89544 -0.407 0.683652
女子(音楽科のみ共学) 1.81397 4.26496 0.425 0.670614
男子 2.79224 0.64480 4.330 1.50e-05 ***
男子(通信制は共学) 22.12525 5.98274 3.698 0.000218 ***
男子(定時制は共学) 10.50053 4.24779 2.472 0.013453 *
別学 11.87992 1.91100 6.217 5.29e-10 ***

女子校って共学に比べて偏差値下がるんだね。男子校は上がるのに。高校教育は男女別学か男子校にしぼった方がいいかな。女子校には音楽科をかならず設置して、そこは共学にしよう。

最後に、地域について。95%以上で有意なのは下記の都道府県。

地域愛媛県 -3.95055 0.80976 -4.879 1.08e-06 ***
地域沖縄県 -7.32567 0.80104 -9.145 < 2e-16 ***
地域岩手県 -4.40052 0.75701 -5.813 6.32e-09 ***
地域熊本県 -2.99654 0.67781 -4.421 9.93e-06 ***
地域高知県 -5.59433 0.97078 -5.763 8.52e-09 ***
地域佐賀県 -2.05943 0.90480 -2.276 0.022861 *
地域埼玉県 1.89508 0.57211 3.312 0.000928 ***
地域山口県 -1.77804 0.73165 -2.430 0.015109 *
地域鹿児島県 -3.61641 0.68012 -5.317 1.08e-07 ***
地域神奈川県 1.29880 0.61606 2.108 0.035035 *
地域青森県 -2.47194 0.75738 -3.264 0.001103 **
地域千葉県 1.95276 0.61201 3.191 0.001423 **
地域大阪府 1.17495 0.59844 1.963 0.049632 *
地域大分県 -2.85092 0.81998 -3.477 0.000510 ***
地域長崎県 -1.97058 0.76488 -2.576 0.010000 *
地域長野県 -1.50756 0.73798 -2.043 0.041096 *
地域島根県 -3.17994 0.92967 -3.420 0.000628 ***
地域東京都 4.63482 0.60548 7.655 2.12e-14 ***
地域福島県 -2.62864 0.70657 -3.720 0.000200 ***
地域兵庫県 2.06474 0.58778 3.513 0.000445 ***

神奈川、千葉、埼玉、大阪、東京、兵庫にある学校は高くなるんだね。沖縄県に大阪市立とか横浜市立で学校つくるってのはどうだろう。

おし、東京都に国立の男子校(通信制は共学)をつくれば優秀なグローバル人材が生まれるぜ。結果は10年後だけど。

問題。

偏差値を被説明変数にした回帰分析の整合性ってどれくらいある?
そもそも、この解釈にはいっぱい問題あるよね、どこでしょう?

Comment(0)