RStudioで鳥人間コンテスト滑空機部門を分析してみた①

こんにちは。さいがです。

今回は統計ソフトRStudioを用いて鳥人間コンテスト滑空機部門を様々な角度から統計分析してみました。RStudioを使っていろいろやりたいだけです。

なお今回の分析には鳥人間コンテスト公式サイトに掲載されているデータをもとに行いました。

さいが
さいが

眠ってるデータがありすぎるので解析していきたい願望があります。

[RStudio]統計分析をするための準備

今回は同じデータでいろいろ分析を行いたいと考えているので公式サイトよりデータを拝借してcsvデータの作成からおこないました。また今回は公式サイトから分かる情報のみを用いてデータ分析を行いました。データには過去5年間の大会のいずれかに出場したチームを対象として、データ収集を行いました。

統計分析のためのcsvデータ作成(一部抜粋)
ずぼら
ずぼら

data.csvっていうファイルにしようとしたらDAta.csvってなっちゃったけれど、ファイルにはちゃんと名前を付けましょうネ(特大ブーメラン)

[RStudio]相関関係にありそうな因子を探す

まずはじめに、それぞれの因子間の相関係数の導出を試みました。

> dat<-read.csv("C:\\DAta\\toriAnalysis.csv")
> cor(dat[,3:5])
                  出場回数     最高記録 最高記録時年齢
出場回数        1.00000000  0.710924644 -0.078362817
最高記録        0.71092464  1.000000000 -0.003512287
最高記録時年齢 -0.07836282 -0.003512287 1.000000000
   
> plot(dat[,3:5],pch=16,col="#ff8c00")

この結果より、出場回数と最高記録には正の相関がありそうだということが分かりました。

[RStudio]出場回数とチーム最高記録の散布図を作成する

散布図の描写

分析するためのcsvデータを任意のフォルダに保存したらさっそくソフトを回していきます。RStudioにて書いたコードは以下の通りです。

dat<-read.csv("C:\\DAta\\toriAnalysis.csv",header=T) 
rownames<-dat[,2] 
plot(dat[,3:4]) 
plot(dat[,3:4],type="p",pch=16,col="#ff8c00") 
text(dat[,3:4],labels=rownames,pos=1)

そうするとこのようなグラフが描写されます。今回は横軸に出場回数、縦軸に最高記録をとって散布図の作成を行いました。

出場回数と最高記録の関係図
> dat<-read.csv("C:\\DAta\\toriAnalysis.csv")
> cor(dat[,3:4],method="pearson")
          出場回数  最高記録
出場回数 1.0000000 0.7109246
最高記録 0.7109246 1.0000000
> 

出場回数とチームの最高記録の相関係数は0.71となっていました。

相関関係のp値を求める

導き出した相関関係に優位性があるかどうかを確かめるためにp値の導出を行いました。

> cor.test(dat[,3],dat[,4])
Peason's product-moment correlation
data:dat[,3] and dat[,4]
t=6.8562, df=46, p-value=1.498e-08
alternative hypothesis:true correlation is not equal to 0
95 percent confidence interval:
0.5348234 0.8278375
sample estimates:
cor 0.7109246

p-value=1.498e-08とでているのでp<0.01よりこの相関関係は優位性があるということができます。このことから最高記録が大きいチームは出場回数もその分重ねていることが分かりました。

[考察]グループ分けできそう・・・?

この出場回数と最高記録の飛距離の散布図から3つのグループ分けをしてみたいと思います。

abline(v=10)
abline(h=200)

出場回数10回、最高記録200mにラインを引いてみると3つのグループに分けることができました。

  1. 出場回数10回未満、最高記録200m未満
  2. 出場回数10回未満、最高記録200m以上
  3. 出場回数10回以上、最高記録200m以上

こうするとそれぞれの範囲に所属しているチームの特徴が見えてきました。

この3つのグループの分析は次回行いたいと思います。

まとめ

今回は統計ソフトRを用いて鳥人間コンテスト滑空機部門の記録を用いて分析を行ってみました。出場回数と最高記録には相関関係があることが分かりました(そりゃそうか)。ですが出場回数が少ないにも関わらず記録を出しているチームも存在しているのも事実です。次回は最後の章で3つに分けたグループの特徴、各チームの歴代記録から分かるチームの特徴などをデータ分析を通してやっていきたいと考えています。自分のスキル向上もかねて眠ってるデータを引退した今だからこそ分析していきたいと思います。

参考サイト・本

鳥人間コンテスト公式サイト https://www.ytv.co.jp/birdman/history/

R https://cran.r-project.org/index.html

RStudio https://www.rstudio.com/products/rstudio/download/

豊澤栄治:楽しいR ビジネスに役立つデータの扱い方・読み解き方を知りたい人のためのR統計分析入門、株式会社翔泳社、2015年https://www.amazon.co.jp/楽しいR-ビジネスに役立つデータの扱い方・読み解き方を知りたい人のためのR統計分析入門-豊澤-栄治-ebook/dp/B00TF89DR4/ref=sr_1_38?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&dchild=1&keywords=R+%E7%B5%B1%E8%A8%88&qid=1593422651&sr=8-38

あとがき

コメント