DataCampで統計データの扱いと英語を学ぶ

統計データの扱いとRと英語を同時に学べるサイトの紹介

DataCampに統計データの基本を学ぶコースが開講されました。

統計ソフトウェアは大学のコンピュータにインストールされているRが用いられていますので、Rの基本と統計データ用語と扱い、それに英語をいっしょに学ぼうという人はチャレンジしてはどうでしょう。

私もやってみます、、、質問があれば、柴田に連絡してください。

ちょっとやってみたら

少しRを習った人でも、コースのはじめのほうに”%<%”が出てきて、「何これ?」と難しそうと思うかもしれません。

このコースは統計データの扱いの基礎を説明していますが、Rをダウンロートしたそのまま(ベース)ではなく、magrittrやdplyrというパッケージを利用した「高度」な解説となっています。

ですから、Rを一から(ベースで)勉強している人は、ちょっと戸惑(とまど)ってしまうかもしれません。

でも、Rやったことがないという人は、逆に、はじめからmagrittrやdplyrを使ったほうが直感的でわかりやすいでしょう。

さて、”%>%”ですが、これは、”%>%”の左側を右側の式の第一番目の引数(argument)とすることを示す記号(operator)です。

例えば、次の二式は同じ内容で、どちらも同じ結果になります。

x %>% f(y)
f(x,y)

同じなら、二つ目のほうが簡単でよさそうですが、いわゆる入れ子型の複雑な式になると、一つ目のほうがわかりやすく表現できます。Excelでもif関数が何重にもなった式は理解しにくいですね。

ということで、”Introduction to Data”のコースの初めに、Rのパッケージdplyrを使って、email50というデータの”number”の項目に”big”とある行を取り出す問題があります。解答は次のようになります。

# Subset of emails with big numbers: email50_big
email50_big %
filter(number==’big’)

プログラムは初めて、というみなさんはなじみがない表現が使われていますので、わかりやすく説明しておきます。

まず、#の行は説明です。一般にプログラムを書く場合、そのプロフラムの内容や説明、メモなどは#の後に書くという約束になっています。プログラムとしては無視される部分になります。

上では、#の行に次の説明があります。

すでにインストールしたemail50というデータの質問項目の”number”の答えに”big”とと記録されている人(行)をすべて取り出す式です。逆にいうと、”big”と答えていない人を削除するということです。

そうすると、データは次のようになります。左の第一列の番号は一人一人に割り当てられた番号です。一行目の英語は質問項目と考えてください。”number”の質問に”big”と答えた人ばかりの表になっています。

 

 

 

チャレンジしてみませんか?

難しいとか、ややこしいとかという感じを持ちましたか?それが普通だと思います。でも、それとは別に、「便利そう」とか、「できたからかっこいい」とかとか、「美しい」と思った人は、是非チャレンジしてください。ゲームのような面白さがあります。

以上


柴田 啓文

紹介 柴田 啓文

経済学部教員です。このサイトの管理者の一人です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です