昨日、夕方、息抜きに空を見ていました。
なんともない夕空でしたが、
ずっと見ていると、吸いこまれそうな感じを持ちました。
秋の空は、なぜか
空は広いなと感じさせることがあります。
<ここから、本題です。今日も長いです。エディターに表示されている文字数は4185文字です。(笑)>
最近ひそかに「統計」が注目されているようです。
統計が最強であるというタイトルの書籍が発行されています。
科学雑誌の「ニュートン」が「統計」を取り上げていました。
宇宙や原子、細胞、地質などのネタを取り上げていた「ニュートン」です。
「統計」と科学は関係ないわけではありませんが。
「ニュートン」にはそぐわないような。
車内吊のニュートンの広告を見て、「あれっ」と思いました。
「ニュートン」が取り上げる題材としては、珍しい題材です。
それだけ「統計」は今ちょっと注目を浴びているのでしょうね。
「統計」が注目を浴びだしたと感じる前に、
よく聞くようになった言葉が、
「ビックデータ」でした。
特に、今年の参議院選挙でネット利用が可能になって、
「ビックデータ」という言葉をよく耳にするようになりました。
そもそもビッグデータとは
「市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑な データ集合の集積物を表す」(ウィキペディア)そうです。
それが。
コンピュータの処理速度があがり、インターネット普及、そして、スマホやタブレットの普及し、それにより、ブログやフェイスブックやツイッター、動画投稿サイトの利用者が増えてきました。
その結果、日々多くの人が情報を発信されるようになりました。
それを指して、主に「ビッグデータ」と言うようになった感じです。
思いついた時に、自由に投稿するのが、ソーシャルです。
これらのデータは不定形でありますが、リアルタイム性が高いそうです。
このビッグデータを数値化するのでしょう。
しかし、分析にはかなり骨が折れそうです。
たくさんのスーパーコンピュータを並べて分析するのでしょうね。
しかし、これらのデータを分析することにより、
今の人々の好みや興味、嗜好がリアルタイムに読めたり、
今まで、読みとれなかったトレンドを予想したりすることがきるようになることがわかったようです。
当然、これらのデータを、販売活動に活用されるようになりました。
アマゾンや楽天などもすでにその手法を活用しているようです。
今後、健康や気象などにも活用できるようになるのではないかと期待されています。
そのデータ量は、数百テラ(1テラは約1兆)バイト以上なるようです。(知恵蔵2013)
さらに、2020年には、40ゼタ(1ゼタは1兆の10億倍)バイトになるとも予想されています。(知恵蔵2013)
そういったこともあって、選挙の時には、そのビッグデータを活用しようという動きがありました。
こう言った、大量すぎるデータを処理する分野は「統計」ということでしょう。
分析の手法で客観性が高いのは数値化です。
色んな情報を数値化して、分析しようとすると
数字の海のようになります。
日経新聞の電子版で、ビックデータに関する記事がありました。
読んでみると、まだ、新しい分野なのでしょうか、
こうした大量のデータを扱う技能をもった「データサイエンティスト」がすごく不足しているようです。
現在日本には千人程度しかいなく、将来的には25万人不足すると見込まれているようです。
ただ、政府はこの「ビックデータ」ビジネスは関連も含めて7兆円規模の市場になると見込んでいます。
成長分野の一つになるでしょう。
これからは、「ビックデータ」を扱う技能を持っていると、いい仕事にありつける可能性があります。
学生の就職口を増やすためにも、大学の評判を上げるためにも、
大学でも、この分野も力を入れようとしています。
そのために、押さえておきたいのが、「統計検定」のようです。
正式には「専門統計調査士」というようです。
統計調査士と専門統計調査士の二つに試験に受かった初めて認証してもらえるようです。
かなりハードルが高そうです。
しかし、注目される仕事ですね。
数字の海に興味のある方は、
数字の海を泳ぐのは大変しんどいとは思います。
統計といえば、昔「データマイニング」に挑戦したことがあります。
仕事でデータを分析しないということがあって、データマイニングの本買って、数ページだけ読んだことがあります。
難しく、読み進むことが出来ませんでした。
しかし、
統計とは違うかもしれまでんが、エクセルでデータを取り込んだりして、数字を触るのは好きでした。
集めたデータをエクセルの機能を使って、分析や、価格設定などしました。
不動産価格を査定もしたことがあります。
周辺の売り物件や成約物件のデータを集めて、表にしても、どうもはっきりとした答えがでてきません。
最終的には、全体の数字をザッと見て、「これくらい!」と決め、
後は検証したりしました。
これが意外と、いい数字を出します。(笑)
これも統計の一種でしょうか?
統計というのは
たくさんデータがあっても最終的に決めるのは、人の感覚かなと思います。
それを思うと、人の脳はすごいなと感心しますあす。
演繹と帰納を一緒に使うことが可能です。
統計はデータを加工して見やすくしますが、それを使って判断するのは「人」です。
数字は、判断材料で、帰納、演繹でもないように思うます。
加工の仕方で、いろいろな結果が導き出せるように思います。
統計データの集め方次第では、全く違った数字になることもあります。
消費者物価指数も、対象範囲を変えることで、1を超えたり、下回ったりします。
1を超えると物価が上がっていて、1を切ると物価が下がっているということになるのでしょう。
(1) 総合指数は2010年(平成22年)を100として100.6
前月比は0.3%の上昇 前年同月比は1.1%の上昇(2) 生鮮食品を除く総合指数は100.5
前月比は0.1%の上昇 前年同月比は0.7%の上昇(3) 食料(酒類を除く)及びエネルギーを除く総合指数は98.5
前月と同水準 前年同月とも同水準
この数字は、集めたデータをもとに比較検討した結果です。
しかし、これを見て、さらに、元データを見て、見た人によって評価が変わりるかもしません。
単純に見ますと、全体的に物価が上がっているようですが、その要因は、食料品エネルギー関係の物価が上がっているようです。原発停止により、火力発電に切り替え、その燃料が円安により価格上昇などで電気代の値上げられ、食料品の上昇が大きそうですが、食料品も、エネルギー価格の上昇と、円安による輸入品価格の上昇が考えられます。
しかし、食糧品やエネルギー以外は、下落傾向にあることが分かります。
これは、アベノミクスの目指している方向と一致しているのかと問われると、
どう判断されるでしょうか?
比較対象を2年前にするより、10年前の数字とにするとどうなるでしょうか?
いろいろな方向から見ることができます。
しかし、これが、政府の発表で、アベノミクスの方向に一致していると発表されると、世論はそのように醸成されていく可能性があります。
数字を集めても、判断する基準を変えるだけで
消費者にとって、どの数字が一番身近で関係あるか、政府にとってどの数字が都合がいいかで、使い方が変わります。
数字は嘘をつかないと言われます。
しかし、
数字は、正確ですが、
それを、使うとなると、
数字は見やすいように加工され、
加工される過程で加工する人の意思が働き、
ちょっとデータの端っこをカットするだけで、
違った数字群になったりすることもあり、
とても、恣意的な面が出てくる可能性があります。
しかし、数字で発表されると、それだけ信憑性が増し、聞いた人は、納得せざるを得なくなります。
それに反証するには、数字を拾い上げ数字の海に身を投げ出すようなものです。
どちらが正しいかは、誰も判断できません。
数字は、一つ方向性を出すには便利ですが、ちょっとアクセス方法を換えるだけで、逆の方向を示すことも可能です。
数字は、諸刃の刃ですね。
ビッグデータが注目され、これからますます、数字の海原は広がっていくでしょう。
数字の海原で、溺れないように、
発表された数字を鵜のみにしないで、
その数字がどのような所から出てきたのかをしっかり確かめる必要がありますね。
統計に何度かチャレンジしようと思いましたが、モノにならずにここに至っています。
そんな私が、ここで統計の話をするのもおこがましいのですが、
統計というか数字に関する私の感想を書かせて頂きました。
異論反論、私の思い違いなどが、あるかもしれません。
今日は好き勝手に書かせて頂きました。ご了承のほど(笑)。
統計(とうけい)は、現象を調査することによって数量で把握すること、または、調査によって得られた数量データのことである。 国家を統治するための基礎資料として活用されてきた歴史があり、建造物建設のための調査や兵役や徴税のための調査といったように、人口や土地等については古くから統計が取られている。 また、近代国家が成立した頃から政策の企画・立案のために利用されるようになり、それに伴い調査範囲も広がった。ナポレオン・ボナパルトは「統計は事物の予算である。そして予算なくしては公共の福祉も無い」と語り、1800年にはフランス、1828年にはオーストリアで国の調査機関が設立された。 さらに、パソコンの普及、分析手法の発達によって大学や企業なども統計を利用するようになり、「国のためのデータ」から「国民のためのデータ」へとその性質は変わってきている。