未完放流

終わりなど無い、有るのは試練だけだ……

今、うちらに必要なのは「コミュ力」より「統計」じゃねぇ?

オッサンです。無理して若者風の言葉を使ってみました。 正しい使いかたなのか?自信がありません。

先日、上司と軽い口論になり業界が抱える悩みを打ち明けられました。 具体的には、仕事から出てくる数値の解析を理解せずに推し進めてしまうことが慣習化していることですね。

「もう少し統計の知識をつけないと、何をやっているか分からなくなりますよ」と、かなり前から忠告をしていました。 これまでは「時間が無いから無理」とか、「とりあえず仕事は回っているからOK」の様な回答をいただき、実際お金になるのですから半ば「コミュ力」ってスゲーと思っていました。 統計の勉強を勧める自分が間違っていると思ったこともありましたが、そろそろ限界のようです。

実は統計学は分かっている人はかなり少ない。多分。

最近、私がいる業界でも少しずつ正しい統計を使おうという雰囲気が出てきました。 仕方なく論文を読み検算もします。 ざっくり言ってしまえば、査読はしているけれど機能はしていないというのが感想です。

  • 書き方・記法がが独特、notation がない(不充分)。
  • 数学として見たときにやばい。検証が甘かったりして実用に耐えない。
  • 計算間違い。掲載している数値が主張と矛盾していたので、検算しなくとも充分見つけることができるものでした。

権威のあるところで、こういう状態なので他はもっと悲惨なのでしょう。 意外にこういったものが標準で使われたりするので怖いです。 厄介なことに別の手法・評価などで相関がでたりするのでOKになったりします。

こんな状態ですんで、時間が経って多方面からテストされて粗が出ると。 「だから、あの時いったじゃない」と問答が繰り返されます。

私がいる業界だけ悪いのかと思っていたのですが、 新聞(というより 2ch まとめ?)を見る限り、経済・社会系の人たちが全員が統計を使いこなせるとも考えにくいですし、物理をやっていた人の話を聞いていても、そのモデリングはねぇーだろと突っ込むこともあります。 統計はおまけ的な扱いをされているのだろうなと思ったらこんな本がありました。

ダメな統計学: 悲惨なほど完全なる手引書

ダメな統計学: 悲惨なほど完全なる手引書

こんな記事とセットです。

toyokeizai.net

あー、あるあるとなります。 数値が出る実務において共通言語的なポジションになっている気もしますので、もう少し盛り上がると良いなとも思っています。 個人的には英語ができるより統計ができた方が実務的に有難いかもしれない。 英語だけできる人でハズレを引いた経験がトラウマになっているのだろうか……

正確な数値と統計が欲しい

最近ブログで、数値と内容が一致しなかった新聞の記事などをネタにしたいなと思うの ですがオリジナルのデータを検証しようとすると資料を揃えられずに断念したりポストを下げることも多いです。 個人のブログですし気にしすぎかもしれません。 例えば、先日書いたのは「博士と生産性」「奨学金破産」ですが欲しい数値が用意できないので諦めました。

そう考えていて見つかったのは e-Stat という政府統計の総合窓口ですね。 このサイトだけで各省庁の統計を横断的に検索できたりDBをAPI利用できるので便利です。 素人が概要を調べるのには充分ではないでしょうか。 白書などに使われているグラフのオリジナルを探したり、加工して再解釈するという遊びに使えないか考えています。

政府統計の総合窓口

R ではパッケージまであって、RStudio or Jupyter があれば大学のレポート位すぐに書けそうです。

CRAN - Package estatapi

今は裁量労働制の資料が欲しいなぁーと考えたりしています。 これは、どう考えても「給料定額働かせホーダイ」にしかならないと思いますけどね。

統計の悪用 = コミュ力?

コミュ力が高い人の話術は魅力を感じます。 持続的にリーダーになれる人はコミュ力だけではないと思うんですが、時々調子が良い目先の事だけしか考えない人間もいるんですよね。

実務で統計を使えば分かると思いますが、悪意がなくとも数値で誤った方に結論を出すことは十分にあり得ます。 また数値で結論を出すというののは熟考の末だから誤りがない仕方がないと思うかもしれませんが、 間違いは間違いです。 人間が真面目に間違えるとき、特に第1章の例などは統計を使うつもりがなくとも読んでおいて損はないと思います。

コミュ力というよりはノリなのかもしれませんが、勢いで結論を出して面倒くさいことから逃げる人を何人か見てきました。

この位なら可愛くて上司が意味も分からずに数値目標をたててパワハラとセットだと最悪です。 これは本当に表面上の数値だけを作っているパターンだと思います。 大体このパターンはその上司も似たような人だった気がする。

業界ごとに「数値を作る」手法というのは確立されていると思うのですが良くないですよね。 世間知らずと笑われるかもしれませんが、 数値をきちんと追い悪いところを見つけて改善すれば問題は解決するとオッサンになっても信じています。

数値は定量化されるので意思決定の根拠として使い易いのですが、その過程を無視されていることが多いのも残念です。 私は確率過程論に少し馴染みがあり、数字を見たときにどんな成り立ちで出来ているのか習慣的に考えてしまいます。 人と議論するときは意外に便利だと感じることが増えました。

おわりに

流行りのビッグデータとかAI、Deep Learning も結構なのですが自身が解析対象に知識があれば数理モデルを組み立てる方がロスが少なくて良いなと考えています。 それに基本を押さえないとビッグデータ機械学習も正しく理解できないと思います。

自分の仕事もそれなりに好きなのですが、他の企業様のお賃金は羨ましいです。

おまけ あなたはいくつ知っているかな? 確率&統計用語

私がいる業界での新人さんの反応+用語のランキングです。 多分、業界ごとに傾向が異なると思います。

  1. 平均:流石にこれを知らないと言われたことはありません。
  2. 分散:何となく分かるけれど意外と説明できないという人も多かったです。
  3. 標準偏差:分散の平方根ですね。受験勉強の偏差値と混同している人もいました。
  4. 中央値:すいません。学生の時、勉強していませんでしたと返答されました。定義は簡単なのですぐ使えるようになる。

後は確率分布は、正規分布しか返ってきませんでしが充分だと思っています。 二項分布はイメージしやすいので学習にも便利ですし意外に当てはまる事象も多いので良いかも。

思い返してみれば、素直な人が多くて良い職場だ。