データサイエンティストの転職案件 - 2017年

[概要]

日本のデータサイエンティストの採用状況を知りたいと思い、まとめてみました。

結果、大手⇔ベンチャー、コンサル⇔事業会社の4象限でまとめるのがしっくりました。

 

[手法]

・転職サイト、企業サイトを網羅できるIndeedから「データサイエンティスト」の検索結果上位34案件を調査対象とした。

・雇用形態:正社員

・掲載期間 - 募集掲載開始日から :15日以内

・日本のデータサイエンティストはほぼ東京であろうということで、東京に限定。

・スポンサー案件(広告案件)は関連性が薄いものも表示されるため、除外した。

・有名大手かベンチャーいずれに属するかどうかは主観で判断。

 

[結果]

f:id:inoka4ra:20170913111755j:plain

①有名大手コンサル - 腕を磨きたいならオススメ

B社とかA社とか。

特徴は要求スキルが均一的で明確であり、多様なレイヤー(職位)を募集していることでした。均一的というのは、B社でもA社でも求められるスキルは大体一緒ということです。

募集している企業数は少ないですが、採用人数はボリュームありそうなので、総数でいうと少ないというわけではないかもです。

「今使えるワザを最大限活用したい」技術志向の方にマッチすると思いました。

 

②有名大手事業会社 - 大組織の動きが好きならオススメ

大手ITのR社(両方)とか、大手メーカーとか。

こちらも要求スキルは明確なのですが、その内容に幅がありました。

ビジネス企画、PM、研究開発等のその他の要素も重視される、ということです。

(①)と比較して、「もっとxxxの方向性を強めたい」という希望のある方にマッチすると思いました。

また、大組織特有のメリット・デメリットもあると推測されますので、それを志向するかどうか重要なポイントだと思います。

安定的であり、内政も必要であり。大きな流れを作ることができる一方、大きな流れに翻弄されることもあると思います。

 

ベンチャー事業会社 - 経営幹部にになりたいならオススメ

これは案件数が少なかったですが、存在はしていました。

ハイリスクハイリターンの案件だと思います。

既にある程度の技術力があって、経営力もある人がいいと思います。

後者のスキルがないと、仮に運良く企業が大きく成長できたとしても、辛い思いをしそうです。

また、(①)(②)と比較して、より何でもやることになりそうです。

 

ベンチャーコンサル - 玉石混交

案件自体は多く、未経験の採用も多いです。

新進気鋭(のように見える)の企業もあり、そこで働いたらワクワクできる経験ができる気がしました。

一方、要求スキルが不明確であったり、何より問題なのがデータサイエンティストを語った「なんちゃって案件」も存在することです。極端なケースだと、受託プログラミングの仕事をデータサイエンティストと言ってみたり。

ある程度この業界に詳しく、目利きのできる方は問題ないかと思いますが、本当に玉石混交だと思いました。

 

 

Twitter上の「有名人・芸能人」をクラスタリングしてみた ~松本人志さん、茂木健一郎さん、宮迫さんは一緒~

[サマリー]

Twitter「有名人・芸能人」(以下、芸能人)のフォロワー数Top 50アカウントからツイート(リツイート除く)を抽出し、テキスト解析により8クラスタクラスタリング(グループ化)しました。結果、グループの意味が推測できそうでした。

 

以下はクラスタリング結果のうちの一つとなります。

 例えば、グループ番号1は政治経済系の芸能人、グループ番号8には美容・ファッション系の芸能人に分類できそう。(あくまで個人的な感想です。)

 

 <クラスタ結果> ※名称はTwitterアカウントから取得。敬称略。

f:id:inoka4ra:20170904142323p:plain

 

また、10回クラスタリングした結果、以下の芸能人は毎回同じクラスタに属したため、より関連性が深いと思われます。

(例:松本人志 さんと茂木健一郎 さんと宮迫さんは毎回同じグループになった。)

 <毎回同じクラスタになった有名人・芸能人>

f:id:inoka4ra:20170904141349p:plain

 

[補足・感想]

Web上にあるデータを使ってデータ分析を行いたいと思ったのがきっかけです。

Twitter上のテキストは、本などの文章とは異なる部分も多く、その分析手法についても研究の余地がありそうです。

これからも面白そうなテーマが見つかり次第、チャレンジしたいと思います。

 

 

[実施方法]

Twitter API, TwitteR

Python (以下、主な機能)

from janome.tokenizer import Tokenizer

from gensim.models import word2vec

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

・2017/8/31時点で各アカウントから最大100ツイートを抽出、日本語以外の文字(アルファベット等)を除いた1000文字を名詞・形容詞・動詞に分かち書き

・K-mean法(k-means++)でクラスタリング

KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300,
tol=0.0001,precompute_distances='auto', verbose=0,
random_state=None, copy_x=True, n_jobs=1)

AIに「アンパンマ◯のテーマ」のフレーズを使って作曲させてみた

[サマリー]

AIに「アンパンマ◯のテーマ」のフレーズを使って作曲(モチーフディベロップメント)させてみました。結果、以下の曲が得られました。

 

[目的]

音に関する機械学習・深層学習に興味がありまして、最新の技術にキャッチアップすべく、ライブラリを試用しました。

 

[補足・感想]

クラシックの学習済データを利用したため、POPのフレーズから急にクラシックに変わってしまうギャップはあるものの、意外といい感じのものができました。

RNNを使用しているため、前の音情報を考慮した作曲・演奏になっている(はず)。

学習データがあれば、(作曲の質はともかく、)AIによる演奏は高いレベルで実現できそうです。

POPの学習データを使用することで、より今回のフレーズに適した作曲・演奏ができると思われます。

今回はライブラリを触るだけでしたが、今後、ライブラリの実装内容を理解することで実用的な応用方法を考えていきたいと思います。

 

[実装方法]

Windows bash

Ubuntu, Python, Tensorflow

・Magenta, Performance RNN

YAMAHA e-Piano Junior CompetitionのMIDIデータによる学習済データを使用

http://www.piano-e-competition.com/midi_2011.asp

統計検定2級と3級に合格した話

タイトルが結論なのですが、統計検定2級と3級に合格しました。

今回は受験の振り返りとその後について書きたいと思います。

 

※受験の経緯等は以前書いた記事を見てください。

統計学初心者が統計検定2級と3級をまとめて受験しました - inoka4raのブログ

 

[合格ライン]

統計検定2級は68.5点で合格しているので、少なくとも合格ラインは70点以上ということはないはず。

60-65点位が合格ラインになるように調整しているのではと思われます。

 

[おすすめの勉強方法]

まだまだ勉強中の身なので恐縮ですが、勉強していた実感としては、とにかく「分かりやすい」「自分が理解できる」参考書を読んだほうがいいと思います。

統計という技術を「何に対して」「どうやって」役にたてるのか、それを理解することがとても重要だと思うからです。

以前紹介したハンバーガーショップの本は、とても役にたちました。

 

統計知識は世界史のような浅く広く獲得していくものでなく、積み上げに近いものだと感じています。「平均」があって、その上に「分散」があって、その上に「信頼区間」があるということです。

試験を意識すると、どうしても公式の丸暗記をしてしまいがちで、実際私もやりました。ただ、問題なのは、その丸暗記の上に積み上げをしていくことはできないということなのです。

例えば「分散」を丸暗記すると、その次の「信頼区間」がわからなくなってくる。

 

多くの方は自身の目標のために検定をマイルストーンとして利用していると思うので、そういった意味でも、そしてもちろん試験合格という意味でも、よく理解するということが結局は近道なのかなと思います。

 

[合格したら何か変わった?]

もちろん何も変わりません(笑)。

ただ、漠然と描いている自分の目標に対して、必要なステップを踏めているということを客観的に把握できるので、道を進めているという安心感は持てました。

私の場合は統計学だけでは何もならないので、受験までは純粋な統計学に注力していたのですが、今はそれから開放されて、それ以外の知識を幅広く集めています。

 

[受験を推奨するか?]

ある程度統計学を学ぶ意欲や必要性が出てきたら、自身の理解度を問うという目的で受験すればいいと思います。

反対に、意欲や必要性なしに受験しようとすると、しんどいと思います。なので、その場合には受験勉強の前に、まずは意欲を高めることは先に始めたら良いかと思います。

Windowsキー(ウィンドウズキー)が意外と便利

最近パソコン作業の業務効率アップ的な本を読みまして、色々試しているのですが、

Windowsキーを使った操作が結構便利な事を知りました。

Windowsキーというのは、下の画像の真ん中のボタンです。

f:id:inoka4ra:20170710143522j:plain

使い方を知るまでは「キーボードでも(Windowsが)自己主張しちゃってるよー」位にしか思っていて、全く使っていませんでした。

 

色々使い方があるようなのですが、便利で一番良く使っているのが画面を分割して2つのウィンドウやコンテンツを表示させるというもの。

[Windowsキー]+[←](or[→])を同時に押すことで、現在指定されているウィンドウをキレイに左半分(or右半分)に表示されることができます。

例えば、左側(画面1)にChrome、右側(画面2)Excelを表示させることができるわけです。

f:id:inoka4ra:20170710143903p:plain

今までも手作業でウィンドウを調整して画面を分割表示することはやっていたのですが、これを一瞬で(しかもきれいに)できるというのがすごい。

RとかExcelが文字化けしていた問題が解決

RやExcelで使用するデータやソフトウェアの表示には日本語が含まれていることがあり、それがずっと文字化けしていました。

海外の方のシステム操作サポートをしていた経緯から、英語のWindowsを使用しているのですが、それに起因しているのかなぁとは思いつつも、色々いじってもダメだったので半ば諦めていました。

海外から日本に来た留学生なんかも、同じ問題で苦労しているかもしれません。

 

 

具体的には

・Rの画面表示

・Rのデータ読み込み(クリップボード含む)

Excelcsvデータ読み込み

・(日本語で作られた)Excelのマクロ

などが文字化け。

 

が、最近治りました。

 システムロケールというものを変更するだけでした。

[Control Panel]→[Clock, Language and Regions]→[Regions]→[AdministrationのChange Syste Locale]に進み、[Japanese]を選択して再起動。

f:id:inoka4ra:20170710141521p:plain

 

この問題が解決するまで「ヘッダーが日本語のデータは勘弁して欲しい」とか思いながらストレスを溜めていたのですが、ついに解消されました。

オンライン教育機関(Udemyとか)とオフライン教育機関(大学院とか)のメリットを比較

先日、Google Cloud Next '17 in Tokyoに行きました。

https://cloudnext.withgoogle.com/tokyo/

時間的な都合がつかず、体験ブースのみの参加となりましたが、

感じたことは、各社機械学習の裾野を広げるための工夫をなされており、
ツールの提供だけでなく、教育にも力を入れているということです。

GCP(Google Cloud Platform)に依存しない機械学習の学習という点では
私も受講しているUdemyの「【世界で5万人が受講】実践 Python データサイエンス」という講座が人気です。
Googleで「udemy」と検索すると2位に出てくる。)
https://www.udemy.com/courses/

 

そこで、私の体験に基づき、オンライン教育機関(Udemyとか)とオフライン教育機関(主に大学院を念頭に入れた、従来の教室型授業)のメリットを比較したいと思います。

 f:id:inoka4ra:20170624143605p:plain

 

[オンライン教育機関のメリット]
(1)新しい技術をすぐに学ぶことができる
(2)コストが安い
(3)場所を選ばない

 

(1)新しい技術をすぐに学ぶことができる
オフライン教育機関で新しい技術の授業が登場するのは準備の都合上、時間がかかります。
一方、オンラインであれば素早く授業が展開されますし、IT等の海外起点が多い技術であれば、英語版でよければいち早くオンライン授業を受けることができます。

 

(2)コストが安い
例えば大学の授業と比較した場合、講座にもよりますが、オンライン授業の費用が数十分の一になることもあります。
講座によっては結構ボリュームがあったりするので、最後まで受講できれば多くの知識が得られるため、コスパが良いともいえます。
一方、コストが安いことは大きなメリットであり、新し分野を学ぶ場合、その分野が自分に合うかどうかは、学び始めないとわかりません。
オンライン講座はコストが安いため、最悪途中で投げ出してしまっても、大学を中退するのに比べれば痛くないです。
つまり、失敗した場合のリスクが低く、チャレンジがしやすいといえます。

 

(3)場所を選ばない
自宅でもカフェでも、電車の移動等の隙間時間でも学ぶことができますし、
地方に住んでいる人も都会の人と平等に受講することができます。
空間的、地理的制約がある方には大きなメリットなのではないでしょうか。

 

 

[オフライン教育機関のメリット]
(1)学ぶ環境が整っている
(2)出会い(人脈)がある
(3)権威付けとして機能している

 

(1)学ぶ環境が整っている
これは非常に重要なことで、よく「やる気があればどんな環境でも学べる」論がありますが、それができるのは一部の人であって、多くの人は自分の「そこそこのやる気」を最大限活用して学ぶことで自分のキャリア等を良くしていきたいのではないでしょうか。
既婚者でも、一旦家族や周囲の理解を得られてしまえば、(例えば)「大学院に行く」ということで学習の時間をブロックできます。
また、教室という環境は学ぶことに最適化されていますので、学業に集中できます。
周囲のライバルからも影響を受けることで、やる気を回復することもあるでしょう。

 

(2)出会い(人脈)がある
ビジネスでは人脈がその成否を握ることもあるため、社会人になると人脈を大切にすると思います。
そもそも大学院などのオフライン教育機関に入学する人はモチベーション・スキル共に高い人材が集まるため、そこまで人脈構築を意識しなくても自然と仲良くなることができます。
将来ビジネスで協力することはなくとも、何気ないやりとりで気づきを得られることもあるかと思います。

 

(3)権威付けとして機能している
権威付け機能の効果は既にないという論調も多く、私もそれで評価することは懐疑的ではあります。
しかしながら例えば求人サイトを見ると、「大学や大学院でその分野を専攻しているしている事」を必須要件/歓迎要件に挙げる企業もあるため、
採用されずとも、面接のチャンスを得られる可能性が広がるという意味では権威付けの機能はまだまだ「ある」といえます。


[まとめ]
『オンラインとオフラインどっちがいいですか?』という質問を受けた場合には、オフラインを検討している時点で結構やる気が高いと思われるので、「選べるのであればオフライン」と答える事が多いと思います。
オンライン授業は学ぶ環境の準備ややる気の維持が意外と難しいからです。

一方、気軽に始めたい、もしくは様々な制約の関係上「オンラインで学びたい」という方もいらっしゃると思いますが、それも立派な選択肢として「あり」だと思います。気軽に即座に新しい知識を得られるのはオンラインならではです。
もちろん基本はオフラインで授業を受け、足りないものをオンラインで補完していくのも良いと思います。

 

オンライン授業という選択肢が出てきたことは素晴らしいことで、良い世の中になったなぁと思います。