データサイエンティストの転職案件 - 2017年

[概要]

日本のデータサイエンティストの採用状況を知りたいと思い、まとめてみました。

結果、大手⇔ベンチャー、コンサル⇔事業会社の4象限でまとめるのがしっくりました。

 

[手法]

・転職サイト、企業サイトを網羅できるIndeedから「データサイエンティスト」の検索結果上位34案件を調査対象とした。

・雇用形態:正社員

・掲載期間 - 募集掲載開始日から :15日以内

・日本のデータサイエンティストはほぼ東京であろうということで、東京に限定。

・スポンサー案件(広告案件)は関連性が薄いものも表示されるため、除外した。

・有名大手かベンチャーいずれに属するかどうかは主観で判断。

 

[結果]

f:id:inoka4ra:20170913111755j:plain

①有名大手コンサル - 腕を磨きたいならオススメ

B社とかA社とか。

特徴は要求スキルが均一的で明確であり、多様なレイヤー(職位)を募集していることでした。均一的というのは、B社でもA社でも求められるスキルは大体一緒ということです。

募集している企業数は少ないですが、採用人数はボリュームありそうなので、総数でいうと少ないというわけではないかもです。

「今使えるワザを最大限活用したい」技術志向の方にマッチすると思いました。

 

②有名大手事業会社 - 大組織の動きが好きならオススメ

大手ITのR社(両方)とか、大手メーカーとか。

こちらも要求スキルは明確なのですが、その内容に幅がありました。

ビジネス企画、PM、研究開発等のその他の要素も重視される、ということです。

(①)と比較して、「もっとxxxの方向性を強めたい」という希望のある方にマッチすると思いました。

また、大組織特有のメリット・デメリットもあると推測されますので、それを志向するかどうか重要なポイントだと思います。

安定的であり、内政も必要であり。大きな流れを作ることができる一方、大きな流れに翻弄されることもあると思います。

 

ベンチャー事業会社 - 経営幹部にになりたいならオススメ

これは案件数が少なかったですが、存在はしていました。

ハイリスクハイリターンの案件だと思います。

既にある程度の技術力があって、経営力もある人がいいと思います。

後者のスキルがないと、仮に運良く企業が大きく成長できたとしても、辛い思いをしそうです。

また、(①)(②)と比較して、より何でもやることになりそうです。

 

ベンチャーコンサル - 玉石混交

案件自体は多く、未経験の採用も多いです。

新進気鋭(のように見える)の企業もあり、そこで働いたらワクワクできる経験ができる気がしました。

一方、要求スキルが不明確であったり、何より問題なのがデータサイエンティストを語った「なんちゃって案件」も存在することです。極端なケースだと、受託プログラミングの仕事をデータサイエンティストと言ってみたり。

ある程度この業界に詳しく、目利きのできる方は問題ないかと思いますが、本当に玉石混交だと思いました。

 

 

Twitter上の「有名人・芸能人」をクラスタリングしてみた ~松本人志さん、茂木健一郎さん、宮迫さんは一緒~

[サマリー]

Twitter「有名人・芸能人」(以下、芸能人)のフォロワー数Top 50アカウントからツイート(リツイート除く)を抽出し、テキスト解析により8クラスタクラスタリング(グループ化)しました。結果、グループの意味が推測できそうでした。

 

以下はクラスタリング結果のうちの一つとなります。

 例えば、グループ番号1は政治経済系の芸能人、グループ番号8には美容・ファッション系の芸能人に分類できそう。(あくまで個人的な感想です。)

 

 <クラスタ結果> ※名称はTwitterアカウントから取得。敬称略。

f:id:inoka4ra:20170904142323p:plain

 

また、10回クラスタリングした結果、以下の芸能人は毎回同じクラスタに属したため、より関連性が深いと思われます。

(例:松本人志 さんと茂木健一郎 さんと宮迫さんは毎回同じグループになった。)

 <毎回同じクラスタになった有名人・芸能人>

f:id:inoka4ra:20170904141349p:plain

 

[補足・感想]

Web上にあるデータを使ってデータ分析を行いたいと思ったのがきっかけです。

Twitter上のテキストは、本などの文章とは異なる部分も多く、その分析手法についても研究の余地がありそうです。

これからも面白そうなテーマが見つかり次第、チャレンジしたいと思います。

 

 

[実施方法]

Twitter API, TwitteR

Python (以下、主な機能)

from janome.tokenizer import Tokenizer

from gensim.models import word2vec

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

・2017/8/31時点で各アカウントから最大100ツイートを抽出、日本語以外の文字(アルファベット等)を除いた1000文字を名詞・形容詞・動詞に分かち書き

・K-mean法(k-means++)でクラスタリング

KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300,
tol=0.0001,precompute_distances='auto', verbose=0,
random_state=None, copy_x=True, n_jobs=1)

AIに「アンパンマ◯のテーマ」のフレーズを使って作曲させてみた

[サマリー]

AIに「アンパンマ◯のテーマ」のフレーズを使って作曲(モチーフディベロップメント)させてみました。結果、以下の曲が得られました。

 

[目的]

音に関する機械学習・深層学習に興味がありまして、最新の技術にキャッチアップすべく、ライブラリを試用しました。

 

[補足・感想]

クラシックの学習済データを利用したため、POPのフレーズから急にクラシックに変わってしまうギャップはあるものの、意外といい感じのものができました。

RNNを使用しているため、前の音情報を考慮した作曲・演奏になっている(はず)。

学習データがあれば、(作曲の質はともかく、)AIによる演奏は高いレベルで実現できそうです。

POPの学習データを使用することで、より今回のフレーズに適した作曲・演奏ができると思われます。

今回はライブラリを触るだけでしたが、今後、ライブラリの実装内容を理解することで実用的な応用方法を考えていきたいと思います。

 

[実装方法]

Windows bash

Ubuntu, Python, Tensorflow

・Magenta, Performance RNN

YAMAHA e-Piano Junior CompetitionのMIDIデータによる学習済データを使用

http://www.piano-e-competition.com/midi_2011.asp

統計検定2級と3級に合格した話

タイトルが結論なのですが、統計検定2級と3級に合格しました。

今回は受験の振り返りとその後について書きたいと思います。

 

※受験の経緯等は以前書いた記事を見てください。

統計学初心者が統計検定2級と3級をまとめて受験しました - inoka4raのブログ

 

[合格ライン]

統計検定2級は68.5点で合格しているので、少なくとも合格ラインは70点以上ということはないはず。

60-65点位が合格ラインになるように調整しているのではと思われます。

 

[おすすめの勉強方法]

まだまだ勉強中の身なので恐縮ですが、勉強していた実感としては、とにかく「分かりやすい」「自分が理解できる」参考書を読んだほうがいいと思います。

統計という技術を「何に対して」「どうやって」役にたてるのか、それを理解することがとても重要だと思うからです。

以前紹介したハンバーガーショップの本は、とても役にたちました。

 

統計知識は世界史のような浅く広く獲得していくものでなく、積み上げに近いものだと感じています。「平均」があって、その上に「分散」があって、その上に「信頼区間」があるということです。

試験を意識すると、どうしても公式の丸暗記をしてしまいがちで、実際私もやりました。ただ、問題なのは、その丸暗記の上に積み上げをしていくことはできないということなのです。

例えば「分散」を丸暗記すると、その次の「信頼区間」がわからなくなってくる。

 

多くの方は自身の目標のために検定をマイルストーンとして利用していると思うので、そういった意味でも、そしてもちろん試験合格という意味でも、よく理解するということが結局は近道なのかなと思います。

 

[合格したら何か変わった?]

もちろん何も変わりません(笑)。

ただ、漠然と描いている自分の目標に対して、必要なステップを踏めているということを客観的に把握できるので、道を進めているという安心感は持てました。

私の場合は統計学だけでは何もならないので、受験までは純粋な統計学に注力していたのですが、今はそれから開放されて、それ以外の知識を幅広く集めています。

 

[受験を推奨するか?]

ある程度統計学を学ぶ意欲や必要性が出てきたら、自身の理解度を問うという目的で受験すればいいと思います。

反対に、意欲や必要性なしに受験しようとすると、しんどいと思います。なので、その場合には受験勉強の前に、まずは意欲を高めることは先に始めたら良いかと思います。

Windowsキー(ウィンドウズキー)が意外と便利

最近パソコン作業の業務効率アップ的な本を読みまして、色々試しているのですが、

Windowsキーを使った操作が結構便利な事を知りました。

Windowsキーというのは、下の画像の真ん中のボタンです。

f:id:inoka4ra:20170710143522j:plain

使い方を知るまでは「キーボードでも(Windowsが)自己主張しちゃってるよー」位にしか思っていて、全く使っていませんでした。

 

色々使い方があるようなのですが、便利で一番良く使っているのが画面を分割して2つのウィンドウやコンテンツを表示させるというもの。

[Windowsキー]+[←](or[→])を同時に押すことで、現在指定されているウィンドウをキレイに左半分(or右半分)に表示されることができます。

例えば、左側(画面1)にChrome、右側(画面2)Excelを表示させることができるわけです。

f:id:inoka4ra:20170710143903p:plain

今までも手作業でウィンドウを調整して画面を分割表示することはやっていたのですが、これを一瞬で(しかもきれいに)できるというのがすごい。

RとかExcelが文字化けしていた問題が解決

RやExcelで使用するデータやソフトウェアの表示には日本語が含まれていることがあり、それがずっと文字化けしていました。

海外の方のシステム操作サポートをしていた経緯から、英語のWindowsを使用しているのですが、それに起因しているのかなぁとは思いつつも、色々いじってもダメだったので半ば諦めていました。

海外から日本に来た留学生なんかも、同じ問題で苦労しているかもしれません。

 

 

具体的には

・Rの画面表示

・Rのデータ読み込み(クリップボード含む)

Excelcsvデータ読み込み

・(日本語で作られた)Excelのマクロ

などが文字化け。

 

が、最近治りました。

 システムロケールというものを変更するだけでした。

[Control Panel]→[Clock, Language and Regions]→[Regions]→[AdministrationのChange Syste Locale]に進み、[Japanese]を選択して再起動。

f:id:inoka4ra:20170710141521p:plain

 

この問題が解決するまで「ヘッダーが日本語のデータは勘弁して欲しい」とか思いながらストレスを溜めていたのですが、ついに解消されました。