『ウォール街の物理学者』を読みました
1月末以来、久々の更新です。 GW中に読み始めた本です。
- 作者: ジェイムズオーウェンウェザーオール
- 出版社/メーカー: 早川書房
- 発売日: 2014/04/01
- メディア: Kindle版
- この商品を含むブログを見る
中身の概要については、以下のブログに記載されている通りです。 http://stonewell.blog.so-net.ne.jp/2013-12-30
以下、気になったフレーズ、備忘的なフレーズ等です。
*第2章 鮭の泳ぎと株価のゆらぎ
・市場にも、長さのちがうゆらぎが存在している。
・1日/1週間/1ヶ月の最初と最後に出来高が増える。
*第4章 ディーラーをやっつけろ!
・物理学は、ものの動きを予測するのが得意な学問
- それ故、ブラック・ショールズ・モデル等が生まれてきた
*第6章 サンタフェ街道の予想屋たち
・プレディクション・カンパニー(*1)
- ファーマーとパッカードを中心に設立した会社。非線形予測を利用し、金融市場の動きを予測。
・業務開始から15年間のリスク調整後リターンは、S&P500のリターンを100倍上回る(シャープレシオは3)。
(*1) http://www.predict.com/introduction.html
*第7章 ドラゴン・キングの足音
・あらゆる部分で臨界事象の準備が整っている場合、大きな割れ目の全身である小さなひびの怒る頻度が特定パターンを描きながら増えていく(*2)。対数周期的。
(*2) http://press.princeton.edu/titles/7341.html http://www2.warwick.ac.uk/fac/sci/maths/research/events/2013-2014/statmech/ght/programme/sornette_2.pdf
ITベンダー評価
今回は、データ分析から離れて、IT関係について。
自分の会社は、ITを主とした会社ではないため、システム開発や保守は、複数のベンダーに委託している。
しかし最近、ベンダーの数が多すぎる。
多すぎると、各ベンダーから来てくれる技術者が少ないが故、スキルの高い技術者が来ないことが多い。
そこで、ベンダー整理のため、ベンダーを評価したい。
「運用」と「保守」について
このブログを書く際、「運用」と「保守」の定義について、よく分からなかったので、整理。
運用:システムが正常に動いているか、トラブルがないか監視すること
保守:システムに対する別の要求(いわゆる仕様変更)が発生した場合に改修すること
評価観点
とりあえず、(指標として計測できるか別として)どのような観点で評価できそうか、検討してみた。
※具体的でないもの、内容が重複しているものがあるかもしれません、ご了承ください。
また、こんな観点がある等もございましたら、教えていただけると嬉しいです。
- 担当システムの規模(コードの量とかFPとか)
- 担当システムで発生したバグ数
- 定性的評価
- システム利用者(ユーザ)
- ITシステム部門担当者
- ベンダーからの提案数
- ベンダー会社の状態
- 会社の財務情報
- コンプライアンスの問題の有無
- 委託費用
- 技術者のスキル
- コミュニケーション力
- プログラミングスキル
- 該当業務知識
- 技術者の入れ替わり数
- システム運用/保守の実績
- 問い合わせに対する回答スピード
- 要望対応数、積み残し数
- 納期遅延数
■参考ページ
http://www.ipa.go.jp/about/jigyoseika/04fy-pro/chosa/srm/srm4.pdf
データサイエンス講義 5章「ロジスティック回帰」
続けて、備忘録として更新。
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
タイトルが「ロジスティック回帰」となっているが、あくまでも例としてロジスティック回帰を利用しているにすぎない。
実際に重要なのは、(2値分類において)分類する対象が決まってから実際に分類するために何を決めれば良いのか、ということだと思いました。
5.2 分類器
■そもそも分類とは
データポイントを有限個のラベルに対応させること。
もしくは、与えられたラベルに対応する確率を求めること。
■分類するために決めるべきこと
対象データや現実世界の分類問題、制約が明らかになった段階で
以下の内容を決める必要がある。
1. どの分類器を使うか
2. どの最適化手法を利用するか
3. どの損失関数を最小化するか
4. データからどの特徴を取り出すか
5. どの評価指標を使うか
■分類器選定のために
1. 時間の問題
I. 実行時間(5.2.1章)...分類にどれだけの時間を掛けて良いのか
II. スケーラビリティ(5.2.4章)...学習時間や評価時間にどれだけ時間が掛かるのか
2. 解釈のしやすさ(5.2.3章)...ヒトが解釈しやすい分類器である必要があるか(決定木は解釈しやすい)
5.3章以降は、ロジスティック回帰を用いた具体例を示しているが、ここでは省略。
データサイエンス講義 4章「スパムフィルタ、単純ベイズ、データランプリング」 その3
11月末で止まってしまった以下の書籍を再開です。
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
4.6 ウェブスクレイピング:APIとその他のツール
■データサイエンティストの仕事
データや明確な目的がない状態で仕事を引き受けることがある。その場合、
1.どのようなデータを手に入れるかを考え、
2.目的や問いを立て、
3.問題を解決し、調査を行う
ことが必要。
■データ収集方法
1.API(Application Programming Interface)を使って、データを抽出/収集。
取得する際のデータ形式は、JSON形式が主。
2.データ形式を揃える方法として、Yahoo!のYQL言語(SQL的な言語)を利用することで、標準形式でデータ出力可。
https://developer.yahoo.com/yql/
3.APIがない場合、Firefoxの拡張機能「Firebug」の「要素を調査」を利用することで取得。
その後、シェルスクリプトにより、データ抽出、加工を実施。
■参考になるページ(学術的)
単純ベイズ(ナイーブベイズ)をより簡単に(?)説明した資料。
ラプラススムージングについて、少し分かりやすいかも。
http://mtml.info/post/28232319862/naivebayes
『「ズルさ」のすすめ』を読みました
年末年始のお休みも今日で終わり、明日から仕事が再開です。
さて、年末年始の終わりにもう1冊読みました。
- 作者: 佐藤優
- 出版社/メーカー: 青春出版社
- 発売日: 2014/12/25
- メディア: Kindle版
- この商品を含むブログを見る
タイトルには、「ズルさ」という表現ですが、個人的には社会人としてどうやって生きていけば楽しく/充実した人生を過ごせるか、といった内容だと感じました。
以下、重要だと思った部分を書き溜めておきます。
第1章(人と比べない) - 「ズルさ」のすすめ
資本主義を世の中では、競争やゲームに参加させられる。
組織の頂点に立つのはほんの一握りであるため、その競争から降りるという決断もあり。
その際、出世競争に敗れたからと自暴自棄になって辞めることは良くない。
正社員なら、今の労働環境はそれだけでとても有利。
会社の価値観とは別のライフプランを明確に築くことが良い。
第3章(頭で考えない) - 社会は理屈で割りきれないことだらけ
人間の存在そのものが合理的でも理性的でもない。
そのことを理解した上で、直感的な判断も踏まえて行動すると良い。
(e.g.)ギャンブルは期待値でみるとマイナスだが、ハマる人は多い。
第4章(時間に追われない) - 必要な時間は最初に天引きしてしまう
時間を無駄にしないために1日の行動を記録し、振り返ることが重要。
時間がない場合、先に必要な時間を確保しておき、残りの時間で仕事等に割り振る。
第4章(時間に追われない) - 「賢者の時間」を大切にする
「孤独は人を賢者にする」という言葉があり、自分の内側を見つめ、自分の考えを整理する。
第7章(約束を破らない) - 相手の時間を奪っていないか
時間にルーズな人は信用されない(約束の時間に待ち合わせ場所に来ないとか)。
相手の時間を奪うことにもっと敏感になるべき。
アメリカではタイム・イズ・マネーの精神が通っており、時間にルーズな人間はお金も失う。
NHKスペシャル「NEXT WORLD-私たちの未来-」(第1回「未来はどこまで予測できるのか」)
NHKスペシャルで、人工知能に関する番組が放送されておりました。
全5回シリーズの第1回は。
番組は、以下の2つから構成されている。
①2045年の未来の生活を描いたドラマ
- 2045年に、人工知能が人間の知能を超越すると予測されている(シンギュラリティ(技術的特異点)の発現)。
②現在の予測技術の紹介
現在の予測技術の紹介では、
・IBMが開発したワトソンが医療や金融予測に利用できること、
・犯罪エリアの予測に基づく警察巡回場所の決定、
・アップロードした音楽の売れ筋予測、
・弁護士の作業代替となる人工知能、
(すみません、分かりませんでした...)
・予測のための量子コンピュータ開発(Google)、
といった色々な場面で利用できることが紹介されていた。
ドラマでは、人間活動のいかなる場所でもデータが収集され、プライバシーがなくなるという話にも言及がありました。
この話につながるか分からないが、2013年末から開始された「全脳アーキテクチャ」も役に立つかも。
全脳アーキテクチャ勉強会 - 汎用人工知能と技術的特異点
なお、このシリーズは明日も放送予定。
第2回 2015年1月4日(日) 寿命はどこまで延びるのか
第3回 2015年1月24日(土)人間のパワーはどこまで高められるのか
第4回 2015年1月25日(日)人生はどこまで楽しくなるのか
第5回 2015年2月1日(日) 人間のフロンティアはどこまで広がるのか
『外資系コンサルが教える「勝ち方」の教科書』を読みました
明けましておめでとうございます。
10月からブログを書いていましたが、12月に一気に頻度が落ちてしまいました。。。
今年は定期的に更新したいですね。
さて、年末年始は実家に帰省し、時間があったので、今後のキャリアを考えるにあたって、以下の本を読みました。
- 作者: 笛木克純
- 出版社/メーカー: KADOKAWA/中経出版
- 発売日: 2014/12/16
- メディア: 単行本
- この商品を含むブログを見る
以下、重要だと思った部分を抜粋します。
第2章-02 「勝ちパターン」を設計する
ポイントは3つ。
1.情報の整理 & 構造化
2.フットワーク & 人脈
3.寝技 & 根回し
相手が何を必要としているのか、そのポイントに対し、どう説明すべきか。
また、情報収集のための人脈の大切さ、事前に合意することの大切さが述べられています。
第2章-03 自分の土俵を周囲に認知させる
「小さな積み重ね」が社内への神道を促す。
飲み会で得意分野への情熱を話す、自分の得意分野で困っている人を助ける等により、自分の得意分野を認知してもらうことで、仕事が増えていく。
第3章-02 「チーム全体の成果」から逆算して考える
毎日のアウトプット目標を定める「ワークプラン」を作成すること。
3つの大きな特徴がある。
1.管理単位が短い
2.ワークプランに仮説が埋め込まれている
3.計画が柔軟に変更できる
アウトプットするもの自体が決まることで、計画を立てることができ、時間を効率よく利用することが可能。
また、中長期的なプランも作成可能とのこと。
第3章-05 「小さな成功」を最初に生み出すことにこだわる
「小さくても早期に実現するプロジェクトの成果」を見せる(Quick Win)。
クライアント側の疑心暗鬼を解消し、積極的な協力を引き出すことにつながる。
このQuick Winを作り出すための準備が成否を分ける。
第4章-01 「勝ち」と「スキル」を紐付ける
本当にそのスキルが必要かどうか。
スキル獲得が目的になっていないかを確認すべきと述べられています。
第5章-01 勝ち続けるための目標を設定する
「勝ち」の定義の考え方として、「SMART」というフレームワークが役立つ。
S:具体的であること(Specific)
M:定量的であること(Measurable)
A:実現可能であること(Achievable)
R:達成可能であること(Realistic)
T:期限が明確であること(TimeRelated)