Submit Search
Upload
実践Excelスクレイピング
•
50 likes
•
18,614 views
宏明 塩原
Follow
ExcelでスクレイピングとBIごっこをする方法
Read less
Read more
Internet
Report
Share
Report
Share
1 of 33
Download now
Download to read offline
Recommended
東京近郊のPerlコミュニティのご紹介 #lcs2015
東京近郊のPerlコミュニティのご紹介 #lcs2015
鉄次 尾形
Intro to Stastics with R- Introduction
Intro to Stastics with R- Introduction
Lakshmi Devi G.C
Statics
Statics
Ramasubbu .P
第3回Webスクレイピング勉強会@東京 happyou.info
第3回Webスクレイピング勉強会@東京 happyou.info
Shogo Okamoto
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
yuzoakakura
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
Hirosuke Asano
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Takuro Sasaki
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用
Lumin Hacker
Recommended
東京近郊のPerlコミュニティのご紹介 #lcs2015
東京近郊のPerlコミュニティのご紹介 #lcs2015
鉄次 尾形
Intro to Stastics with R- Introduction
Intro to Stastics with R- Introduction
Lakshmi Devi G.C
Statics
Statics
Ramasubbu .P
第3回Webスクレイピング勉強会@東京 happyou.info
第3回Webスクレイピング勉強会@東京 happyou.info
Shogo Okamoto
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
yuzoakakura
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
Hirosuke Asano
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Takuro Sasaki
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用
Lumin Hacker
これからPerlを使っていくみなさんへ #Perl入学式
これからPerlを使っていくみなさんへ #Perl入学式
鉄次 尾形
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Nagi Teramo
Prologで構文解析という昔話
Prologで構文解析という昔話
宏明 塩原
of_protocol_tremaday5
of_protocol_tremaday5
エイシュン コンドウ
WordPress on PHP7 on CentOS7 on Saraku-VPS
WordPress on PHP7 on CentOS7 on Saraku-VPS
Ryo Shibayama
第六回 #渋谷java Javaを書き始めて 1年半が経って思うこと
第六回 #渋谷java Javaを書き始めて 1年半が経って思うこと
Kazuhiro Serizawa
HoloLensデモ展示TIPS集
HoloLensデモ展示TIPS集
Tatsuya Sakai
Emscriptenと不思議のダンジョン
Emscriptenと不思議のダンジョン
兎 伊藤
Perlcasual #5 発表資料
Perlcasual #5 発表資料
Junichi Ishida
My開発環境の話
My開発環境の話
Yuta Ohashi
パーフェクト"Elixir情報収集"
パーフェクト"Elixir情報収集"
Keisuke Takahashi
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
Eric Sartre
「アイロンビーズプロッター作ろうとしてみた with プロ生ちゃん」 プロ生勉強会 第44回@熊本
「アイロンビーズプロッター作ろうとしてみた with プロ生ちゃん」 プロ生勉強会 第44回@熊本
kirin_nico
Robot Framework (のSelenium2Libraryのお話)
Robot Framework (のSelenium2Libraryのお話)
泰 増田
Laravel の学び方と得られる学び
Laravel の学び方と得られる学び
Masaru Matsuo
Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012
Takayuki Fukumoto
青空文庫構成管理サーバー現状報告
青空文庫構成管理サーバー現状報告
gennei Utani
IT業界における伝統芸能の継承 #hachiojipm
IT業界における伝統芸能の継承 #hachiojipm
鉄次 尾形
Perlを勉強してみて思ったこと
Perlを勉強してみて思ったこと
Yuzo Iwasaki
俺とHeartbleed
俺とHeartbleed
Masayuki KaToH
More Related Content
Similar to 実践Excelスクレイピング
これからPerlを使っていくみなさんへ #Perl入学式
これからPerlを使っていくみなさんへ #Perl入学式
鉄次 尾形
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Nagi Teramo
Prologで構文解析という昔話
Prologで構文解析という昔話
宏明 塩原
of_protocol_tremaday5
of_protocol_tremaday5
エイシュン コンドウ
WordPress on PHP7 on CentOS7 on Saraku-VPS
WordPress on PHP7 on CentOS7 on Saraku-VPS
Ryo Shibayama
第六回 #渋谷java Javaを書き始めて 1年半が経って思うこと
第六回 #渋谷java Javaを書き始めて 1年半が経って思うこと
Kazuhiro Serizawa
HoloLensデモ展示TIPS集
HoloLensデモ展示TIPS集
Tatsuya Sakai
Emscriptenと不思議のダンジョン
Emscriptenと不思議のダンジョン
兎 伊藤
Perlcasual #5 発表資料
Perlcasual #5 発表資料
Junichi Ishida
My開発環境の話
My開発環境の話
Yuta Ohashi
パーフェクト"Elixir情報収集"
パーフェクト"Elixir情報収集"
Keisuke Takahashi
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
Eric Sartre
「アイロンビーズプロッター作ろうとしてみた with プロ生ちゃん」 プロ生勉強会 第44回@熊本
「アイロンビーズプロッター作ろうとしてみた with プロ生ちゃん」 プロ生勉強会 第44回@熊本
kirin_nico
Robot Framework (のSelenium2Libraryのお話)
Robot Framework (のSelenium2Libraryのお話)
泰 増田
Laravel の学び方と得られる学び
Laravel の学び方と得られる学び
Masaru Matsuo
Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012
Takayuki Fukumoto
青空文庫構成管理サーバー現状報告
青空文庫構成管理サーバー現状報告
gennei Utani
IT業界における伝統芸能の継承 #hachiojipm
IT業界における伝統芸能の継承 #hachiojipm
鉄次 尾形
Perlを勉強してみて思ったこと
Perlを勉強してみて思ったこと
Yuzo Iwasaki
俺とHeartbleed
俺とHeartbleed
Masayuki KaToH
Similar to 実践Excelスクレイピング
(20)
これからPerlを使っていくみなさんへ #Perl入学式
これからPerlを使っていくみなさんへ #Perl入学式
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Prologで構文解析という昔話
Prologで構文解析という昔話
of_protocol_tremaday5
of_protocol_tremaday5
WordPress on PHP7 on CentOS7 on Saraku-VPS
WordPress on PHP7 on CentOS7 on Saraku-VPS
第六回 #渋谷java Javaを書き始めて 1年半が経って思うこと
第六回 #渋谷java Javaを書き始めて 1年半が経って思うこと
HoloLensデモ展示TIPS集
HoloLensデモ展示TIPS集
Emscriptenと不思議のダンジョン
Emscriptenと不思議のダンジョン
Perlcasual #5 発表資料
Perlcasual #5 発表資料
My開発環境の話
My開発環境の話
パーフェクト"Elixir情報収集"
パーフェクト"Elixir情報収集"
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
「アイロンビーズプロッター作ろうとしてみた with プロ生ちゃん」 プロ生勉強会 第44回@熊本
「アイロンビーズプロッター作ろうとしてみた with プロ生ちゃん」 プロ生勉強会 第44回@熊本
Robot Framework (のSelenium2Libraryのお話)
Robot Framework (のSelenium2Libraryのお話)
Laravel の学び方と得られる学び
Laravel の学び方と得られる学び
Perl入学式をやってみた! - YAPC::Asia 2012
Perl入学式をやってみた! - YAPC::Asia 2012
青空文庫構成管理サーバー現状報告
青空文庫構成管理サーバー現状報告
IT業界における伝統芸能の継承 #hachiojipm
IT業界における伝統芸能の継承 #hachiojipm
Perlを勉強してみて思ったこと
Perlを勉強してみて思ったこと
俺とHeartbleed
俺とHeartbleed
実践Excelスクレイピング
1.
実践Excelスクレイピング しおばらひろあき@ハイロウテック 第3回Webスクレイピング勉強会@東京(2014/10/26)
2.
自己紹介 • しおばらひろあき
• 合同会社ハイロウテック代表社員 • http://www.hilotech.jp/ • Webの下から上まで全般が守備範囲 • 次のドール販売は11/24(祝)「アイドール」です
3.
よい子のみんな! みなさん! スクレイピングしてますか?
4.
なに使ってます? 言語は? Pythonかな?
Javaかな? Nodeかな?
5.
最近めっきり聞かないよね ぼくはPerlちゃん! すっかり絶滅危惧種
6.
Perlでスクレイピング… •ぶっちゃけめんどい! •ライブラリはそろってるけど、
ギークが多すぎて 「ソース嫁状態」 になりつつある •Encodeが出てきて??になった •これをメンテナの人に聞かれると 殴られる •Perl 6いつ出んだよ!
7.
でもPerlでスクレイピングする • 渋谷区年別住民登録人口
http://www.city.shibuya.tokyo.jp/data/statics/base/nenbetu .html • これをCSVとしてスマートに取得したい!
8.
ソース #!/usr/bin/env perl
use strict; use Encode::Locale; binmode STDOUT => ':encoding(console_out)'; use Web::Query; use HTML::Entities; $|=1; wq( 'http://www.city.shibuya.tokyo.jp/data/statics/base/nenbetu.html‘ ) ->find('table')->first ->find('tr')->each(sub{ my( $i, $e ) = @_; $e->find('th,td') ->each(sub{ my( $l, $e ) = @_; print ',' if ( $l != 0 ); print '"' . decode_entities( $e->html ) . '"'; }) ; print "¥n"; }) ;
9.
Perl 20年書いてるけどめんどくさくなってきた… #!/usr/bin/env
perl use strict; use Encode::Locale; binmode STDOUT => ':encoding(console_out)'; use Web::Query; use HTML::Entities; $|=1; wq( 'http://www.city.shibuya.tokyo.jp/data/statics/base/nenbetu.html‘ ) ->find('table')->first ->find('tr')->each(sub{ my( $i, $e ) = @_; $e->find('th,td') ->each(sub{ my( $l, $e ) = @_; print ',' if ( $l != 0 ); print '"' . decode_entities( $e->html ) . '"'; }) ; print "¥n"; }) ; 文字コードを端末に合わせるおまじない いつの間にか登場しているライブラリ なぜかエンティティ化される日本語を処理…
10.
そこで提案! スクレイピングは Excelでやる時代!
11.
Excelとは? • 人類が生んだ万能ツール
• 用途 • 営業日報作成 • 方眼紙制作 • Excelスクショエビデンス作成 • ソフトウェアプロトタイピング • などなど
12.
Excelでスクレイピングしてみよう! • 渋谷区年別住民登録人口
http://www.city.shibuya.tokyo.jp/data/statics/base/nenbetu .html • これをCSVに!
13.
手順1:ブラウザでアクセス
14.
手順2:スクレイピング対象を選択! & CTRL+C
15.
手順3:ExcelにCTRL+Vで貼り付け!
16.
手順4:CSV形式で名前をつけて保存! たったこれだけ!!
17.
あ、怒らないで… 実はExcelには もっとすごい技が!
18.
Webクエリ
19.
Webクエリ なんだこれ?
20.
Webクエリ クリックするとこんな画面に
21.
Webクエリ スクレイプしたいURLを入れる
22.
Webクエリ データを選択して「取り込み」
23.
Webクエリ Excelに取り込まれる!→作業完了
24.
Webクエリ 定期自動更新も可能!
25.
ガーン… わいのPerl人生はなんやったんや…
26.
実は 高度なビジュアライズもできる!
27.
例)東京23区の人口をWebクエリで取得 http://www.metro.tokyo.jp/PROFILE/map_to.htm
28.
取得したデータをPowerView/PowerMapに投射
29.
こんなビジュアライズがさくっとできる
30.
ガーン… わいの JavaScriptビジュアライズ
人生はなんやったんや…
31.
それほど非現実的な解ではない • どこの会社の誰のPCでも環境がそ
ろっている • それほど習熟が要らない • VBAやPowerShellを利用すれば 自動化できる
32.
教訓 • 意外にスクリプト言語にこだわらな
くてもいいかも • 引継ぎ後の担当者がPerlできな かったら? • 道具は適材適所で使いましょう
33.
ご清聴感謝します
Download now