google画像検索の結果一覧をスクレイピングするrubyプログラムデータクレンジングの仕事の依頼

yamamonburan

4.9 (18件のレビュー) 本人確認済み発注ルールチェック済み

クラウドワークスで発注するにあたり、必要な知識・ルールを確認するためのチェックテストです。
もっと詳しく

仕事の概要

固定報酬制	8,100円
納品完了日	2015年04月08日
掲載日	2015年04月01日
応募期限	2015年04月07日
必要なスキル	Ruby

応募状況

応募した人	1 人
契約した人	1 人
募集人数
気になる！リスト	6 人

この仕事に応募したクラウドワーカーを見る

仕事の詳細

概要
１. google画像検索の結果の一覧ページ（添付１.png参照）のHTMLソースをデータクリーニングするrubyプログラムの作成。
２. 検索一覧にある画像をダウンロードして、特定のディレクトリに保存するrubyプログラムの作成。

詳細：
▽方法
１.データをクレンジングするrubyプログラムの作成

入力：任意の画像を検索した時のgoogle画像検索結果のページ（HTMLソース）。添付の「添付１.png」と「google〜.html」参照。
　　（pagenateされているときは、すべての検索結果一覧のhtmlをまとめたHTMLソース）。

出力：添付のエクセルのような、csvあるいはタブ区切りのテキスト
１行は【通し番号】　【タイトル】【リンク先URL】【imgのURL】【説明】　という形です。
　　【通し番号】　　　１から始まる連番
　　【タイトル】　　　h3 class=""
　　【リンク先URL】　a属性　imgrefurl
　　【imgURL】　　　 imgurl
　　【説明】　　　　　span class=""
で指定されます（念のため、ご確認ください）。

手法：
指定したhtmlソーステキストファイルを読み込み、変数に格納
当該変数について、セレクタや正規表現によって、該当データを順に抜き出し、配列かファイルに格納
最終的にはテキストファイルに記述。
必要であればNokogiriなどのgemを使っていただいて構いません。

2.上記で取得された【imgのURL】を巡回して、画像を収集し、指定のディレクトリに保存するrubyプログラム。
上記で保存されたテキストファイル（またはArray）の【imgのURL】を全てクロールして、任意指定のディレクトリに画像を保存するプログラム。保存ファイル名は、通し番号_画像名.jpg(png etc..)。
googleで検索をかけているので、当然同じ画像しか集まりませんが、それでかまいません。

▽求められるスキル
・rubyでのプログラミング経験
・WEBスクレイピングの経験

▽データの納期
2015/4/8

▽データの納品形式
rubyプログラム一式
必要であれば、簡単な説明書

▽注意点・禁止事項
※データの内容を第三者に漏洩することは厳禁です

▽その他コメント
疑問点はなんでもお尋ねください。

添付ファイル

添付1.png

googleImageSrc.html

アウトプット例.xlsx

※ 募集が終了したお仕事の添付ファイルは、ダウンロードできません。

クライアント情報

基本的にはWEBエンジニアとして働いています。

yamamonburanの詳細を見る

最近応募したクラウドワーカー

クラウドワーカー	応募日時
松風ソフト	2015/04/02 01:14

google画像検索の結果一覧をスクレイピングするrubyプログラム データクレンジングの仕事の依頼