好きなペースで、ScalaでHTMLのスクレイピングを行うプログラムの開発。のお仕事 « エンジニア・デザイナーのクラウドソーシング

× このお仕事の募集は終了しています。

×

好きなペースで、ScalaでHTMLのスクレイピングを行うプログラムの開発。

サイト構築・ウェブ開発の仕事の依頼

仕事の概要

掲載日 2013年05月02日
応募期限 2013年05月16日
仕事の種類 システム開発 » Web開発・システム設計 » サイト構築・ウェブ開発
支払い方式 時間単価制 時間単価 2,000円 〜 3,000円
稼働時間/週 10時間/週 期間 1週間〜1ヶ月
求めるスキル
特記事項 オフィス訪問不要 / 継続依頼あり / 複数人募集

仕事の詳細

■■領域特化型検索エンジンのためのHTMLのスクレイピング/パースを行うプログラムの開発
Scalaが書けるプログラマの方を募集させていただきます。
Scalaをあまり書いた事が無くても大丈夫だと思いますが、Javaの知識は必要になると思います。

【お仕事の詳細】
▼ウェブ開発依頼の目的・概要
現在、ある領域に特化した検索エンジンを作成しています。バックエンドは大まかには以下のような仕組みになっています。

a. クローラー(対象のサイトからwebページを取得)
b. ★スクレイピング/パース(取得したHTMLから、必要な情報のみを抜き出す)
c. データストア(b.の結果を保存)
d. 解析/インデックス作成プログラム(保存した情報から、検索用のインデックスなどを作成)

今回、上のb(の一部)の作成をお願いしたいです。

現在、検索対象となるサイトは10個程度で、各サイトで5種類くらいのページから情報を取得するので、大ざっぱに言って50種類くらいのページ毎にbのプログラムを用意する、という形です。


▼使用するプログラミング言語/ツール/特殊技術(テクノロジー)

・使用言語:Scala
- sbtとspecs2を使うので、それらの基本的な知識が必要です。
- HTMLパーサーは jsoup 1.7.2 を使用します。 http://jsoup.org/
- それ以外のライブラリは基本的には使用しないようにして下さい。
・DBとのインターフェース部分は今回の案件では必要ありません。
・DOMの基本的な知識が必要だと思います。


▼重要視する点・開発経験

・正確に動作する事
・対象ページは概ねフォーマットが決まっていますが、当然ながら仕様とかは公開されていませんし、色々なコンテンツが入ってくるので、そうしたパターンに対応できるようなプログラムになっている事
・テストを書ける事

▼開発物の納期
期日は特に決まっていません。
前述の通り、全部で約50個のプログラム(モジュール)を作成しますので、1つ出来た段階で納品していただき、問題がなければ次のプログラムに進んで頂きます。

1モジュールあたり、慣れてくれば1日くらいで出来るかと思います。

▼ウェブ開発の報酬
2000円~3000円/時間
最初の1モジュールは2000円/時間でお願いし、品質等に応じて最大3000円/時間まで増額させて頂きます。

▼開発物の納品形式
sbtプロジェクトをzip形式で。
以下を必ず含めて下さい。
・specs2で書いたテストケース
・テストに必要なHTMLファイル

▼注意点・禁止事項

・他者の著作権、その他の権利を侵害する事
・プログラムの著作権は当方に帰属致します

▼その他コメント

※実際のWebサイト開発/アプリケーション開発の進め方・別途詳細は、クラウドワークスのメッセージでやりとりして決めさせて頂ければと思います。
※このお仕事以降も、継続的に追加で開発依頼をさせていただくことも可能です。

プログラマの方からのご連絡・ご応募お待ちしております。

2013年05月03日 10:32追記

====依頼内容に関して補足====

依頼内容が具体的にイメージしにくかったかもしれませんので、例を使って説明します。

架空の例ですが、例えば野球選手に特化した検索エンジンを作るとします。その場合、選手の情報を以下のようなサイトから取得する事になります。

・MLBの公式サイト
・日本プロ野球機構の公式サイト
・あるいはその他各国のリーグ
・ファンサイト etc.

例えば以下のようなページです。
http://bis.npb.or.jp/players/81385133.html

このページは、クローラーにて取得済みなのですが、今回依頼したいのは以下のような処理を行う関数を作って頂く事です。

・このHTMLの中身をStringで受け取る
・HTMLを解析して以下の値を取得して、返り値とする
- 名前
- 背番号
- 生年月日
- 各年度の成績
- etc.

1つの種類のページ(この例では日本プロ野球機構の選手ページ)に対するプログラムが完了した段階で一旦終了で、お互いが合意の場合には次の種類のページをお願いする事になります。例えばMLBの選手ページなどです。
http://mlb.mlb.com/team/player.jsp?player_id=400085#gameType=%27R%27

※実際に開発しているのは野球選手の検索サイトではありません。

====条件に関して====

上述の通り、1つのプログラムの作成はそれほど難しくないかと思います。元の投稿にも書いた通り、慣れた方でしたら1日程度、慣れていない方でも数日で終わるかと思います。

初回は、経験の有無にかかわらず時給2000円でお願いしたいと思います。成果物の質や過去の経験に応じて、2回目以降金額を上げさせて頂きます。

2013年05月08日 22:56追記

■仕事の時期について
本案件は、前述の通り検索エンジンの一部機能なのですが、他のモジュールの開発状況
によって、仕事の量が変動いたします。

現在、他の部分の開発が若干遅れているため、既に契約している方のみで十分こなせる
仕事量となっていますが、今後作業量が増える可能性が高いため、本案件は募集終了に
はせずにおいてあります。

・本案件で契約済みの方
依頼している作業を引き続きよろしくお願い致します。

・本案件に既に応募されている方で未契約の方
上のような状況ですが、今後仕事量が増えた段階で再度ご連絡致します。その時にもし
都合がつくようでしたら、是非お手伝い頂ければと思います。

・本案件に応募を検討されている方
仕事の開始時期・ボリュームは、現段階では保証できませんので、他の案件をやりつつ
本案件をサブとして考えて頂けるとちょうと良いかと思います。

よろしくお願い致します。

会員登録(無料)

他の仕事:Web開発・システム設計の仕事を探す

β版ご意見箱

× 今後表示しない