1. クラウドソーシングTOP
  2. みんなのお仕事相談所
  3. スクレイピングシステムについて
みんなのお仕事相談所

「みんなのお仕事相談所」では、ユーザーさまのご依頼の相場や製作期間、
契約書やお金に関する悩みを気軽に相談できるQ&Aコミュニティです。
違反案件についてはよくある質問の「【共通】違反のお仕事とは」をご覧ください。
また、違反報告についてはよくある質問の「【共通】違反報告とは」をご確認ください。

発注者からの相談
サイト構築・ウェブ開発の見積もり・相場に関する相談

スクレイピングシステムについて

回答
受付中
回答数
5
閲覧回数
3068
すぐ知りたい!  : すぐ知りたい!

サイト構築・ウェブ開発の依頼を検討しており、下記のようなサービスを作りたいと思っているのですが、どれくらいの相場感・費用になるかがわかりません。

下記に要件を書きますので、簡単な見積もりをいただけませんでしょうか。

・指定したサイトから求人情報(企業情報、求人情報など)を取得し
 CSVファイルとして保存されるプログラム
・HWインターネット求人情報他、指定したサイト(自社サイト)に
 リンクされた詳細ページの指定した条件に一致する案件の情報をCSV化
・毎日プログラムを実行し、当日の更新(追加)分をスクレイプして
 保存する運用
※実行環境はレンタルサーバを予定しています。
※ 可能であれば、出力先のWebサイトデザインもトータルでしていただけるとありがたいです。
(独自システムでも何らかのCMSでも構いません)
 1求人あたり1URLが表示され、自社情報からの案件は応募ボタンから個人情報入力、
 HW求人からのスクレイピングページからの応募ボタンは各案件詳細へのリンクを予定しています。

よろしくお願い致します。

2018年03月26日 15:11
shinkakuさんからの回答

スクレイピング案件をよく目にしますが法的に問題はないのでしょうか?
また情報提供元からどのように承諾を受ける予定でしょうか?

2018年03月26日 18:15
相談者コメント

スクレイピングの結果、データベースの作成に際して、情報解析を行うのみを目的としております。
再配布等は行いません。
また、回収するデータはハローワークで公開されている情報と、弊社別サーバにある情報ですので、法的に問題はないと思われます。ハローワークでの情報については出所を明記せずに転載を行うことは禁止されていますので、そのあたりはコンプライアンス的に問題のない仕様(出典表記)にしていただく必要があります。

2018年03月26日 18:41
竹下淳さんからの回答

WEBスクレイピングをサーバで行う場合、アタック攻撃と誤認されエラー処理されるケースがあります。
また最近ではAIによるスクレイピングが多発してサーバ側でもアクセス制限をかけているところが増えています。
なので現在はブラウザアプリを経由したスクレイピングが一般的です。
サーバにはブラウザアプリからAPIを通してデータをアップするという方法もあります。
なので直接サーバから他のサーバへアクセスする際はご注意ください。

2018年03月26日 23:15
(退会済み)
(退会済み)さんからの回答

ハローワークのデータ量をスクレイピングするとか常識で考えればおかしいと分かるでしょう…。
ハローワークにはAPIがある。と言ってもCSVをダウンロードするだけというAPIと名乗ってるのが信じられないようなひどい物だけど。
使うためのハードルも高すぎてこんなの誰も使えない。何社か使おうとしたけど結局全部諦めた過去がある。
それでもハローワークのデータが欲しいならここまでやるしかない。
https://www.hellowork.go.jp/info/online02.html

最初の質問で「HW」と略してるけどこれハローワークか…。こんな省略して伝わるわけない。
依頼するだけでもスキルがいる。

2018年03月27日 01:10
racchie/三浦久志さんからの回答

要件を拝読いたしました。内容から、ざっくりで恐縮ですが50万〜100万程度のお見積を想定しています。
詳細等については直接ご相談をいただければ対応させていただきます。取り急ぎ。

2018年03月27日 08:58
相談者コメント

>水のグランドトライン様
回答ありがとうございます。
ブラウザアプリを経由したスクレイピングについて、教えていただき、ありがとうございます。
承知いたしました。
進める際は、ぜひ参考にさせていただきます。

>kawax様
回答・リンクありがとうございます。
そうですね。おっしゃる通り、省略では伝わらないです。大変失礼いたしました。
気をつけるようにいたします。

>racchie様
回答ありがとうございます。
進めることになれば、直接ご相談させていただきますので、ぜひよろしくお願いいたします。

2018年03月27日 09:41
竹下淳さんからの回答

余談ですが、御社のリンクURLが合ってません。
http://www.group-rita.co.jp/index.html

のcoの部分がcpになっています。

2018年03月27日 11:34
相談者コメント

>水のグランドトライン様
ご指摘ありがとうございます。修正いたしました。

2018年03月27日 12:05
不安や疑問に真摯に向き合い改善につとめます クラウドワークス安心安全宣言