Wikipedia のデータベースを特定の条件で整理する開発業務のお仕事 « エンジニア・デザイナーのクラウドソーシング

× このお仕事の募集は終了しています。

×

Wikipedia のデータベースを特定の条件で整理する開発業務

サイト構築・ウェブ開発の仕事の依頼

仕事の概要

掲載日 2013年10月03日
応募期限 2013年10月17日
仕事の種類 システム開発 » Web開発・システム設計 » サイト構築・ウェブ開発
支払い方式 固定報酬制 予算 50,000円 〜 100,000円
納品希望日 2013年10月31日
特記事項 急募! / オフィス訪問不要 / プロフェッショナル求む! / 継続依頼あり / カンタン!

仕事の詳細

WikipediaのDBから(日本語版、英語版)

1)すべての項目を抜き出し
2)すべてのカテゴリA.....n 抜き出してDBに整理
3)特定のカテゴリAにある項目名(タイトル)を抜き出してDBに整理

例)Wikipedia 日本語版には、約70万の記事(項目)数があり
http://goo.gl/JiPuYE

Yahoo!ディレクトリのように全カテゴリをまず抽出
カテゴリ数は何種類あるのかわからない
カテゴリは大-中-小とどこまで階層形式になっているかわからないが

例えば「宇多田ヒカル」http://goo.gl/JiPuYE

カテゴリ: 宇多田ヒカル日本のシンガーソングライター日本のR&B・ミュージシャンEMIミュージック・ジャパンのアーティストアイランド・レコードのアーティストオリコン年間シングルチャート1位獲得アーティストオリコン年間アルバムチャート1位獲得アーティスト日本のギネス世界記録保持者帰国子女日系アメリカ人のミュージシャンニューヨーク市出身の人物1983年生

とそれぞれのページの下部にカテゴリ名(階層付き)があるので、

【日本のシンガーソングライター】に入っている項目名(タイトル)をDBに整理していくという作業
http://ja.wikipedia.org/wiki/Category:%E6%97%A5%E6%9C%AC%E3%81%AE%E3%82%B7%E3%83%B3%E3%82%AC%E3%83%B...

最終的にCSVで出力できる形式のDBに仕上げる。

Wikipedia 英語版も同様の作業をする。
文章で説明するのはちょっとむずかしいですがそれほど難しい開発作業ではありません。

発注する前に一度詳細の説明と話し合いができる方。できれば都内で一度顔を合わせて説明できればいいですが、開発に自信があれば遠隔地でSkypeなどで話し合いもOK。
最終的にDBの中身がほしいだけなので、やり方は完全にお任せ、必要な項目(タイトル)とそれに紐付いたカテゴリがきちんと出せるようにしてくれればOK。いつでもどこもで作業可能。

Wikipedia データを扱ったことある人、DBの整理が得意なエンジニアの募集をお待ちしてます。


会員登録(無料)

他の仕事:Web開発・システム設計の仕事を探す

β版ご意見箱

× 今後表示しない