×
固定報酬制
|
ワーカーと相談する
|
---|---|
納品完了日
|
- |
掲載日
|
2016年02月21日 |
応募期限
|
2016年02月28日 |
応募した人 | 3 人 |
---|---|
契約した人 | 0 人 |
募集人数 | |
気になる!リスト | 4 人 |
OCRライブラリであるtesseract-ocrに1つメソッドを追加していただきます。 https://github.com/tesseract-ocr/tesseract 【追加するメソッド】 ・読み取った各文字に座標情報と行番号を合わせて返すメソッドです。 ・座標情報は、1文字を四角で囲んだ時の左上(開始位置)と 右下(終了位置)の2箇所の座標を取得します。 (*座標は横200px x 縦600pxの画像の場合、左上を(0, 0)とし、 ど真ん中にある20px四方の文字であれば、 開始位置=(90, 290)、終了位置=(110, 310)となります。) ・行番号は、現在のライブラリの機能でテキスト出力する際に 何行目に出力されるかがそのまま番号になります。 ・読み取り言語に依存する実装ではないと思いますが、 最低でも日本語と英語での読み取りが実行できる必要があります。 ◯出力内容(*読み取った文字数分、下記のデータが作成されます) ・int x1 //文字の開始位置のX座標 ・int y1 //文字の開始位置のY座標 ・int x2 //文字の終了位置のX座標 ・int y2 //文字の終了位置のY座標 ・int line //行番号 ・char character //読み取った文字 ◯出力形式 ・XMLまたはJSON 【条件】 ・最新バージョンのtesseract-ocrを使用すること ・ライブラリの既存機能に影響がないこと ・処理速度が著しく悪化しないこと 【納品物】 ・ソースコード ・呼び出し方法の簡単な説明 【依頼内容に関する認識】 ・座標の情報はすでに内部で持っていて、それを何らかの形で出力するために 多少の修正を加える程度の追加実装だと認識しています。 この認識に誤りがある場合は、お見積もりで訂正いただければと思います。 【追加オプション】 もし可能であれば、下記も別途お見積もりいただけると助かります。 ・Javaから今回追加するメソッドを呼び出せるようにする 呼び出し例: List<OCRChar> list = TesseractOCR4J.recognize("doc.jpg"); *OCRCharは「出力内容」の情報を持ったクラス |
特記事項 |
---|
|