ChatGPTで写真から文字を書き起こす操作(OCR)がうまくいきません

目次

ChatGPTで写真から文字を書き起こす操作(OCR)がうまくいきません

OCRとは、画像やスキャンされた文書から文字を認識し、
デジタルテキストに変換する技術のことです。

ChatGPTのOCRは横書きのシンプルなテキストを前提としているため、
以下のような内容を含む画像から文字起こしをする場合は
特にエラーが起きやすいです。

・縦書き
・挿絵や吹き出し
・2段組みなどの特殊なレイアウト
・特殊なフォント
・罫線や背景色による装飾

より正確に文字起こしをするには、用意した画像にあらかじめ
以下のような加工を行うのが望ましいです。

・背景色と文字色のコントラストを上げる(白黒にする)
・文字起こしの妨げになる装飾を
トリミングや消しゴムマジックのような機能で削除する

なお、ChatGPTが手動で読み取った内容でも
ある程度文字起こしがうまくいっている場合もありますので、
まずはそちらをご確認ください。

目次