Captchaを使用して書籍をデジタル化する:ReCaptchaプロジェクト
概要
本稿では、Webフォームに入力する人物がコンピュータプログラムではなく人間であることを確認するために使用される、歪んだ文字列のシーケンスであるCaptchaの使用について説明します。Captchaは、スカルパーが大量のチケットを購入するのを防止するために使用され、インターネット上で広く使用されています。しかし、人類は毎日約50万時間をCaptchaの入力に費やしています。この問題に対処するために、ReCaptchaというプロジェクトについて説明し、Captchaの入力時間を書籍のデジタル化に使用する方法を提案します。Captchaを入力する際に、コンピュータプログラムが認識できなかった単語を転記することで、ユーザーは書籍のデジタル化にも貢献しています。このプロジェクトは、Captchaの10秒間を有用なことに使用する方法です。
目次
- Captchaの問題
- ReCaptchaプロジェクト
- ReCaptchaの動作方法
- Captchaアートとその他のミーム
- Duolingプロジェクト
- 結論
Captchaの問題
Captchaは、Webサイトへのスパムボットからの保護に使用される重要なツールですが、その使用にはコストがかかります。毎日、人類は約50万時間をCaptchaの入力に費やしています。これは、より生産的なタスクに使用できる重要な時間です。
ReCaptchaプロジェクト
この問題に対処するために、ReCaptchaというプロジェクトが作成されました。ReCaptchaは、Captchaの入力時間を書籍のデジタル化に使用します。Captchaを入力する際に、コンピュータプログラムが認識できなかった単語を転記することで、ユーザーは書籍のデジタル化にも貢献しています。このプロジェクトは、Captchaの10秒間を有用なことに使用する方法です。
ReCaptchaの動作方法
書籍のデジタル化プロセスには、ページをスキャンし、OCR技術を使用してテキストを認識することが含まれます。しかし、OCRは常に正確ではなく、特に古いインクで書かれた古い書籍の場合は正確性が低くなります。正確性を改善するために、2つの単語、1つは既知の単語、もう1つは未知の単語が表示され、両方を入力するように求められるCaptchaシステムが作成されました。未知の単語は、コンピュータが認識できなかった書籍から取得されます。複数の人が正しい単語に同意する場合、正確にデジタル化されます。このシステムはReCaptchaと呼ばれ、35万以上のWebサイトで使用され、1日に約1億の単語をデジタル化しています。
Captchaアートとその他のミーム
ReCaptchaシステムは、時に面白いまたは不適切な単語の組み合わせを表示することがあり、Captchaアートなどのインターネットミームにつながることがあります。これらのたまに起こるミスにもかかわらず、ReCaptchaシステムは、かなりの量のテキストをデジタル化するのに成功しています。
Duolingプロジェクト
講演者は、自分が取り組んでいる2つのプロジェクト、ReCaptchaとDuolingについて説明しています。ReCaptchaは、ユーザーがCaptchaを入力し、関連する画像を描くことで書籍をデジタル化するプログラムです。ReCaptchaを通じて、少なくとも1つの単語をデジタル化するのに7.5億人以上が貢献しています。講演者の研究問題は、より多くの人々と共に大規模な成果を達成できるかどうかであり、Duolingというプロジェクトに取り組んでいます。Duolingプロジェクトは、主要な言語すべてにWebを無料で翻訳することを目的としており、ユーザーの助けを借りて、大規模な成果を達成できます。講演者は、機械翻訳がまだWebを翻訳するために十分に良くないことを説明し、日本語から英語に不適切に翻訳されたフォーラム投稿の例を挙げています。
結論
まとめると、CaptchaはWebサイトへのスパムボットからの保護に重要なツールですが、その使用にはコストがかかります。ReCaptchaプロジェクトは、Captchaの10秒間を有用なことに使用する方法であり、書籍をデジタル化することができます。Duolingプロジェクトは、主要な言語すべてにWebを無料で翻訳することを目的としており、ユーザーの助けを借りて、大規模な成果を達成できます。