شیوه استفاده ازAPI، تکنولوژی OCR در کدنویسی و نگاهی گذرا براین فناوری

visual-studio-ocr
Optical Character Recognition یا به اختصار OCR، بخشی از پلتفرم یونیورسال ویندوز است که می توان از آن در اپلیکیشن های ویندوز ۱۰ استفاده کرد. این فناوری همان استخراج اطلاعات یک متن از تصاویر است و به گونه ای طراحی شده تا توانایی استخراج متون از تصاویری با فرمت های مختلف را داشته باشد، از تصاویر عادی گرفته تا اسنادی که اسکن شده اند.

این قابلیت به طور همزمان که متون را از تصاویر استخراج می کند، می تواند آن ها را حتی بدون وجود داشتن ارتباط اینترنت پردازش کرده و نمایش دهد. به روز رسانی بزرگ ویندوز ۱۰ که در ماه نوامبر (آبان-آذر) منتشر شد، پشتیبانی از ۴ زبان جدید را به فناوری OCR افزود تا مجموع زبان هایی که توسط این فناوری پشتیبانی می شوند به ۲۵ عدد برسد. این فناوری برای چندین سال به صورت دقیق در مایکروسافت آزمایش شده و هم اکنون در نرم افزار هایی نظیر Word، بینگ، آفیس وان نوت، وان درایو، Office Lens و مترجم بینگ (Translator) به کار گرفته شده و برای مواردی همچون بازسازی اسناد، تبدیل تصاویر به متون تایپ شده و… مورد استفاده قرار می گیرد.

به عنوان مثال فرض کنید که شما یک متن دست نویس دارید و می خواهید که آن را به متن تایپ شده تبدیل کنید. اگر آن را خودتان به صورت دستی تایپ کنید فرآیندی بسیار وقت گیر خواهد بود اما می توانید به کمک فناوری OCR آن را در عرض چند دقیقه به متن تایپ شده تبدیل کنید. در واقع دوربین دستگاه شما یک تصویر از متن تهیه می کند و سپس آن را پردازش کرده و کارکتر های متن را استخراج می کند و به صورت تایپ شده با فونتی مشخص به شما نشان می دهد. یک نمونه که احتمالاً با آن بسیار برخورد داشته اید را مثال می زنیم. اکثر کاربران ویندوز فون حداقل یک بار از اپلیکیشن مترجم بینگ استفاده کرده اند، این اپلیکیشن برای ترجمه متون چندین راه را در اختیار کاربر می گذارد که یکی از آن ها اسکن عبارت مورد نظر با دوربین است. در این حالت کاربر دوربین گوشی خود را بر روی متن مورد نظر می گیرد و اپلیکیشن به کمک این فناوری شروع به اسکن می کند و سپس ترجمه متن به صورت عبارت تایپ شده بر روی عبارت های مربوطه قرار می گیرد. این همان فناوری OCR است که به این شکل در اپلیکیشن مترجم بینگ استفاده شده است.

استفاده از API فناوری OCR در کد بسیار ساده است و نمونه استفاده از این API را در زیر مشاهده می کنید:

8

اگر این کد را اجرا کنیم و تصویر زیر را در مقابل دوربین قرار دهیم، عبارت “TRAVEL THE WORLD SEE THE SIGHTS HAVE GREAT DAYS AND BETTER NIGHTS” از تصویر استخراج می شود.

9

می توان برای بازیابی و بازسازی متن به صورت خط به خط و پیدا کردن موقعیت دقیق هر کلمه از OcrResult نیز استفاده کرد که می توان اطلاعات بیشتر در خصوص استفاده از آن را در گیت هاب و یا MSDN مشاهده کرد.

این کار (API جدید OCR)، نسخه تکامل یافته کتابخانه OCR مایکروسافت برای ویندوز Runtime است که در سال ۲۰۱۴ بر روی NuGet عرضه شد. اگر شما هم اکنون از این کتبخانه بر روی اپلیکیشن های ویندوز / ویندوز فون ۸.۱ استفاده می کنید، استفاده از API جدید OCR بسیار آسان و سر راست خواهد بود. اگر شما نیاز دارید که از OCR به عنوان یک سرویس استفاده کنید، مایکروسافت برای این کار نیز برنامه هایی دارد. یک تکنولوژی مشابه به عنوان بخشی از پروژه آکسفورد (پروژه آکسفورد مجموعه ای از سرویس ها برای درک داده ها است که توسط مایکروسافت معرفی شده و توسعه دهندگان با استفاده از این سرویس ها می توانند برنامه های هوشمند بسازند. این پروژه تحولی را در API ها و SDK ها فراهم کرده است که توسعه دهندگان را قادر می سازد تا به راحتی سرویس های هوشمند را به ایده های خود اضافه کنند.) عرضه شده است. اگر بخواهید از OCR به عنوان سرویس استفاده کنید یکسری ویژگی اضافه در اختیار خواهید داشت که قابلیت تشخیص زبان و نوع چینش زبان (راست به چپ و یا چپ به راست) از جمله آن ها هستند.

منبع : سایت وینفون