سرگرمی، آدرس و سورس برنامه ها ،لینک و انجام پروژه های دانشجویی: آموزش الفباي فارسي به رايانه(قسمت اول)

منبع: ماهنامه دانشگر
رايانه تنها يك ابزار است، و ما انسان‌ها مي‌بايد شيوة كار كردن را به او بياموزيم، و امكانات كار را هم برايش فراهم آوريم، نرم‌افزارهاي مختلف به همين منظور طراحي مي‌شوند. يكي از آنها نرم‌افزار OCR است كه براي تشخيص و بازيابي الفبا (نوشته‌هاي دست‌نويس يا تايپ‌شده) توسط كامپيوتر طراحي مي‌شوند. اگر هر يك از ما به طور متوسط 70 تا 80 سال عمر كنيم مجموع روزهاي زندگيمان بين 25هزار تا 29هزار روز مي‌شود. حال اگر به ما بگويند نرم‌افزاري توليد مي‌شود كه مي‌تواند بسيار بيشتر از عمر چندين و چند انسان در وقت صرفه‌جويي كند حتماً از آن استقبال مي‌كنيم، مگر آنكه براي چند صدبرابر روزهاي عمرمان ارزشي قائل نباشيم! نرم‌افزار OCR قادر است چنين تحولي را در استفاده وقت بشر به وجود آورد. اين نرم‌افزار مي‌تواند متن‌هاي دست‌نويس يا متوني را كه قبلاً تايپ شده‌اند و اكنون فايل تايپي آنها موجود نيست، خود به تنهايي و بدون دخالت انگشتان هيچ تايپيستي تايپ كند. فرض كنيد كه مثلاً مي‌خواهيم متن مقالات روزنامه اطلاعات سال 1340 شمسي را (كه اكنون نه تنها فايل تايپي‌اش موجود نيست ــ چون آن زمان اصلاً تايپ كامپيوتري در كار نبود! ــ بلكه خود نسخه‌هاي روزنامه را هم به زحمت مي‌توان پيدا كرد) تايپ ديجيتالي كنيم، و اين متن‌ها را داخل بسته‌هاي نرم‌افزاري يا اينترنت قرار دهيم. اگر هر شماره از روزنامه را 24 صفحه فرض كنيم، و هر تايپيست بتواند در هر روز حداكثر يك صفحه از آن صفحات كاهي و كهنه شدة قديمي را دوباره تايپ كند، مجموعاً 24 روز لازم است تا تنها مقالات يك شماره از روزنامه تايپ شود. بنابراين در عرض يك سال يك نفر مي‌تواند تنها 15 شماره از روزنامه را تايپ كند. حال اگر نرم‌افزاري باشيم كه بتواند با اسكن كردن هر صفحة روزنامه، به طور خودكار مقالات آن را تايپ كند، تحولي عظيم رخ مي‌دهد، يعني مطالب و مقالات هزاران شماره از روزنامه‌هاي قديمي به سرعت وارد فايل‌هاي رايانه‌اي مي‌شود. حال اين امكان را تعميم بدهيد به هزاران كتاب و دستنويس‌هاي قديمي يا جديد، كه هر كس بخواهد تنها يك صفحه از آنها را تايپ كند، بايد كلي وقت صرف كند. مي‌بينيد كه نرم‌افزار OCR براستي مي‌تواند هزاران هزار روز در وقت ما صرفه‌جويي كند، و البته هزينه‌ها را هم كاهش دهد. البته فقط يك مشكل كوچك به وجود مي‌آيد و آن بيكار شدن تايپيست‌هاست! OCR در ايران چگونه آغاز شد؟ امان از دست اين تيزهوشان! ماجرا از ثبت‌نام داوطلبان آزمون «سازمان ملي پرورش استعدادهاي درخشان (تيزهوشان)» در سال 1380 ‎آغاز شد. ثبت‌نام از روي فرم‌هايي كه توسط دانش‌آموزان تكميل مي‌شد انجام مي‌گرفت. دانش‌آموزان شركت‌كننده در آزمون ــ مانند آزمون‌هاي سراسري ــ بايد نام، نام خانوادگي، نام پدر، نام شهرستان محل تولد و سكونت، نام مدرسه و دين خود را در داخل كادرهاي مربعي شكل و به صورت حروف مقطع (يعني هر حرف داخل يك كادر) مي‌نوشتند. وقتي كه همة فرم‌ها از طريق پست به سازمان مركزي برگزاركننده آزمون مي‌رسيد، عدة زيادي تايپيست متن آنها را دوباره وارد رايانه مي‌كردند. در واقع همان حرف‌هاي داخل كادر را دوباره تايپ مي‌كردند تا اطلاعات شناسنامه‌اي هر دانش‌آموز به صورت ديجيتالي درآيد. اين روش هم بسيار زمان‌بُر بود و هم نياز به تعداد زيادي تايپيست داشت. احتمال داشت كه تايپيست‌ها هم هنگام تايپ اشتباه كنند و با ثبت نادرست يك نام، مشخصات فردي در رايانه مركزي وارد شود كه اصلاً متولد نشده است! مثلاً فرض كنيد تايپيست محترم نام «جواد» را، كه داخل كادرها به صورت «ج.و.ا.د» نوشته شده بود، «فؤاد» تايپ مي‌كرد؛ در آن صورت در كارت شناسايي جواد سابق، فؤاد فعلي ثبت مي‌شد! (جوادِ موجود حذف مي‌شد و فؤاد ناموجود وارد فهرست داوطلبان مي‌شد!) افزون بر اين، هزينة كار نيز بسيار زياد بود. به علت همين مشكلات، در بهمن‌ماه 1380، نخستين طرح OCR براي بازشناسي حروف فارسي توسط كامپيوتر ارائه شد و در سال‌هاي 1381 و 1382 نيز ثبت‌نام آزمون تيزهوشان به ياري اين نرم‌افزار انجام شد. OCR چيست؟ OCR سرنام اصطلاحي است كه صورت كامل آن در واژه‌نامه‌هاي انگليسي به دو صورت آمده است: 1. Optical Character Recognition 2. Optical Character Reader فرض كنيد كه ما متني را روي كاغذ داريم و مي‌خواهيم آن را وارد رايانه كنيم. اولين روشي كه به ذهن مي‌رسد اين است كه متن را به تايپيست بدهيم تا با كامپيوتر تايپ كند. اما آيا مي‌شود عين همان متن را وارد رايانه بكنيم تا نيازي به تايپ نباشد؟ البته دستگاه «اسكنر» مي‌تواند تصويري از آن متن را وارد رايانه كند، تا اينجا بخشي از مشكل ما حل شده است. اما رايانه كه نه عقلي دارد و نه «زبان» مي‌فهمد، نمي‌تواند حروف و كلمات را از هم تشخيص دهد. مثلاً اگر از كامپيوتر بخواهيم به ما بگويد كه در متن اسكن‌شده كلمة «علي» چند بار آمده است، بي‌آنكه شرمنده شود، مي‌گويد: «error»، يعني: «نمي‌توانم تشخيص بدهم!» در واقع اين «تصوير ديجيتال‌شده» بايد به «تصوير قابل پردازش» تبديل شود. موضوع اصلي OCR همين است. انواع OCR در زبان‌هاي ديگر، به ويژه زبان‌هايي كه با حروف لاتيني نوشته مي‌شوند، سال‌هاست كه از OCR استفاده مي‌شود. اما در ايران تازه دو سه سالي است كه به فكر استفاده از OCR در زبان فارسي افتاده‌ايم. و اما OCR چند نوع است: يا تايپي است يا دست‌نويس. يعني يا بايد يك متن قبلاً تايپ شده را (مثل كتاب‌ها و روزنامه‌هاي چندين سال قبل، يا حتي متني را كه فايل تايپي آن موجود نيست و فقط پرينت آن را داريم) وارد رايانه كنيم، يا متن دست‌نويس را. متن‌هاي دست‌نويس هم به دو صورت «گسسته» و «پيوسته» وجود دارند: متن «دست‌نويس پيوسته» مثل همان چيزهايي است كه ما هرازگاهي كه دلمان تنگ مي‌شود روي كاغذ مي‌نويسيم، يا يك نامه، يا يك قطعه شعر و ... اما متن «دست‌نويس گسسته» همان نوشته‌‌هايي است كه حروف آن جدا از هم و به صورت گسسته نوشته شده‌اند، مثل نام و نام‌خانوادگي كه در فرم‌هاي آزمون ثبت‌نام، به صورت هر حرف داخل يك كادر، نوشته مي‌شوند. طراحي OCR گسستة فارسي تقريباً در مراحل پاياني كار قرار دارد ولي، OCR پيوسته ظاهراً سال‌هاي زيادي كار مي‌برد. «رضا صديق» و «پرويز رزازي»، كه در رشتة مخابرات تحصيل كرده‌اند و مسئولان يك شركت كامپيوتري به نام «انديشه نرم‌افزار پايا» هستند، براي اولين بار به طور جدي پروژة OCR فارسي را دنبال كرده‌اند. رزازي كه دانشجوي مخابرات و مسئول بخش پردازش سيگنال شركت «پايا» و مدير پروژة OCR در اين شركت است، مي‌گويد : « OCR در دنيا موضوعي ناشناخته نيست، و بر روي آن زياد كار شده است، ولي در ايران با آنكه مدت‌هاست روي آن كار شده، اما بسياري از اين كارها در حد كارهاي دانشگاهي و مقاله‌هاي علمي باقي‌مانده بود و تبديل به يك محصول كاربردي در ابعاد وسيع (مثل ثبت‌نام آزمون‌هاي بزرگ) نشده بود. ما بر روي اين طرح كار كرديم و هدفمان هم اين بود كه محصول را به شكل صنعتي آن توليد كنيم.» البته غير از شركت «پايا»، دو شركت ديگر نيز با حمايت دبيرخانه طرح «تكفا» (توسعه كاربرد فناوري اطلاعات و ارتباطات) مشغول پژوهش و آزمايش بر روي OCR فارسي هستند. يكي از اين شركت‌ها «داده‌پردازان دوران نوين» نام دارد كه مديريت آن را دكتر «حسام فيلي» بر عهده دارد. دكتر فيلي متخصص در رشتة هوش مصنوعي، از دانشگاه صنعتي شريف، است و شركت «دوران نوين» را از سال 1381، با هدف كار تخصصي بر روي پروژه‌هاي هوش مصنوعي تأسيس كرده است. او دربارة چگونگي پيوستن شركتش به اين طرح مي‌گويد: «از تيرماه سال 82 با شروع فعاليت طرح «تكفا» و حمايت‌هاي مالي آنها، اين شركت تصميم گرفت كه در زمينة طراحي OCR فارسي پژوهش و فعاليت كند. اين پروژه در شركت «دوران نوين» با همكاري آقاي «دكتر ابراهيمي مقدم» كه او هم از دانشجويان دورة دكتري هوش مصنوعي دانشگاه صنعتي شريف است، انجام مي‌گيرد. فارسي ما و مشكلات آن قبل از اينكه به مراحل ديگر OCR بپردازيم، لازم است اندكي هم به مشكلات خط فارسي ــ يا در واقع ويژگي‌هاي اين خط ــ بپردازيم. اول اينكه ما در فارسي حروف را به صورت چسبيده و پيوسته مي‌نويسيم و اين كار براي تشخيص حرف به حرف نوشته از سوي رايانه (كه قرار است در مراحل بعدي آن را تايپ كند) بسيار مشكل است. تصور كنيد كه همين كلمه ساده «است» را به حالت‌هاي مختلف مي‌شود نوشت: يكي براي «س» دندانه مي‌گذارد، يكي نمي‌گذارد، يكي آن را مي‌كشد و يكي نمي‌كشد و... حالا اگر همين صورت‌هاي مختلف «س» به «ت» هم بچسبند، تشخيص حروف براي ما انسان‌ها هم سخت مي‌شود، چه رسد به رايانه. شباهت حروف مشكل ديگر خط ما اين است كه حرف‌هاي فارسي بسيار به هم شبيه‌اند. مثلاً در نظر بگيريد كه تفاوت «ر» با «ز» با «ذ» يا «ب» با «ت» تنها در يك نقطه است، و چون نقطه جزء بسيار كوچكي است، اگر يك خط يا حتي يك لك كوچك روي كاغذ بيفتد، تشخيص حروف از هم بسيار دشوار مي‌شود و دردسر جدي براي بازشناسي حروف توسط رايانه ايجاد مي‌كند. اينها تازه مشكلات خط فارسي است. دربارة اعداد فارسي هم اين مشكل وجود دارد: صفر ما يك نقطه كوچك است كه مي‌تواند رايانه را به اشتباه بيندازد؛ اعداد 4، 3، 2، 1 هم بسيار به هم شبيه هستند و تنها تفاوتشان يك دندانه كوچك است. به دلايل گفته شده OCR درمرحلة كنوني در كشور ما مربوط به «دست‌نويس‌هاي گسسته» يا متن‌هاي تايپي پيوسته است، و تا بازشناسي متن‌هاي دست‌نويس پيوسته توسط كامپيوتر راه زيادي در پيش است، چون در دست‌نويس‌هاي گسسته، اگرچه حروف به هم شباهت دارند، حداقل جداجدا نوشته شده‌اند. در متن‌هاي پيوسته تايپي هم مشكل كشيده شدن يك حرف يا شكسته نوشته شدن حروف را نداريم. البته به گفته مسئولان شركت «پايا» در حال حاضر هم نرم‌افزارهايي وجود دارد كه متن دست‌نويس پيوسته را تبديل به حروف جدا ازهم و گسسته مي‌كنند، ولي ضريب خطاي اين نرم‌افزارها زياد است و به شكل صنعتي درنيامده‌اند. بازشناسي حروف و الگو تا اينجا گفتيم تصوير صفحه‌اي كه در آن حروف به طور جداجدا (هر حرف داخل يك كادر) نوشته شده است، به وسيلة اسكن وارد رايانه مي‌شود. مرحلة بعدي اين است كه حروف بازشناسي شوند، يعني مكان آنها از ديگر خطوط (مثل خطوط كادري كه داخل آن نوشته شده) بازشناسي شود، و اگر متن پيوسته تايپي است، حروف جدا شوند و زوايد تصوير حذف شود. مثلاً اگر دانش‌آموزي «س» را به گونه‌اي نوشت كه بيرون از كادر بود، به رايانه بفهمانيم كه بي‌دقتي شده است او بايد همان حرف داخل كادر را بخواند. در مرحلة بعدي كه «بازشناسي الگو» نام دارد، با تعدادي شرط مي‌شود فهميد كه مثلاً حرفي «الف» است يا نه، و رايانه تشخيص مي‌دهد كه حرف «پ» است يا «ب». براي اين تشخيص لازم است كه تصوير حرف «الف» با الف‌هاي نمونه ــ كه قبلاً به رايانه داده شده است ــ منطبق شود. الفباي نمونه قبلاً از روي يك مجموعه بزرگ آموزشي تهيه شده و ويژگي‌هاي مشترك از آن استخراج شده است.

سرگرمی، آدرس و سورس برنامه ها ،لینک و انجام پروژه های دانشجویی

خرید آسان و آسوده

سایت های مورد نیاز شما

اگر نیاز به اطلاعات مختلفی دارید به سایتهای زیر رجوع کنید.

۱۳۸۷ تیر ۲۴, دوشنبه

آموزش الفباي فارسي به رايانه(قسمت اول)

هیچ نظری موجود نیست:

لینک باکس

اگر نیاز به شغل مناسب دارید برای یکبار هم که شده کلیک کنید، ضرر نخواهید کرد.

یک نگاه

نیازمندی های روز شما

جستجو در وبلاگ

درباره من

خبرنامه

بايگاني وبلاگ

آمار بازدید کنندگان وبلاگ

گلچینی از بهترین سایت ها

شرکت های خودروسازی

جستجو در اینترنت

سایت های چت (chat) فارسی

سفارتخانه

هتل ها

کتاب

بانک ها

دانشگاه ها

موزه ها

سایت های ادبی- هنری

ارگان های ورزشی

شرکت های هواپیمایی

ورزش های رزمی

ارگان های دولتی

اسطوره ها

لینک هایی که در زمینه برنامه نویسی و وب فعالیت می کنند.