בעיית הOCR היא זיהוי טקסט מתמונה של טקסט.
יש לנו פה אספקטים של למידה ושל עיבוד תמונה, יש שיאמרו
ראייה ממוחשבת(אני לא).ברמה הבסיסית ביותר אנו מדברים על זיהוי אות. נתונה תמונה של אות
(למשל כמטריצה 8X8 שחור לבן או רמות אפור) ויש לזהות איזו אות
זאת.
אנו לרוב משתמשים פה בטכניקות של למידה, בונים מערכת שמאמנים אותה
ע"י דוגמאות. מראים תמונה ואומרים לה זה א' תמונה אחרת ואומרים
לה זה ב'. כך הרבה מאוד דוגמאות.
יש לנו מספר טכניקות ללמידה ממוחשבת, יש טכניקות מבוססות
רשת עצבית שמאמנים בעזרת טכניקה הנקראת BACK PROPAGATION
יש טכניקות מבוססות SVM, ובשבילם צריך למצואkernel function
טוב.
ויש טכניקה מאוד פשוטה(שאליה ארחיב קצת משום שהיא פשוטה) הנקראת
Nearest Neighbor שם אנו פשוט מקבלים דוגמא, ובודקים מה המרחק
(עד כדי כמה היא שונה) בינה לבין כל הדוגמאות שלמדנו מהם,
ומסווגים אותה כפי שסיווגנו את הדוגמא הקרובה ביותר.
ניתן להרחיב טכניקה זאת ל K Nearest Neighbor שם אנו לוקחים
את K הדוגמאות הקרובות ביותר ועורכים הצבעה ביניהם בשביל
להחליט על הסיווג. (אפשר שההצבעה תהיה ממושקלת לפי המרחקים)
כמובן שכאשר מדובר בתמונות, רעיון המרחק הוא לאו דווקא מאוד
ברור. הדרך הפשוטה ביותר למדוד את ההבדלים הוא לפרוש את התמונה
כאילו היא ווקטור, ולהשתמש במכפלה פנימית של הווקטורים(המנורמלים) כאל מידת מרחק. מסתבר שבאפליקציות מסוימות
זה נותן תוצאות סבירות.
אנו יכולים להשתמש במגוון Kernel functions בשביל לחשב מרחקים
אחרת. kernel function מקבל שני דוגמאות ומחזיר את המרחק
ביניהם באיזו שהוא מרחב דמיוני.
למעשה אני כותב מרחק כי זה המשמעות שאנו נותנים לזה, לרוב
מדובר במכפלה פנימית. Kernel Function במקור נבנה כך:
K(x,y)=<H(x),H(y)>
כאשר H מעתיק את הנקודות x,y לאיזה שהוא מרחב אחרF, לרוב במימד
גבוהה יותר, אולי אינסופי.
בפועל המרחב F לא מעניין אותנו ואנו משתמשים בפונקציות גרעין
גם מבלי לדעת מה המרחב הזה, ולפעמים אפילו כאשר לא קיים
מרחב כזה.
כמו כן, לפני שנותנים את התמונה לאלגוריתם למידה, לרוב רוצים
להעביר אותה בכל מיני טרנספורמציות בשביל לסלק מידע לא מעניין,
כמו למשל סיבוב וגודל, אפשר להסתכל על אות בתור עקום במרחב,
ולהעביר אותו לarc length parametrization ואז למצוא מהעקום
נקודת התחלה מוסכמת שתלויה בעקום ולא בסיבוב בשביל להפתר מסיבוב
אפשרי. ואת זה להביא לאלגוריתם למידה. בעזרת טכניקה כזאת,
בנה לאחרונה חבר שלי מסווג דגים, אני מאמין שזה יעבוד גם
עבור טקסט.
בקיצור תלמד משהוא לגבי למידה ממוחשבת, ואני ממליץ על רשתות
עצביות וSVM.
