Soundex

מתוך ויקיגניה, המיזם הגנאלוגי העברי
קפיצה אל: ניווט, חיפוש

סאונדקס היא שיטה למפתוח מאגרי-נתונים מבוססת פונטיקה, המאגדת ערכים הדומים זה לזה בצלילם, כפי שהם נשמעים באנגלית. במחקר הגנאלוגי, ממופתחים מאגרים רבים בשיטת Soundex על פי שם משפחה, שם פרטי או שם מקום, ובאופן זה מתאפשר חיפוש גם אם לא ידוע הכתיב המדויק של המילה המבוקשת.

שינויים בכתיב של שמות אנשים ומקומות

שמותיהם של אנשים ושמותיהם של מקומות עוברים שינויים רבים במהלך השנים. נדמה ששתי הסיבות העיקריות לכך הן:

  • כתיב שונה של עיצורים זהים בשפות שונות. למשל, העיצור צ` (כמו בשם היישוב בוצ`אץ`) נכתב בפולנית כ: cz, באנגלית כ: ch ובגרמנית כ: tsch.
  • הגייה שונה של עיצורים ותנועות זהים בשפות ובתרבויות שונות. למשל, המילה שלום מבוטאת כ: Shalom בהגייה היהודית הספרדית (זו הרווחת היום), ואילו בהגייה היהודית האשכנזית מבוטאת כ: Shulem. שתי צורות הכתיבה הללו מתייחסות לאותה המילה.

מטרת המפתוח בשיטת Soundex היא לגרום לכך שכל השמות שנשמעים אותו הדבר - יקבלו את אותו קוד במפתוח. כאשר המפתח למאגר-נתונים מסוים נתון בכרטיסיות - הרי שעל המחפש לתרגם את מילת החיפוש שלו לקוד Soundex ולחפש קוד זה. תחת אותו הקוד, הוא ימצא הפניה לכל הרשומות בהן מופתחה מילה בעלת אותו קוד. כאשר המפתח ממוחשב - יכול המחפש להקיש את מילת החיפוש המקורית שלו, ואז ההמרה לקוד Soundex מתבצעת על ידי המערכת.

רקע היסטורי והנקודה היהודית

ב - 2 באפריל 1918, רשם רוברט ק. ראסל מפנסילבניה, ארה"ב, פטנט בנושא מיפתוח (indexing), ולפיו השמות יקוטלגו לפי איך שהם נשמעים ולא לפי איך שהם נכתבים. הרעיון של ראסל, היה להשתמש בחלוקה הטבעית של אותיות השפה האנגלית, אשר מבטאות הבדלים בהגייתן:

  • 0 - התנועות: a, e, i, o, u, y, w, h
  • 1 - העיצורים הנהגים באמצעות השפתיים והשיניים: b, f, p, v
  • 2 - העיצורים הגרוניים והשורקים: c, g, j, k, q, s, x, z
  • 3 - העיצורים הנהגים בעזרת השיניים: d, t
  • 4 - העיצורים הנהגים בעזרת החיך - l
  • 5 - העיצורים הנהגים באמצעות השפתיים והאף - m, n
  • 6 - העיצורים הנהגים באמצעות הלשון והאף - r

כל מילה מומרת, על פי אלגוריתם, בקוד אשר מורכב מאות אחת (האות הראשונה במילה) ומשלוש ספרות (המקודדות את העיצורים שבמילה, אך לא תמיד את כולם). זהו קוד ראסל למפתוח בשיטת Soundex.

בשנת 1985, במהלך עבודה של גארי מוקוטוף אשר כללה מפתוח של שמות משפחה יהודיים, שהיו ברובם סלבים, גרמניים ושמות ביידיש - שם לב מוקוטוף כי הקידוד לפי שיטת ראסל נכשל במקרים רבים. עיצורים אשר הופיעו רבות בשמות אלו - נכתבו באופנים שונים תוך שימוש בעיצורים שנבדלו בקבוצות השיוך המקוריות של ראסל. כך, למשל, השם הורוביץ יכול להיכתב כ: Horowitz וגם כ: Horovitz. שתי הצורות הללו נבדלות בהחלפה בין v לבין w, אשר על פי ראסל נבדלים במספריהם, ולכן קיבלו קודים שונים על פי השיטה המקובלת.

מוקוטוף פיתח שיטה שונה לקידוד, ולאחר פרסומה בכתב העת אבותינו, קיבל הצעה לשיפורים מפי רנדי דייטש. השיטה המשופרת נקראת Daitch Mokotoff Soundex (בקיצור: D-M Soundex, ומכונה, לעתים, Jewish Soundex, או Eastern Europe Soundex.

שיטת D-M Soundex מקודדת רצפים של אותיות ומבדילה במיקום הופעתם - בתחילת מילה או לפני תנועה - ובכך מעדנת את שיטת ראסל ומתאימה אותה לשמות היהודיים. שמות מקודדים, על פי שיטה זו, לערך בן 6 ספרות, המייצגות עיצורים ותנועות.


ראו גם

קישורים חיצוניים