|
|
تطبيق الطرق الإحصائية
في تحليل محتوى النصوص بلغتها العربية آلياً
د• عامرة حقي الفرغولي
تتضمن الدراسة التجريبية هذه عرضاً لتجربة اعتمدت تطبيق ثلاث طرق
إحصائية لتحليل محتوى نصوص باللغة العربية، إضافة إلى المعالجة الحرفية•
بهدف البرهنة على أن المعادلات الرياضية التي استخدمت على نصوص باللغة
الإنكليزية يمكن استخدامها على نصوص باللغة العربية• أظهرت الدراسة أن
الطريقة الإحصائية إضافة إلى الطريقة اللغوية في تحليل المحتوى(التكشيف)
الآلي تفرز واصفات دالة على الموضوع الذي تمثله•
مقدمة
تحليل المحتوى: مصطلحٌ ينضوي تحت مصطلح التكشيف، وما الخزن والاسترجاع
إلا عمليتا التكشيف والبحث، ترتبط بتحليل المحتوى طريقتان:
(1) الطريقة الإحصائية
(2) الطريقة اللغوية(تحليل إعرابي syntactical وتحليل دلالي Symantical
)• والتعامل مع اللغة العربية الطبيعية آلياً فيه إشكالات وصعوبات،
منها عامة مثل المرونة وتعدد وتفاوت المفردات وأخرى تتعلق بإشكالات
صرفية أو نحوية وأهمية التقيد بالشفرة العربية الموحدة في تمييز أشكال
الألف ومواضع الهمزة•• إلخ، فقد تم تطوير برامج تشكيل الكلمات العربية
تلقائياً في سياقاتها وفق دلالتها وتركيبها اللغوي، حيث اعتمد برنامج
المحلل الصرفي في برنامج القرآن الكريم على المبدأ اللغوي وهو أساس
بنية الكلمة العربية (فعل) لكونها الجذر، والاسترجاع يعتمد على المحلل
الصرفي في ربط الكلمات المختلفة الصيغ بجذورها• وفي هذه الدراسة تم
استخدام الأساليب الإحصائية إضافة إلى الأسلوب اللغوي في تحليل ومعالجة
عناوين ومستخلصات (آلياً) لغرض الاسترجاع وتحديد واصفات تمثل محتواها،
فقد تم إعداد البرامج اللازمة وعددها(15) برنامجاً، وجاءت النتائج
مرضية لتثبت إمكانية تطبيق الأساليب الإحصائية التي طبَّقها/لون
وارتاندي وسالتون/ في مجالات التكشيف والخزن والاسترجاع على نصوص
باللغة الإنكليزية•
المشكلة
يحتاج الباحثون على اختلاف مستوياتهم إلى المعلومات ذات الصلة بموضوعات
أبحاثهم باللغة العربية، وإحدى نقاط الوصول إلى تلك المعلومات هو
الموضوع، حيث تتبع في مكتباتنا ومراكز المعلومات طرق تقليدية للوصول
إلى المعلومات، أو طرق آلية يتم تحليل المحتوى فيها باللغة المقيدة،
دون محاولة تطبيق الأساليب الإحصائية المطبقة من قبل متخصصي المعلومات
منذ زمن بعيد في تحليل محتوى واسترجاع النصوص باللغة الإنكليزية•
الهدف
1ـ تجربة تحليل المحتوى والاسترجاع آلياً لنصوص علمية باللغة العربية•
2ـ الوصول إلى الطريقة الأفضل: التحليل اليدوي باللغة المقيدة أم الآلي
باللغة الطبيعية•
الأهمية
تقديم نماذج جديدة في تحليل المحتوى باللغة العربية•
متخصص المعلومات هو من يؤدي هذا العمل لارتباطه التام باختصاصه•
الفرضيات
1ـ توليد واصفات مزدوجة آلياً يؤكد أهميتها•
2 ـ استخدام اللغة الطبيعية آلياً يحسن الاسترجاع•
التجربة
أجريت التجربة آلياً على 253 مستخلصاً مع عناوينها لتشكل نظاماً
متكاملاً بعد تطبيق برامج القراءة وبرامج المعالجة(انظر الشكل 1) وفيها
تم معالجة النصوص لغوياً وإحصائياً بتطبيق المعادلات الثلاث وتوليد ملف
المعلومات الببليوغرافية لكل وثيقة، وملف بالواصفات مرتبة هجائياً مع
أرقام الوثائق التي تشتمل عليها برامج تخص الاسترجاع•
البرامج
يتألف النظام من برامج فرعية بحدود 15 برنامجاً انطوت تحت برنامج رئيس
واحد كوحدات (Units) وقد تم خزنها على قرص مرن حجم 5.25 مرفق مع
الرسالة وهي:
1ـ برامج الإدخال (قراءة) وهي
أ ـ قراءة المستخلصات مع عناوينها•
ب ـ قراءة الكلمات المبعدة وشبه المبعدة في ملف•
ج ـ قراءة الأفعال في ملف•
د ـ قراءة الأسماء الهامة في ملف ضم صيغة الجمع والمفرد لكل اسم•
2ـ برامج خاصة بالمعالجة وهي
أ ـ برنامج مضاهاة المستخلصات مع ملف الكلمات المبعدة يهدف إلى إبعاد
الأخيرة•
ب ـ برنامج مضاهاة المستخلصات مع ملف الأفعال وإزالة السوابق واللواحق
باستثناء [الـ ، وبـ ، ولـ ، كـ ، فـ ] من بداياتها•
ج ـ برنامج ترتيب الكلمات والعبارات وحساب تكراراتها (المعالجات أعلاه
على المستخلص واحد)•
د ـ برنامج جمع وترتيب كلمات وعبارات المستخلصات جميعها في ملف مع
تكراراتها هجائياً•
هـ ـ برنامج إيجاد الكلمات المهمة في عنوان الرسالة وترتيبها هجائياً
مع الكلمات المهمة لعناوين بقية الرسائل•
و ـ برنامج مضاهاة لتحويل الأسماء المذكورة بصيغة الجمع المفرد•
ز ـ برنامج تطبيق الأساليب الإحصائية لتحديد أوزان لكل كلمة وعبارة (تحديد
واصفات) ضمن حد فاصل Threshold •
ح ـ برنامج تأشير الواصفات بصح (True) وخطأ (False) غرضه تحديد الرسالة
التي تشمل هذه الواصفات•
ط ـ برنامج واصفات المستخلصات وواصفات العناوين في ملف واحد•
ي ـ برنامج الإخراج (ويشمل أكثر من صيغة لما يستخرج أو يسترجع)•
3ـ برنامج ربط وتشغيل البرامج أعلاه
المعادلات:
(1) التكرار النسبي Relative Frequency
FKi / TOTFREQK* 100% = Relative Frequency
حيث: F يمثل التكرار
I يمثل الوثيقة
K يمثل المصطلح
TOTFREQ يمثل عدد المصطلحات في الوثيقة
(2) وزن تكرار الوثيقة المعكوس Inverse Doc Frequenc Weight
طريقة اعتمدتها وطبقتها Spark Jones وبينت:
أ ـ أن تكرار المعياري للمصطلح يتناسب عكسياً مع العدد الكلي للوثائق
ب ـ المصطلحات التي تحمل تكراراً في عدد الوثائق التي تتضمنها هي
المهمة•
1+ log2 (n)/(docfreqk) Weight = Freqik*
حيث: n تمثل عدد الوثائق
Iتمثل وثيقة واحدة
K تمثل المصطلح
DocFreqK عدد الوثائق التي يظهر فيها المصطلح K Log2 اللوغاريتم
الطبيعي
(3) نسبة الضوضاء/الإشارة The Signal Noise Ratio
طريقة مناظرة لنظرية شانون للمعلومات، تعتمد على احتمالية ورود
المصطلحات في النص، وتحدد الضوضاء لكل مصطلح وارد في النص، والعلاقة
بين الضوضاء والتخصيص (المصطلحات الواسعة تميل إلى أن تتوزع بصورة
متساوية في المستخلصات جميعها وتؤدي إلى ضوضاء عال)
Noisek = 7Freqik/ TOTfreqk*log2
TOTFreqk/ Freqik
إشارة المصطلح: تسمح بإدراج مصطلحات التكشيف المستخلصة بترتيب تنازلي
اعتماداً على وزن الإشارة يميز بحوثاً قليلة من بين المجموعة
Signalk = log2 (TOTFreqk) - noisek
Weightk = Freqik* Signalk
حيث تم التوصل إلى:
1 ـ بناء قوائم بواصفات تعد دالة على الموضوع، ويمكن الاستعانة بها في
عمليات البحث وصياغة الاستفسار من قبل المستفيدين لاسترجاع ما يهمهم من
مصادر تتعلق بالموضوع•
2 ـ أعدت قائمة بالكلمات المبعدة وشبه المبعدة لتكون مرجعاً للرجوع
إليها، تحدث عند الحاجة
3 ـ بناء قاعدة بيانات تتألف من قيود تضم المعلومات الببليوغرافية
الكاملة عن كل مستخلص مع الواصفات المتولدة آلياً•
4 ـ بناء قائمة بالواصفات ومعها تكراراتها في كل وثيقة ومجموع
التكرارات وأوزانها (المعادلات ينتج منها وزن غير الرقم الذي يمثل
التكرار، فالوزن بالنسبة للمعادلة الأولى كلما ازداد أصبحت الواصفة
أكثر أهمية، أما في المعادلتين الثانية والثالثة فأهمية الواصفة حددت
اعتماداً على ورودها في وثائق قليلة ضمن المجموعة)•
5 ـ بناء قائمة بالواصفات ومعها أرقام الوثائق التي ظهرت فيها (انظر
ملحق 1)•
6 ـ إن متوسط الواصفات التي تم توليدها هو 7 ـ 8 واصفات لكل وثيقة وهو
أعلى من رؤوس الموضوعات التي يتم تحديدها يدوياً، وهذا يؤيد الفرضية
القائلة >إن استخدام اللغة الطبيعية يؤدي إلى تحسين الاسترجاع<•
ملحق رقم (1)
نموذج بالواصفات الناتجة من تطبيق المعادلة الأولى على 352 وثيقة
بعناوينها
سليمة 2 82
سمكة 41
سموم 21
سموم فطرية 21
سمية 17 38
سندي 9 62
سوس 52 43
سوس البقول 52 43
سوميثيوم 83
شجرة 72 30
شجرة التين 03
شد 2
شد رطوبي 2
شكري 72
صدأ 24
ضرب التفاح 73
طحين 24
طحين محيرة 24
طور1 5 6 10 11 15 18 21 22 24 27 31 36 38 39 40 41 43 44
طور يرقي 15 22 24 31 36 41
عائلة 4 25 32 34 45
عائلة الحفارة 32
عائلة خنافس البقول 4
عائلة خنافس ورق النبات 45
عائلة سوس البقول 25 34
عث التين 31
المصادر
1 - Artand, Susan. An introduction to Computers in Information
Science. 2nd ed.-New York: Scarecrow Press inc., 1972.
2 - Borko,Harold and Charles L. Bernier. Indexing Conceps and
Methods.-New York: Academic press, 1978.
3 - Hassan, A. M. H. Design and Implementation of a Hypertext
Documents Structuring System. - (Master Thesis), University of
Techonogy, 1994. 97p.
4 - Keen, E. M. and Hartly R.J. زPhrase Processing in Text
Retrievalس.-J of Documents and Managementس 2(1), 1994. p.23.
5 - Salton, G. etal. زthe Theory of Term Importance in Automatic
Text Analysisس. -JASIS: 26 (1). Jan. Feb. 1975. pp. 33-44.
6 ـ القواسمة، عبد الله• استخدام اللغة الطبيعية في استرجاع المعلومات
ومشكلات ذلك في اللغة العربية• رسالة المكتبة• مج 37، ع3، 2991• ص 53 ـ
93•
7 ـ نزار محمد علي قاسم• الاشتقاق والمشتقات العربية وأثرها في خزن
المعلومات واسترجاعها رسالة المكتبة• مج 92، ع1، 4991 • ص 4 ـ 61•
|
|
 |