خوارزمية متوازنة تفرعية للتنقيب عن النماذج المتكررة في تيار بيانات مستمرة

المؤلفون

  • زكريا محروسة
  • ديما مفتي الشوافعة
  • حسن قزاز

الكلمات المفتاحية:

التنقيب عن قواعد الترابط، مجموعات العناصر المتكررة ، FP-growth، تيار البيانات المستمرة، الغراف الموجه، البيانات الضخمة، MapReduce، Hadoop، تقسيم البيانات

الملخص

تلعب خوارزميات التنقيب عن العناصر المتكررة (Frequent Itemset) دوراً هاماً في إيجاد قواعد الترابط (Association Rules) من تيار بيانات مستمرة (Data Stream) مثل: البيانات الناتجة عن تتبع سلوك الزبائن، ومراقبة الشبكات، إلخ. تشكل الطبيعة المستمرة وغير المحدودة والسرعة العالية لتيار البيانات تحدياً كبيراً للعديد من الخوارزميات الحالية في مجال التنقيب عن النماذج المتكررة. بهدف تخفيض درجة تعقيد عملية إيجاد العناصر المتكررة من تيار بيانات مستمرة نقترح في هذا البحث تطوير خوارزمية FP-growth وتوزيع عملية التنقيب من خلال البنية MapReduce على أكثر من حاسب في الإطار هادوب Hadoop وباستخدام طريقة فعّالة من أجل موازنة الأحمال بين العقد الحسابية، وإيجاد الترابط بين مداولات(Transactions)  قاعدة البيانات. حيث تم اقتراح خوارزمية (Balanced Parallel Graph Frequent Pattern BPGFP-growth) وهي خوارزمية مُطورة عن FP-growth تقوم بمسح البيانات لمرة واحدة فقط، وتعتمد على الغراف الموجه (Directed Graph) والهادوب وطريقة لموازنة وتقسيم البيانات من أجل تخفيض الزمن اللازم لإيجاد العناصر المتكررة وحجم البيانات المتبادلة بين العقد الحسابية. تم اختبار الخوارزمية المقترحة على قواعد بيانات قياسية، وأثبتت النتائج قدرة الخوارزمية على القيام بعملية التنقيب في قواعد البيانات المتغيرة. وتخفيض كبير في معدل استهلاك الذاكرة، بالإضافة إلى تخفيض التعقيد بالنسبة إلى الزمن.

التنزيلات

منشور

2020-07-31

كيفية الاقتباس

1.
محروسة ز, مفتي الشوافعة د, قزاز ح. خوارزمية متوازنة تفرعية للتنقيب عن النماذج المتكررة في تيار بيانات مستمرة. Tuj-eng [انترنت]. 31 يوليو، 2020 [وثق 18 مايو، 2024];42(3). موجود في: http://www.journal.tishreen.edu.sy/index.php/engscnc/article/view/9783

الأعمال الأكثر قراءة لنفس المؤلف/المؤلفين