در سالهای اخیر، تولید دادهها و توسعه فناوری اطلاعات با سرعت زیادی افزایش یافته است، به همین دلیل صنایع مختلف حجم زیادی از دادهها را از طریق کانالهای مختلف جمع آوری کردهاند. با استفاده از داده کاوی میتوان، اطلاعات مفیدی را از دادههای جمعآوری شده بدست آورد. البته باید به حفظ حریم خصوصی دادهها نیز توجه زیادی شود چرا که در صورت عدم مدیریت مناسب ممکن است اطلاعات حساس به بیرون درز کند. به عنوان مثال، تلفنهای هوشمند مکان کاربران را از طریق سنسورهای GPS ضبط میکنند و دادهها را به سرورهای آنها منتقل میکنند. همچنین سوابق پزشکی روابط بالقوه بین بیماریها و انواع دادهها را ذخیره میکند. استخراج اطلاعات مکان کاربر یا داده های سوابق پزشکی هر دو اطلاعات ارزشمندی را ارائه می دهند. با این حال، ممکن است حریم خصوصی کاربران را نیز افشا کنند. بنابراین، استخراج دانش با حفظ حریم خصوصی آنها، کاری ضروری است. این مقاله نحوهی استخراج مجموعهاقلام پرتکرار با حفظ حریم خصوصی آنها در دادههای بزرگ را بررسی میکند.
راهکار پیشنهادی این مقاله الگوریتم DP-FIM است که از مراحل زیر تشکیل شده است:
- پیشپردازش: این مرحله خود شامل بخشهای نمونهبرداری از مجموعهداده، محاسبه مجموعه اقلام مكرر از مجموعهداده نمونهبرداری شده، حذف عناصر كمتكرار و اعمال الگوریتم تطابق رشته برای كاهش بيشتر اندازه مجموعهداده است. هدف از این مرحله این است که مجموعه داده را کوچک کرده و در عین حال مجموعه آیتمهای مکرر معنی داری را برای تجزیه و تحلیل بیشتر حفظ کنیم.
- کاوش: در این مرحله، FP-tree نوفهدار با اعمال سازوكار لاپلاس ساخته میشود.
- آشفتگی: بعد از اعمال سازوکار لاپلاس بر روی kتا از پرتکرارترین مجموعه اقلام، آنها را برای خروجی ارسال میکنیم.
الگوریتم DP-FIM سودمندی داده بالایی را فراهم میکند.
Xiong X. , Chen F. , Huang P. , Tian M. , Hu X. , Chen B. , and Qin J. , “Frequent itemsets mining with differential privacy over large-scale data,” IEEE access, vol.6, pp.28877–28889, 2018.