Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data

در سال‌های اخیر، تولید داده‌ها و توسعه فناوری اطلاعات با سرعت زیادی افزایش یافته است، به همین دلیل صنایع مختلف حجم زیادی از داده‌ها را از طریق کانال‌های مختلف جمع آوری کرده‌اند. با استفاده از داده کاوی می‌توان، اطلاعات مفیدی را از داده‌های جمع‌آوری شده بدست آورد. البته باید به حفظ حریم خصوصی داده‌ها نیز توجه زیادی شود چرا که در صورت عدم مدیریت مناسب ممکن است اطلاعات حساس به بیرون درز کند. به عنوان مثال، تلفن‌های هوشمند مکان کاربران را از طریق سنسورهای GPS ضبط می‌کنند و داده‌ها را به سرورهای آنها منتقل می‌کنند. همچنین سوابق پزشکی روابط بالقوه بین بیماری‌ها و انواع داده‌ها را ذخیره می‌کند. استخراج اطلاعات مکان کاربر یا داده های سوابق پزشکی هر دو اطلاعات ارزشمندی را ارائه می دهند. با این حال، ممکن است حریم خصوصی کاربران را نیز افشا کنند. بنابراین، استخراج دانش با حفظ حریم خصوصی آنها، کاری ضروری است. این مقاله نحوه‌ی استخراج مجموعه‌‌اقلام پرتکرار با حفظ حریم خصوصی آنها در داده‌های بزرگ را بررسی می‌کند.

راهکار پیشنهادی این مقاله الگوریتم DP-FIM است که از مراحل زیر تشکیل شده است:

پیش‌پردازش: این مرحله خود شامل بخش‌های نمونه‌برداری از مجموعه‌داده، محاسبه مجموعه اقلام مكرر از مجموعه‌داده نمونه‌برداری شده، حذف عناصر كم‌تكرار و اعمال الگوریتم تطابق رشته برای كاهش بيشتر اندازه مجموعه‌داده است. هدف از این مرحله این است که مجموعه داده را کوچک کرده و در عین حال مجموعه آیتم‌های مکرر معنی داری را برای تجزیه و تحلیل بیشتر حفظ کنیم.
کاوش: در این مرحله، FP-tree نوفه‌دار با اعمال سازوكار لاپلاس ساخته می‌شود.
آشفتگی: بعد از اعمال سازوکار لاپلاس بر روی kتا از پرتکرارترین مجموعه اقلام، آنها را برای خروجی ارسال می‌کنیم.

الگوریتم DP-FIM سودمندی داده بالایی را فراهم می‌کند.

Xiong X. , Chen F. , Huang P. , Tian M. , Hu X. , Chen B. , and Qin J. , “Frequent itemsets mining with differential privacy over large-scale data,” IEEE access, vol.6, pp.28877–28889, 2018.

Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data

دیدگاهتان را بنویسید لغو پاسخ