کلان دادهها به عنوان یکی از موضوعات قابل توجه در فناوری اطلاعات همواره مطرح بودهاند. موضوع حفظ حریم خصوصی داده در عین حفظ سودمندی تحلیلهای انجام شده روی کلان داده و به اشتراک گذاری آن به عنوانی مورد توجه نزد پژوهشگران تبدیل شده است. از منظر ابزارهای فنی، فناوریهای حفظ حریم خصوصی برای کلان داده به سه دسته تقسیم میشوند: فناوری رمزنگاری داده، فناوری محاسبات چند وجهی امن و فناوری ایجاد نویز و آشفتگی. از میان روشهای مذکور، روش رمزنگاری به دلیل هزینه بالای رمزگذاری و رمزگشایی مقرون به صرفه نخواهد بود. از سویی دیگر، روش محاسبات چندوجهی امن غالبا به جمعآوری کلان داده قابل پیادهسازی است که محدودیتهایی را برای پیادهسازیهای کاربردی ایجاد میکند. اما روشهای ایجاد آشفتگی در داده به دلیل امکان پیادهسازی بالا و هزینه پایین، مورد توجه بسیاری قرار گرفتهاند که از جمله مهمترین روشهای این حوزه میتوان به حریم خصوصی تفاضلی اشاره کرد
هرچند Kifer و همکارانش در سال ۲۰۱۱ نشان دادند که استفاده از روش حریم خصوصی معمول در دادههای همبسته، میتواند ریسک نشت حریم خصوصی و دادن اطلاعات به مهاجم را افزایش دهد.
مقاله حاضر به صورت مشخص نقش حریم خصوصی تفاضلی در دادههای همبسته کلان دادهها را تحلیل کرده و با تمرکز بر روشهای پیادهسازی حریم خصوصی تفاضلی روی دادههای همبسته، مدلها و الگوریتمهای جدیدی را پیشنهاد میدهد.
این مقاله برای اندازهگیری میزان همیستگی از روش Maximal Information Coefficient(MIC)(ضریب اطلاعات بیشینه) که از جمله روشهای همبستگی اطلاعات متقابل است استفاده میکند. در مجموعه داده همبسته، تغییر در یک رکورد داده منجر به تغییراتی در رکوردهای دیگر خواهد شد، در نتیجه میزان انحراف نتیجه پرس و جو، پیش و پس از حذف رکورد افزایش مییابد. چنانچه در این شرایط همچنان از global sensitivity استفاده شود، محافظت از حریم خصوصی به میزان قابل توجهی کاهش یافته و در مواقعی ممکن است هدف از حفظ حریم خصوصی به طور کلی نادیده گرفته شود. از این رو پیدا کردن مدل وابستگی بین دادههای همبسته و محاسبه دقیق میزان حساسیت، کلید یافتن روشی برای حل این مشکل است. ضریب اطلاعات بیشینه میتواند وابستگی بین متغیرها را اندازهگیری نماید. با استفاده از تحلیل رگرسیون یادگیری ماشین این ضریب میتواند به دقیقترین میزان ممکن برای یافتن این وابستگی محاسبه شده و میزان حساسیت دقیقتری به دست آید. بر این اساس، دو مدل محافظت از حریم خصوصی تفاضلی برای کلان دادهها در این مقاله معرفی میشوند: حریم خصوصی تفاضلی داده k-همبسته و حریم خصوصی تفاضلی بلوک r-همبسته. پس از ارائه تعریف هریک از این دو مدل، روش پیادهسازی مدل حریم خصوصی تفاضلی بلوک r-همبسته در پنج مرحله معرفی شده است. مرحله اول: محاسبه میزان همبستگی؛ که در این مرحله ابتدا با کمک روش MIC همبستگی مجموعه دادهها مشخص و سپس با کمک یادگیری ماشین محاسبه شده است. مرحله دوم:با کمک نتایج به دست آمده از مرحله اول، الگوریتم متناسبی برای خوشهبندی انتخاب و کلانداده به r زیر داده مستقل از هم تقسیم خواهند شد. هریک از این بلوکها مستقل از یکدیگر بوده و تجمیع آنها با یکدیگر مجموعه داده اصلی را حاصل خواهد کرد. مرحله سوم: براساسی مدل تعیین همبستگی که با روش یادگیری ماشین در مرحله اول به دست آمد، میزان حساسیت محاسبه میشود؛ به طوری که به ازای هر بلوک مقدار رکورد j و رکوردهای همبسته با آن محاسبه شده، مجموعه داده مجاور به دست آمده و میزان حساسیت تابع f روی آن بلاک محاسبه خواهد شد. در این مرحله از حساسیت همبسته استفاده میشود. مرحله چهارم: پس از محاسبه حساسیت همبسته، فرآیند لاپلاس برای حریم خصوصی تفاضلی بلوک r-همبسته براساس تعریف بیان شده در مقاله،پیاده خواهد شد. مرحله پنجم: مراحل سوم و چهارم تا زمانی که تمام بلوکهای داده در مجموعه کلان داده به حریم خصوصی تفاضلی داده k-همبسته دست پیدا کنند، تکرار خواهد شد.
Denglong Lv, Shibing Zhu, “Achieving correlated differential privacy of big data publication”, ScienceDirect, computer and security journal, Volume: 82, May 2019