Achieving correlated differential privacy of big data publication

کلان داده‌ها به عنوان یکی از موضوعات قابل توجه در فناوری اطلاعات همواره مطرح بوده‌اند. موضوع حفظ حریم خصوصی داده در عین حفظ سودمندی تحلیل‌های انجام شده روی کلان داده و به اشتراک گذاری آن به عنوانی مورد توجه نزد پژوهشگران تبدیل شده است. از منظر ابزارهای فنی، فناوری‌های حفظ حریم خصوصی برای کلان داده به سه دسته تقسیم می‌شوند: فناوری رمزنگاری داده، فناوری محاسبات چند وجهی امن و فناوری ایجاد نویز و آشفتگی. از میان روش‌های مذکور، روش رمزنگاری به دلیل هزینه بالای رمزگذاری و رمزگشایی مقرون به صرفه نخواهد بود. از سویی دیگر، روش محاسبات چندوجهی امن غالبا به جمع‌آوری کلان داده قابل پیاده‌سازی است که محدودیت‌هایی را برای پیاده‌سازی‌های کاربردی ایجاد می‌کند. اما روش‌های ایجاد آشفتگی در داده به دلیل امکان پیاده‌سازی بالا و هزینه پایین، مورد توجه بسیاری قرار گرفته‌اند که از جمله مهمترین روش‌های این حوزه می‌توان به حریم خصوصی تفاضلی اشاره کرد

هرچند Kifer و همکارانش در سال ۲۰۱۱ نشان دادند که استفاده از روش حریم خصوصی معمول در داده‌های هم‌بسته، می‌تواند ریسک نشت حریم خصوصی و دادن اطلاعات به مهاجم را افزایش دهد.

مقاله حاضر به صورت مشخص نقش حریم خصوصی تفاضلی در داده‌های هم‌بسته کلان داده‌ها را تحلیل کرده و با تمرکز بر روش‌های پیاده‌سازی حریم خصوصی تفاضلی روی داده‌های هم‌بسته، مدل‌ها و الگوریتم‌های جدیدی را پیشنهاد می‌دهد.

این مقاله برای اندازه‌گیری میزان هم‌یستگی از روش Maximal Information Coefficient(MIC)(ضریب اطلاعات بیشینه) که از جمله روش‌های هم‌بستگی اطلاعات متقابل است استفاده می‌کند. در مجموعه داده هم‌بسته، تغییر در یک رکورد داده منجر به تغییراتی در رکوردهای دیگر خواهد شد،‌ در نتیجه میزان انحراف نتیجه پرس و جو،‌ پیش و پس از حذف رکورد افزایش می‌یابد. چنانچه در این شرایط همچنان از global sensitivity استفاده شود، محافظت از حریم خصوصی به میزان قابل توجهی کاهش یافته و در مواقعی ممکن است هدف از حفظ حریم خصوصی به طور کلی نادیده گرفته شود. از این رو پیدا کردن مدل وابستگی بین داده‌های هم‌بسته و محاسبه دقیق میزان حساسیت، کلید یافتن روشی برای حل این مشکل است. ضریب اطلاعات بیشینه می‌تواند وابستگی بین متغیرها را اندازه‌گیری نماید. با استفاده از تحلیل رگرسیون یادگیری ماشین این ضریب می‌تواند به دقیق‌ترین میزان ممکن برای یافتن این وابستگی محاسبه شده و میزان حساسیت دقیق‌تری به دست آید. بر این اساس،‌ دو مدل محافظت از حریم خصوصی تفاضلی برای کلان داده‌ها در این مقاله معرفی می‌شوند: حریم خصوصی تفاضلی داده k-هم‌بسته و حریم خصوصی تفاضلی بلوک r-هم‌بسته. پس از ارائه تعریف هریک از این دو مدل، روش پیاده‌سازی مدل حریم خصوصی تفاضلی بلوک r-هم‌بسته در پنج مرحله معرفی شده است. مرحله اول: محاسبه میزان هم‌بستگی؛ که در این مرحله ابتدا با کمک روش MIC هم‌بستگی مجموعه داده‌ها مشخص و سپس با کمک یادگیری ماشین محاسبه شده است. مرحله دوم:‌با کمک نتایج به دست آمده از مرحله اول،‌ الگوریتم متناسبی برای خوشه‌بندی انتخاب و کلان‌داده به r زیر داده‌ مستقل از هم تقسیم خواهند شد. هریک از این بلوک‌ها مستقل از یکدیگر بوده و تجمیع آن‌ها با یکدیگر مجموعه داده اصلی را حاصل خواهد کرد. مرحله سوم: براساسی مدل تعیین هم‌بستگی که با روش یادگیری ماشین در مرحله اول به دست آمد، میزان حساسیت محاسبه می‌شود؛ به طوری که به ازای هر بلوک مقدار رکورد j و رکوردهای هم‌بسته با آن محاسبه شده، مجموعه داده مجاور به دست آمده و میزان حساسیت تابع f روی آن بلاک محاسبه خواهد شد. در این مرحله از حساسیت هم‌بسته استفاده می‌شود. مرحله چهارم: پس از محاسبه حساسیت هم‌بسته، فرآیند لاپلاس برای حریم خصوصی تفاضلی بلوک r-هم‌بسته براساس تعریف بیان شده در مقاله،‌پیاده خواهد شد. مرحله پنجم: مراحل سوم و چهارم تا زمانی که تمام بلوک‌های داده در مجموعه کلان داده به حریم خصوصی تفاضلی داده k-هم‌بسته دست پیدا کنند،‌ تکرار خواهد شد.

Denglong Lv, Shibing Zhu, “Achieving correlated differential privacy of big data publication”, ScienceDirect, computer and security journal, Volume: 82, May 2019

Achieving correlated differential privacy of big data publication

دیدگاهتان را بنویسید لغو پاسخ