در مقالههای قبلی به معرفی حریم خصوصی و ضرورت حفظ آن پرداختیم. تمرکز ما در SDPT بر روی حفظ حریم خصوصی دادهها است. یکی از معروفترین مدلهای حریم خصوصی که در سالهای گذشته مورد توجه قرار گرفته، حریم خصوصی تفاضلی است. حریم خصوصی تفاضلی با افزودن مقداری نوفه (Noise) به دادهها از افشای اطلاعات حساس و خصوصی جلوگیری میکند.
دو رویکرد کلان در استفاده از حریم خصوصی تفاضلی وجود دارد. رویکرد اول استفاده از آن در تحلیل دادهها است. در این رویکرد، الگوریتمها و روشهای تحلیل و یادگیری قدیمی توسعه داده میشوند تا خروجی آنها حافظ حریم خصوصی تفاضلی شوند. به عبارت دیگر در این روش باید هر الگوریتم یا مدل به صورت جداگانه حافظ حریم خصوصی تفاضلی شود و نوع داده ورودی اهمیت ندارد. رویکرد دوم استفاده از آن در انتشار دادهها است. در این رویکرد، دادهها به صورتی که حریم خصوصی آنها حفظ شود، منتشر میشوند. اعمال حریم خصوصی تفاضلی در این رویکرد صرف نظر از اینکه چه تجزیه و تحلیلهایی روی دادهها انجام خواهد شد، صورت میگیرد. همچنین وجود مجموعهدادههای عمومی یا خصوصی خارجی نیز در این فرآیند تاثیری ندارد و منجر به استنتاج اطلاعات خصوصی از دادههای حافظ حریم خصوصی نمیشود.
تعریف حریم خصوصی تفاضلی (ح.خ.ت)
حریم خصوصی تفاضلی (Differential Privacy) [1] یک سیستم برای حفظ حریمخصوصی مجموعهدادهها میباشد به طوری که بتوان اطلاعات مورد نیاز را به صورت انتراعی از بین مجموعهداده برداشت نمود در حالی که اطلاعات شخصی قابل استنتاج نباشند. سازوکار (Mechanism) تصادفی M، حافظ حریم خصوصی تفاضلی با عامل (ε, 𝛿) برای هر مجموعه عضو S و دو مجموعهداده همسایه D و ’D است اگر M در رابطه زیر صادق باشد.
\(Pr[M(D) \in S] \leq exp(\varepsilon) . Pr[M(D’) \in S] + \delta\)این تعریف بیان میکند که در دو مجموعهداده همسایه، تاثیر حضور یا عدم حضور یک عضو بسیار ناچیز باشد و در پاسخ پسوجو، اطلاعات شخصی هیچ یک از اعضا قابل استنتاج نباشد. به دو مجموعهداده که دقیقا در یک عضو با هم متفاوت هستند، مجموعهدادههای همسایه گویند. اگر 𝛿 = 0 آنگاه تعریف سختگیرانه میشود و آن را ح.خ.ت محض مینامند.
در شکل بالا مشاهده میکنید که کاربران (تولیدکنندگان داده) دادهها را تولید میکنند و سپس توسط یک سرپرست (Curator) جمع آوری میشوند. فرض بر این است که سرپرست داده، معتمد است. پرسشگر برای تحلیل روی دادهها و بدست آوردن اطلاعات کلی، پرسوجوی خود را به سرپرست داده ارسال میکند. از آن جا که پرسشگر مورد اعتماد نیست، باید دادههای حافظ حریم خصوصی ایجاد شده و به پرسشگر پاسخ داده شود. سرپرست داده پاسخ پرسوجو را آماده میکند و پس از افزودن مقداری نوفه به پاسخ، آن را برای پرسشگر ارسال مینماید.
در تعریف ح.خ.ت مقدار ε به بودجه حریم خصوصی تفاضلی اشاره میکند و سطح حریم خصوصی ایجاد شده توسط سازوکار M را تعیین و مدیریت مینماید. مقدار کمتر ε نمایانگر سطح حریم خصوصی بیشتر است.
[1] Dwork, Cynthia, et al. “Calibrating noise to sensitivity in private data analysis.” Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006.