حریم خصوصی تفاضلی چیست؟

در مقاله‌های قبلی به معرفی حریم خصوصی و ضرورت حفظ آن پرداختیم. تمرکز ما در SDPT بر روی حفظ حریم خصوصی داده‌ها است. یکی از معروف‌ترین مدل‌های حریم خصوصی که در سال‌های گذشته مورد توجه قرار گرفته‌، حریم خصوصی تفاضلی است. حریم خصوصی تفاضلی با افزودن مقداری نوفه (Noise) به داده‌ها از افشای اطلاعات حساس و خصوصی جلوگیری می‌کند.

دو رویکرد کلان در استفاده از حریم خصوصی تفاضلی وجود دارد. رویکرد اول استفاده از آن در تحلیل داده‌ها است. در این رویکرد، الگوریتم‌ها و روش‌های تحلیل و یادگیری قدیمی توسعه داده می‌شوند تا خروجی آن‌ها حافظ حریم خصوصی تفاضلی شوند. به عبارت دیگر در این روش باید هر الگوریتم یا مدل به صورت جداگانه حافظ حریم خصوصی تفاضلی شود و نوع داده ورودی اهمیت ندارد. رویکرد دوم استفاده از آن در انتشار داده‌ها است. در این رویکرد، داده‌ها به صورتی که حریم خصوصی آن‌ها حفظ شود، منتشر می‌شوند. اعمال حریم خصوصی تفاضلی در این رویکرد صرف نظر از اینکه چه تجزیه و تحلیل‌هایی روی داده‌ها انجام خواهد شد، صورت می‌گیرد. همچنین وجود مجموعه‌داده‌های عمومی یا خصوصی خارجی نیز در این فرآیند تاثیری ندارد و منجر به استنتاج اطلاعات خصوصی از داد‌ه‌های حافظ حریم خصوصی نمی‌شود.

تعریف حریم خصوصی تفاضلی (ح.خ.ت)

حریم خصوصی تفاضلی (Differential Privacy) [1] یک سیستم برای حفظ حریم‌خصوصی مجموعه‌داده‌ها می‌باشد به طوری که بتوان اطلاعات مورد نیاز را به صورت انتراعی از بین مجموعه‌داده برداشت نمود در حالی که اطلاعات شخصی قابل استنتاج نباشند. سازوکار (Mechanism) تصادفی M، حافظ حریم خصوصی تفاضلی با عامل (ε, 𝛿) برای هر مجموعه‌ عضو S و دو مجموعه‌داده همسایه D و ’D است اگر M در رابطه زیر صادق باشد.

\(Pr[M(D) \in S] \leq exp(\varepsilon) . Pr[M(D’) \in S] + \delta\)

این تعریف بیان می‌کند که در دو مجموعه‌داده همسایه، تاثیر حضور یا عدم حضور یک عضو بسیار ناچیز باشد و در پاسخ پس‌وجو، اطلاعات شخصی هیچ یک از اعضا قابل استنتاج نباشد. به دو مجموعه‌داده که دقیقا در یک عضو با هم متفاوت هستند، مجموعه‌داده‌های همسایه گویند. اگر 𝛿 = 0 آنگاه تعریف سختگیرانه می‌شود و آن را ح.خ.ت ‌محض می‌نامند.

در شکل بالا مشاهده می‌کنید که کاربران (تولیدکنندگان داده) داده‌ها را تولید می‌کنند و سپس توسط یک سرپرست (Curator) جمع آوری می‌شوند. فرض بر این است که سرپرست داده، معتمد است. پرسشگر برای تحلیل روی داده‌ها و بدست آوردن اطلاعات کلی، پرس‌وجوی خود را به سرپرست داده ارسال می‌کند. از آن جا که پرسشگر مورد اعتماد نیست، باید داده‌های حافظ حریم خصوصی ایجاد شده و به پرسشگر پاسخ داده شود. سرپرست داده پاسخ پرس‌وجو را آماده می‌کند و پس از افزودن مقداری نوفه به پاسخ، آن را برای پرسشگر ارسال می‌نماید.

در تعریف ح.خ.ت مقدار ε به بودجه حریم خصوصی تفاضلی اشاره می‌کند و سطح حریم خصوصی ایجاد شده توسط سازوکار M را تعیین و مدیریت می‌نماید. مقدار کمتر ε نمایانگر سطح حریم خصوصی بیشتر است.

[1] Dwork, Cynthia, et al. “Calibrating noise to sensitivity in private data analysis.” Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006.

دیدگاهتان را بنویسید لغو پاسخ