در تعریف حریم خصوصی تفاضلی سراسری و حریم خصوصی تفاضلی محلی از سازوکارها استفاده شده است. سازوکارهای متفاوتی برای استفاده در حریم خصوصی تفاضلی ارائه شدهاند که هرکدام ویژگیهای خاص و منحصر بفرد دارند. قبل از اینکه به معرفی سازوکارها بپردازیم، ابتدا با مفهوم حساسیت سراسری آشنا خواهیم شد.
حساسیت سراسری
حساسیت (Sensitivity) [1] یک مقدار است که تعیین میکند برای یک پرسوجوی خاص در یک سازوکار چه میزان آشفتگی (Perturbation) نیاز است. حساسیت به صورت زیر تعریف میشود.
برای تابع \(f: D \rightarrow R\)، و مجموعهدادههای همسایه D و ’D، حساسیت f به صورت زیر تعریف میشود:
مقدار حساسیت برابر با حداکثر اختلاف بین پاسخ پرسوجوها در دو مجموعهداده همسایه میباشد که بیان میکند با حضور یا عدم حضور یک عضو از داده، در خروجی پرسوجو چه میزان تغییرات خواهیم داشت. به عنوان مثال، حساسیت تابع شمارش سطر همیشه برابر با یک میباشد. تلاش بر این است که این مقدار کمینه شود.
سازوکارها
همانطور که اشاره شد، برای حریم خصوصی تفاضلی سازوکارهای متفاوتی ارائه شده است. این سازوکارها قابلیت ترکیب شدن و شخصیسازی را نیز دارند. در این بخش به معرفی چند سازوکار خواهیم پرداخت.
سازوکار لاپلاس
سازوکار لاپلاس (Laplace) [1] به پاسخ خام دریافت شده از سرپرست داده، مقداری نوفه مستقل از اندازه مجموعهداده اضافه میکند. \(Lap(\frac{\Delta f}{\epsilon})\) برای نمایش نوفه نمونه برداری شده از توزیع لاپلاس استفاده میشود. این سازوکار قادر به ارائه پاسخ برای پرسوجوهای غیر عددی نیست و برای پرسوجوهای دارای حساسیت کم عملکرد خوبی دارد. همچنین مقدار 𝛿 همیشه برابر با صفر است.
برای تابع \(f: D \rightarrow R\) بر روی مجموعه داده D، سازوکار M که به صورت زیر تعریف میشود، حافظ حریم خصوصی تفاضلی با عامل ε است.
\(M(D) = f(D) + Lap(\frac{\Delta f}{\epsilon})\)این تعریف بیان میکند که هر چقدر مقدار ε کمتر باشد، مقدار نوفه اضافه شده به پاسخ درست بیشتر خواهد بود و در نتیجه بودجه و سطح حریم خصوصی تفاضلی بیشتر خواهد شد. همچنین وجود حساسیت تابع f در صورت کسر بیان کننده این است که هر چه حساسیت تابع کمتر باشد، نوفه کمتری نیز برای حفاظت از حریم خصوصی دادهها مورد نیاز است.
سازوکار نمایی
سازوکار نمایی (Exponential) [2] معمولا برای هر دو نوع داده عددی و غیرعددی استفاده میشود. از این سازکار زمانی استفاده میشود که نیاز است به پرسشگر، پاسخ بدون نوفه داده شود. به عبارت دیگر پاسخ پرسوجو عضو مجموعه R میباشد و نوفه حریم خصوصی تفاضلی، در انتخاب آن اثر دارد و به صورت مستقیم به پاسخ اضافه نمیشود. به عنوان مثال افزودن نوفه به پاسخ سوال «کدام دانشگاه تعداد دانشجویان ورودی کارشناسی ارشد آن بیشتر است؟» بیمعنا است.
فرض کنید \(q(D, \phi)\) تابع سود مجموعهداده D باشد که کیفیت خروجی \(\phi\) را اندازهگیری میکند و \(\Delta q\) حساسیت را نمایش میدهد. سازوکار نمایی M حافظ حریم خصوصی تفاضلی با عامل ε است اگر:
\(M(D) = return \phi \propto exp(\frac{\epsilon q(D, \phi)}{2 \Delta q})\)هزینه حریم خصوصی این سازوکار مستقل از اندازه مجموعه R است. از آن میتوان برای مجموعههای متناهی و نامتناهی استفاده نمود. البته در مرحله پیادهسازی چالشهایی برای مجموعههای نامتناهی وجود دارد. معمولا میتوان با تعریف یک تابع سود مناسب، بقیه سازوکارها را بر اساس سازوکار نمایی تعریف نمود.
سازوکار پاسخ تصادفی
سازوکار پاسخ تصادفی (Randomized response) [3] از مفهوم انکارپذیری استفاده میکند. فرض کنید قصد دارید پاسخ سوال «آیا شما در ترم گذشته مشروط شدهاید؟» را بدهید. ابتدا یک سکه را پرتاب میکنید، اگر روی سکه آمد جواب شما «بله» و اگر پشت سکه آمد جواب شما حقیقت است. با استفاده از این فرآیند به انکارپذیری قوی برای پاسخ «بله» دست مییابیم، به صورتی که پاسخدهنده میتواند ادعا کند پاسخ «بله» حاصل از روی سکه آمدن است، نه بیان حقیقت. این سازوکار را میتوان با پرتاب یک سکه دیگر توسعه داد تا انکارپذیری برای پاسخ «خیر» نیز ایجاد شود. سازوکار پاسخ تصادفی با ایجاد انکارپذیری با استفاده از پرتاب دو سکه، نشان میدهد که حدود ۷۵ درصد پاسخها «بله» هستند. بنابراین حافظ حریم خصوصی تفاضلی با عامل ε و با مقدار ε = ln(3) میباشد. [4]
سازوکار گاوسی
سازوکار گاوسی (Gaussian) [5] شبیه سازوکار لاپلاس است که بجای افزودن نوفه توزیع لاپلاس، نوفه توزیع گاوسی را به دادهها اضافه میکند. بنابراین میتوان از آنها در روشهای یکسانی استفاده و برای εهای مختلف عملکرد و خروجی آنها را مقایسه نمود.
برای تابع \(f: D \rightarrow R\) بر روی مجموعه داده D، سازوکار M که به صورت زیر تعریف میشود، حافظ حریم خصوصی تفاضلی با عامل (ε, 𝛿) است.
\(M(D) = f(D) + N(\frac{2 \Delta f^2 log(1.25 / \delta)}{\epsilon^2})\)در تعریف بالا از تابع N برای نمایش نوفه نمونه برداری شده از توزیع گاوسی استفاده شده است. در تعریف بالا مشاهده میشود که از 𝛿 در مخرج کسر استفاده شده است، بنابراین مقدار 𝛿 نمیتواند صفر باشد و در نتیجه سازوکار گاوسی از حریم خصوصی تفاضلی محض پشتیبانی نمیکند.
[1] Dwork, Cynthia. “A firm foundation for private data analysis.” Communications of the ACM 54.1 (2011): 86-95.
[2] McSherry, Frank, and Kunal Talwar. “Mechanism design via differential privacy.” 48th Annual IEEE Symposium on Foundations of Computer Science (FOCS’07). IEEE, 2007.
[3] Warner, Stanley L. “Randomized response: A survey technique for eliminating evasive answer bias.” Journal of the American Statistical Association 60.309 (1965): 63-69.
[4] Erlingsson, Úlfar, Vasyl Pihur, and Aleksandra Korolova. “Rappor: Randomized aggregatable privacy-preserving ordinal response.” Proceedings of the 2014 ACM SIGSAC conference on computer and communications security. 2014.
[5] Dwork, Cynthia, et al. “Calibrating noise to sensitivity in private data analysis.” Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006.