دادههای حساس معمولا از مجموعهای از کاربران با گزارشهای تکراری در طول زمان جمعآوری میشود. برای مثال، ممکن است تنظیمات شخصی کاربران یا نحوه استفاده از نرمافزار با استفاده از این گزارشات مانیتور شوند. این گزارشات در مدل حریم خصوصی تفاضلی محلی بررسی شدند و یک الگوریتم معرفی شد که هزینه حریم خصوصی آن براساس تغییرات داده کاربر لگاریتمی هست.
با استفاده از گمنامسازی گزارشهای کاربران، میتوان هزینه حریم خصوصی تفاضلی محلی را به طور قابل توجه در حریم خصوصی تفاضلی سراسری کاهش داد. نشان داده میشود که با یک تکنیک جدید و جامع، میتوان حریم خصوصی تفاضلی محلی با عامل اپسیلون را به حریم خصوصی تفاضلی سراسری با عامل زیر تبدیل کرد.
\(O( \epsilon \sqrt{log(1/\delta)/n} )\)در این مقاله به بررسی هزینه حریم خصوصی تفاضلی محلی میپردازد و بیان میکند با اعمال یک گمنامسازی میتوان با هزینه بسیار کمتر به حریم خصوصی تفاضلی سراسری با حریم خصوصی یکسان دست پیدا کنیم. راهکار این مقاله به طور خلاصه در سه کلمه ESA (Encode Shuffle Analyze) خلاصه میشود. برای گمنامسازی گزارشها از تکنیکها و ابزارهای گمنامسازی مختلفی همچون شبکه Tor استفاده میشود. همچنین در این راهکار تعداد تغییرات داده هر کاربر (k) دارای اهمیت میباشد و برای آن محدودیتهایی تعیین شده است.
نکات زیر درباره این مقاله قابل توجه هستند:
۱. تعداد قابل توجهی داده در یک زمان جمعآوری میشوند و اطلاعات خصوصی کاربران اصطلاحا در بین جمعیت دادهها مخفی میماند.
۲. در مرحله دوم از این راهکار، به صورت تصادفی درهم سازی انجام میشود و عامل ثابتی برای این کار وجود ندارد.
۳. اطلاعات آی.پی و شناسهها حذف میشوند. در این بخش از شبکه تور بهره برده میشود.
۴. گزارشها نباید ویژگی خاص و تبعیض آمیزی داشته باشند و همه ز یک تصادفی ساز یکسان استفاده کنند.
۵. تعداد دفعات جمعآوری d بار (به عنوان مثال d روز) و تعداد تغییرات داده k بار که باید مقدار k کوچکتر یا مساوی d باشد.
Erlingsson, Úlfar, et al. “Amplification by shuffling: From local to central differential privacy via anonymity.” Proceedings of the Thirtieth Annual ACM-SIAM Symposium on Discrete Algorithms. Society for Industrial and Applied Mathematics, 2019.