Quantifying Differential Privacy in Continuous Data Release Under Temporal Correlations

بسیاری از مقاله‌ها و پژوهش‌های انجام شده در زمینه حریم خصوصی تفاضلی بر این فرض استوار بوده که داده‌های تولید شده در بازه‌های زمانی مختلف از یکدیگر مستقل بوده و یا مهاجم دانشی نسبت به هم‌بستگی داده‌ها ندارد. هرچند برخی تلاش‌ها در زمینه حفظ حریم خصوصی تفاضلی برای داده‌های که احتمال هم‌بستگی دارند انجام شده است، اما هیچ‌یک از منظر این مقاله، مناسب داده‌هایی که به صورت متناوب و در طی زمان استخراج می‌شوند نمی‌باشد. به این دلیل که بسیاری از تحقیقات انجام شده بر روی هم‌بستگی میان کاربران و نه هم‌بستگی میان داده‌ها در بازه‌های زمانی مختلف تمرکز داشته‌اند. همچنین فرض کرده‌اند که داده‌ها فقط یکبار و نه به مرور و در بازه‌های زمانی مختلف به صورت ‌هم‌بسته منتشر می‌شوند. از این رو هدف مقاله حاضر حل سه مشکل زیر است:

چگونه می‌توان میزان از دست رفتن حریم خصوصی تفاضلی را در مقابل مهاجمی که از هم‌بستگی زمانی داده‌ها اطلاع دارد، محاسبه کرد.
چگونه از دست رفتن حریم خصوصی به صورت بهینه قابل اندازه‌گیری است.
چگونه حد بالای این میزان حریم خصوصی از دست داده شده را می‌توان تعیین کرد.

در این مقاله برای پاسخ به سوالات فوق،‌ در ابتدا نشت حریم خصوصی برای داده‌هایی که در بازه‌های زمانی مختلف منتشر می‌شوند، بر اساس زنجیره مارکوف تعریف شده است. این تعریف مبتنی بر دو بخش نشت حریم خصوصی بر اساس داده‌های پیش از زمان T و نیز برای داده‌های نشر داده شده پس از زمان مذکور است. همچنین تعریفی از حریم خصوصی تفاضلی برای داده‌های هم‌بسته زمانی و نشت حریم خصوصی مبتنی بر آن ارائه شده است.

در مرحله بعد الگوریتمی برای محاسبه تعاریف ارائه شده در مرحله قبل پیشنهاد شده است. این الگوریتم‌ها امکان محاسبه میزان نشت حریم خصوصی تفاضلی برای داده‌های هم‌بسته زمانی نسبت به داده‌های پیش و پس از زمان T را فراهم می‌کند.

در بخشی دیگر از این مقاله، دو استراتژی اختصاص بودجه حریم خصوصی تفاضلی طراحی شده است که می‌توان حریم خصوصی تفاضلی سنتی و پایه را به نحوی تغییر دهد که بتواند در مقابل نشت حریم خصوصی برای داده‌های هم‌بسته زمانی مقاومت کند. بدین منظور ابتدا حد بالای نشت حریم خصوصی برای داده‌های پیشین و پسین مورد بررسی قرار گرفت. سپس دو الگوریتم برای رسیدن به حریم خصوصی با بودجه تعریف شده و مبتنی بر حدبالای نشت حریم خصوصی ارائه شده است.

در نهایت برای نشان دادن زمان اجرا و صحت الگوریتم پیشنهادی محاسبه مقدار نشت حریم خصوصی از نرم افزار IBM ILOG CPLEX استفاده و نتایج نمایش داده شده‌اند. همچنین تاثیر هم‌بستگی زمانی داده‌ها روی نشت حریم خصوصی و نیز ارزیابی انتشار داده توسط الگوریتم‌های پیشنهادی مورد بررسی و با کمک مکانیزم لاپلاس سودمندی آن‌ها نمایش داده شده است.

Y. Cao, M. Yoshikawa, Y. Xiao and L. Xiong, “Quantifying Differential Privacy in Continuous Data Release Under Temporal Correlations,” in IEEE Transactions on Knowledge and Data Engineering, vol. 31, no. 7, pp. 1281-1295, 1 July 2019, doi: 10.1109/TKDE.2018.2824328.

Quantifying Differential Privacy in Continuous Data Release Under Temporal Correlations

دیدگاهتان را بنویسید لغو پاسخ