بسیاری از مقالهها و پژوهشهای انجام شده در زمینه حریم خصوصی تفاضلی بر این فرض استوار بوده که دادههای تولید شده در بازههای زمانی مختلف از یکدیگر مستقل بوده و یا مهاجم دانشی نسبت به همبستگی دادهها ندارد. هرچند برخی تلاشها در زمینه حفظ حریم خصوصی تفاضلی برای دادههای که احتمال همبستگی دارند انجام شده است، اما هیچیک از منظر این مقاله، مناسب دادههایی که به صورت متناوب و در طی زمان استخراج میشوند نمیباشد. به این دلیل که بسیاری از تحقیقات انجام شده بر روی همبستگی میان کاربران و نه همبستگی میان دادهها در بازههای زمانی مختلف تمرکز داشتهاند. همچنین فرض کردهاند که دادهها فقط یکبار و نه به مرور و در بازههای زمانی مختلف به صورت همبسته منتشر میشوند. از این رو هدف مقاله حاضر حل سه مشکل زیر است:
- چگونه میتوان میزان از دست رفتن حریم خصوصی تفاضلی را در مقابل مهاجمی که از همبستگی زمانی دادهها اطلاع دارد، محاسبه کرد.
- چگونه از دست رفتن حریم خصوصی به صورت بهینه قابل اندازهگیری است.
- چگونه حد بالای این میزان حریم خصوصی از دست داده شده را میتوان تعیین کرد.
در این مقاله برای پاسخ به سوالات فوق، در ابتدا نشت حریم خصوصی برای دادههایی که در بازههای زمانی مختلف منتشر میشوند، بر اساس زنجیره مارکوف تعریف شده است. این تعریف مبتنی بر دو بخش نشت حریم خصوصی بر اساس دادههای پیش از زمان T و نیز برای دادههای نشر داده شده پس از زمان مذکور است. همچنین تعریفی از حریم خصوصی تفاضلی برای دادههای همبسته زمانی و نشت حریم خصوصی مبتنی بر آن ارائه شده است.
در مرحله بعد الگوریتمی برای محاسبه تعاریف ارائه شده در مرحله قبل پیشنهاد شده است. این الگوریتمها امکان محاسبه میزان نشت حریم خصوصی تفاضلی برای دادههای همبسته زمانی نسبت به دادههای پیش و پس از زمان T را فراهم میکند.
در بخشی دیگر از این مقاله، دو استراتژی اختصاص بودجه حریم خصوصی تفاضلی طراحی شده است که میتوان حریم خصوصی تفاضلی سنتی و پایه را به نحوی تغییر دهد که بتواند در مقابل نشت حریم خصوصی برای دادههای همبسته زمانی مقاومت کند. بدین منظور ابتدا حد بالای نشت حریم خصوصی برای دادههای پیشین و پسین مورد بررسی قرار گرفت. سپس دو الگوریتم برای رسیدن به حریم خصوصی با بودجه تعریف شده و مبتنی بر حدبالای نشت حریم خصوصی ارائه شده است.
در نهایت برای نشان دادن زمان اجرا و صحت الگوریتم پیشنهادی محاسبه مقدار نشت حریم خصوصی از نرم افزار IBM ILOG CPLEX استفاده و نتایج نمایش داده شدهاند. همچنین تاثیر همبستگی زمانی دادهها روی نشت حریم خصوصی و نیز ارزیابی انتشار داده توسط الگوریتمهای پیشنهادی مورد بررسی و با کمک مکانیزم لاپلاس سودمندی آنها نمایش داده شده است.
Y. Cao, M. Yoshikawa, Y. Xiao and L. Xiong, “Quantifying Differential Privacy in Continuous Data Release Under Temporal Correlations,” in IEEE Transactions on Knowledge and Data Engineering, vol. 31, no. 7, pp. 1281-1295, 1 July 2019, doi: 10.1109/TKDE.2018.2824328.