مطالعاتی که تا پیش از انتشار این مقاله در حوزه حریم خصوصی تفاضلی دادههای همبسته انجام شده بود، غالبا به تاثیر روابط اجتماعی اهمیتی نمیدادند. از این رو دراین مقاله اثرات همبستگی دادهها و نیز روابط اجتماعی بر حریم خصوصی تفاضلی به صورت همزمان مورد بررسی قرار میگیرد. مقاله حاضر به دنبال پاسخگویی به این سوالات است: ۱. یک گزارش دهنده داده چگونه میبایست داده خود را با در نظر گرفتن همبستگی دادهها و روابط اجتماعی به صورت همزمان منتشر کند. ۲. براین اساس یک جمعکننده داده چگونه میبایست فرآیند حریم خصوصی تفاضلی را طراحی کند.
در این مقاله نشان داده شد در زمانی که تابع پرس و جوی ما یک تابع جمع کننده باشد، تنها یکی از گزارش دهندگان داده در شبکه اجتماعی که دارای ملاحظات بالایی از منظر تلاقی روابط اجتماعی و همبستگی داده است میبایست به دادههای خود نوفه(نویز) اضافه کرده و مابقی میتوانند دادههای خود را بدون اضافه کردن نوفهای به جمعکننده داده ارسال نمایند و در عین حال حریم خصوصی ایشان آسیبی نبیند. همچنین در این مقاله با استفاده از تئوری بازی و به صورت خاص تعادل نش، مکانیزم حریم خصوصی بهینهای برای جمعکننده داده طراحی شده است. در نهایت اثرات همبستگی داده و نیز روابط اجتماعی تامین کنندگان داده با در نظر گرفتن حالتهای مختلف از منظر میزان دانش نسبت به آنها شبیه سازی شده است.
رویکردی که در این مقاله به صورت خاص دنبال شده است، بررسی تعامل بین جمع کننده داده با گزارش دهنده داده است. به صورت مشخص این تعامل توسط نظریه بازی Stackelberg فرموله شده و بهینگی فرآیند حفظ حریم خصوصی جمع کننده داده با در نظر گرفتن تصمیمات گزارش دهنده داده مطالعه شده است.
در مدل ارائه شده، میزان همبستگی دادهها توسط مدل همبستگی گاوسی که حالتی خاص از تابع رندم مارکوف است، محاسبه میشود. این نکته حائز اهمیت است که این مدل قابل استفاده برای متغیرهای رندم گسسته نبوده و نیز نمیتواند وابستگی علی را نیز شناسایی کند. از آنجا که در این مقاله از تحلیل پرس و جوی تابع جمع کننده استفاده شده و نیز جهت یالها در گراف به دست آمده اهمیتی ندارد، میتوان از مدل همبستگی گاوسی استفاده کرد. بر مبنای مدل همبستگی گاوسی ارائه شده در این مقاله، واریانس نتیجه تجزیه و تحلیل وابسته به دادههای یک فرد برای شناسایی میزان حریم خصوصی از دست رفته، محاسبه میشود. همچنین میزان دقت از دست رفته برای دادههای هر فرد با توجه به واریانس نوفهای که گزارش دهنده و جمع کننده داده در نظرگرفته است به دست میآید. براساس این مطالعه، سودمندی داده رابطه مستقیمی با میزان واریانس نوفه اضافه شده در سمت گزارش دهنده و جمع کننده داده دارد.
برای شبیه سازی راه حل ارائه شده در مقاله، از دادههای شبکه اجتماعی فیسبوک که از پایگاه داده SNAP دانشگاه استنفورد اخذ شده،استفاده شده است. در این مقاله، روابط اجتماعی تامین کنندگان داده در شبکه اجتماعی با حرف S و شبکه همبستگی دادههای تصادفی با حرف W نمایش داده میشوند. براین اساس چهار سناریوی شبیه سازی در نظر گرفته شد: ۱. جمع کننده داده اطلاعات کاملی از S و W دارد. ۲. جمع کننده داده هیچ اطلاعی از S نداشته و اطلاعات کاملی از Wدارد. ۳. جمع کننده داده اطلاعات کاملی از S داشته و اطلاعات جزئی از W دارد. ۴. جمع کننده داده اطلاعات جزئی از S و اطلاعات کاملی از W دارد. نتایج به دست آمده از شبیه سازی نشان داد که هر دوی جمع کننده داده و گزارش دهنده داده، حداقل بهینگی و کارایی را در شرایط شبکه همبستگی قوی و روابط اجتماعی قوی برای هر چهار سناریو تجربه کردند. در سناریوی اطلاعات جزئی از همبستگی داده و اطلاعات کامل از شبکه اجتماعی، هر دوی جمع کننده داده و افراد گزارش دهنده میتوانند به کارایی و بهینگی بالا و نزدیک به حالت ایدهآل دست پیدا کنند. در حالتی که اطلاعات جزئی از شبکه اجتماعی در اختیار باشد و یا اصلا اطلاعاتی در اختیار نباشد، جمع کننده داده متحمل از دست دادن بهینگی و کارایی شده در حالی که افراد گزارش دهنده تجربه بهینگی و کارایی بالاتری را خواهند داشت.
Guocheng Liao, Xu Chen, and Jianwei Huang. 2018. Social-Aware Privacy- Preserving Correlated Data Collection. In Mobihoc ’18: The Eighteenth ACM International Symposium on Mobile Ad Hoc Networking and Computing, June 26–29, 2018, Los Angeles, CA, USA. ACM, New York, NY, USA, 10 pages