مقاله حاضر سعی دارد تصورات عمومی اشتباه (تا زمان نگارش این مقاله) از حریم خصوصی تفاضلی را معرفی کند. مهمترین موضوعی که در این مقاله به آن اشاره شده است، حفظ حریم خصوصی داده بدون در نظر گرفتن فرضیاتی در مورد نحوه تولید داده است. به صورت مشخص دو دسته داده مورد بررسی قرار گرفته است:
دسته اول دادههای مرتبط با شبکه اجتماعی است. بدین منظور سه مدل برای شبیهسازی شبکه اجتماعی مورد استفاده قرار گرفت تا به این سوال پاسخ داده شود که حضور یا عدم حضور یک فرد مشخص در شبکه اجتماعی که میتواند منشا ارتباطات بسیاری باشد، چگونه ممکن است با تعریف حریم خصوصی تفاضلی و فرآیندهای مرتبط با آن، از دید مهاجم مخفی بماند.
دسته دوم از دادههای بررسی شده در این مقاله، دادههایی هستند که پیش از انتشار پاسخهای حافظ حریم خصوصی درباره آنها، آمارهای قطعی و بدون نویزی از آن مجموعه داده منتشر شده باشد. مقاله حاضر نشان داد که در این گونه دادهها نیز، بدون از دست دادن مقدار زیادی بهرهوری و اضافه کردن نویز به میزان قابل توجهی، نمیتوان همواره با حریم خصوصی تفاضلی امکان دستیابی مهاجم به مجموعه داده کامل را محدود ساخت.
وجه مشترک این دو دسته داده بررسی شده، همبستگی دادهها با یکدیگر است. از این رو ادعای اینکه حریم خصوصی تفاضلی نیازمند هیچ پیشفرضی در خصوص نحوه تولید داده نیست را با چالش جدی مواجه میسازد.
موضوع دیگری که در این مقاله به آن پرداخته شد این ادعا است که هرچه مهاجم اطلاعات بیشتری از دادهها داشته باشد، ریسک حریم خصوصی افزایش مییابد. اما با کمک تئوری No-Free-Lunch و تعریف Non-Privacy Game، نشان داده شد که همواره دانش بیشتر مهاجم از مجموعه داده، به معنای تهدید بیشتر آن نیست. نشان دادن مهاجمی با دانش بالا و ارائه حریم خصوصی تفاضلی با اضافه کردن نویز کمتر و نیز نشان دادن مهاجمی با دانش کمتر که خطر نشت اطلاعات بیشتری را دارد، از جمله دلایل اثبات این مطلب است.
در نهایت نشان داده شد که داشتن اطلاعات پیشین از یک مجموعه داده، زمانی که با مکانیزمهای حافظ حریم خصوصی تفاضلی ترکیب شود، گاه میتواند اطلاعات دقیقی را در اختیار مهاجم قرار دهد.
مقاله حاضر به عنوان یکی از مقالاتی که برای اولین بار چالشهای حریم خصوصی تفاضلی برای دادههای همبسته را نشان میدهند، شناخته شده است.
Daniel Kifer and Ashwin Machanavajjhala, No free lunch in data privacy, 2011 ACM SIGMOD International Conference on Management of data, Association for Computing Machinery, New York, NY, USA, 193–204. DOI:https://doi.org/10.1145/1989323.1989345