DPPro: Differentially Private High-Dimensional Data Release via Random Projection

در سال‌های اخیر، انتشار داده‌ها با حفظ حریم خصوصی آنها توجه زیادی را به خود جلب کرده است. روش‌های حریم خصوصی تفاضلی موجود برای زمانی که ابعاد مجموعه‌داده ورودی، بالا است بدلیل نوفه تزریفی زیاد، افزایش خطاهای آشفته‌سازی و پیچیدگی محاسباتی بالا، کارآیی خوبی ندارد. به همین دلیل DPPro معرفی شده است.

DPPro، ابعاد یک مجموعه‌داده با ابعاد بالا را به کمک تبدیل تصادفی کاهش داده و فاصله نسبی نقاط داده را حفظ کرده و سپس نوفه را به منظور فراهم کردن حریم خصوصی به آن اضافه می‌کند.

DPPro framework

مراحل DPPro:

  • انتخاب ماتریس تبدیل R و حساسیت آن: ماتریس انتخابی باید دو مورد زیر را درنظر بگیرد:
    • به کمک محاسبه فاصله L2، میزان فواصل بین ویژگی‌ها حفظ و از آن برای گروه‌بندی کاربران استفاده شود.
    • به حداقل رساندن نوفه اضافه شده و به حداکثر رساندن سودمندی.
  • انتخاب تضمین‌های حریم خصوصی (ε, δ)، که توزیع نوفه‌ها را تعیین می‌کند.
  • تعیین بعد تبدیلی بهینه(K): k بهینه به کمک فرمول زیر بدست می‌آید:

آزمایشات:

در این قسمت عملکرد DPPro با سه روش موجود JTree، PrivBayes و PriView مقایسه می‌شود. برای بررسی عملکرد طبقه‌بندی SVM، روش DPPro با PrivateSVM مقایسه می‌شود.

روش‌های ارزیابی: برای ارزیابی عملکرد DPPro، برای هر مجموعه‌داده، یک مجموعه پرس‌وجو با ۱۰۰۰۰ پرس‌وجو خطی تصادفی ایجاد می‌شود و میانگین فاصله کل تغییرات بین مجموعه داده‌های اصلی و مجموعه داده‌های نوفه‌دار گزارش می‌شود. سودمندی داده‌های منتشر شده با میانگین خطای L2 اندازه‌گیری می‌شود:

U2(x,y): مجذور فواصل بین دو کاربر در فضای اصلی

U’2(x,y): مجذور فواصل بین دو کاربر در فضای تبدیل شده

هر چه خطای L2 کمتر باشد، سودمندی داده بیشتر است.

بررسی عملکرد DPPro بر روی مجموعه‌داده باینری: برای اینکار بودجه حریم خصوصی متفاوتی را در نظر می‌گیریم. در بیشتر حالت‌ها DPPro دقت بهتری نسبت به روش‌های JTree و PrivBayes دارد. برتری DPPro برای εهای کوچک آشکارتر است. بنابراین DPPro یک روش معقول برای ایجاد تعادل بین تامین حریم خصوصی و سودمندی داده در مجموعه‌داده مصنوعی است.

تاثیر ابعاد داده‌های تبدیل شده بر DPPro: خطای L2 مربوط به DPPro با افزایش تعداد ابعاد(k)، کاهش می‌یابد. به این دلیل که برای σ ثابت، خطای L2 مجذور فاصله بین دو کاربر در DPPro با افزایش k، کوچک‌تر می‌شود.

بررسی عملکرد DPPro بر روی مجموعه‌داده غیرباینری: DPPro در بیشتر حالت‌ها بهتر از PrivBayes است. PrivBayes تنها در حالتی از DPPro و JTree بهتر است که ε=0.2 (مجموعه‌داده TPC-E) اما باز هم در این حالت، عملکرد DPPro بهتر از JTree است.

بررسی عملکرد DPPro بر طبقه‌بندی SVM: عملکرد DPPro بهتر از PrivBayes و JTree است. سطح حریم خصوصی بالاتر موجب کاهش سودمندی داده می‌شود. DPPro می‌تواند سودمندی داده‌های منتشر شده را حفظ و حریم خصوصی مناسبی را فراهم کند.

Chugui Xu et al. “DPPro: Differentially private high-dimensional data release via random projection”. In: IEEE Transactions on Information Forensics and Security 12.12 (2017), pp. 3081–3093

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

هرگونه استفاده از محتوای این وب سایت، با ذکر منبع و نام نویسنده بلامانع است.