به كمک جمعآوری دادههای جمعسپاری با ابعاد بالا، میتوان بسياری از اطلاعات و الگوهای بالقوه پشت دادهها را استخراج كرده و به كمک آن پيشبينی دقيق و قابل اعتمادتری را ارائه داد. اما بيشتر روشهای حريم خصوصی موجود، مربوط به حريم خصوصی تفاضلی متمركز هستند و براي دادههای با ابعاد بالا كارايی مناسبی ندارند.
به همين دليل راهکار LoPub كه یک روش حافظ حريم خصوصی محلی برای دادههای با ابعاد بالا است، پيشنهاد شده است. هدف اين روش اين است كه يک مجموعهداده تقريبا مشابه با مجموعهداده اوليه با حفظ حريم خصوصی تفاضلی محلی آن توليد شود. اين راهکار از چهار مرحله زیر تشكيل شده است:
- حفاظت از حریم خصوصی محلی: در این مرحله هر ويژگی از داده يک كاربر، با استفاده از فیلتر بلوم به رشته بيتی تبديل و سپس هر بيت از آن با استفاده از سازوكار پاسخ تصادفی آشفته و درنهايت رشته بيتهای آشفتهشده بعد از الحاق برای جمعكننده داده ارسال میشوند.
- تخمین توزیع چند بعدی: در این مرحله از يک الگوريتم جديد كه تركيبی از الگوريتمهای انتظار-بيشينهسازی و رگرسیون لاسو است، استفاده میشود. در اين مرحله، ابتدا موارد اضافی حذف شده و سپس به كمک الگوريتم رگرسیون لاسو، مقادير اوليه دادههاي موردنياز براي اين مرحله مشخص شده و سپس به كمک الگوريتم انتظار-بيشينهسازی توزيع مشترک تخمين زده میشود.
- کاهش ابعاد: یکی از روشهای کاربردی برای کاهش ابعاد در یک مجموعهداده با ابعاد بالا، یافتن خوشههای فشرده است که در آن همه ویژگیها به شدت به یکدیگر وابسته هستند. راهکار کاهش ابعاد پیشنهادی این مقاله شامل مراحل زیر میباشد:
- محاسبه همبستگی: همبستگی بین جفت ویژگیها با استفاده از اطلاعات متقابل محاسبه میشود.
- ساخت گراف وابستگی: از گراف وابستگی برای نشان دادن همبستگی بین ویژگیها استفاده میشود.
- خوشهبندی: برای خوشهبندی ویژگیها، ابتدا با مثلثسازی گراف وابستگی تولید شده از مرحله قبل آن را به درخت اتصال تبدیل کرده و سپس عملیات خوشهبندی انجام میگیرد.
- تولید مجموعهداده جدید
Xuebin Ren et al. “LoPub: high-dimensional crowdsourced data publication with local differential privacy”. In: IEEE Transactions on Information Forensics and Security 13.9 (2018), pp. 2151–2166.