LinkedIn’s Audience Engagements API: A Privacy Preserving Data Analytics System at Scale

این راهکار شرکت لینکدین را یاری می‌دهد تا از حریم خصوصی تفاضلی در سیستم‌های OLAP (Online Analytical proccessing) بهره ببرد. سیستم‌های مذکور به دلیل حجم داده‌های زیادی که به صورت توزیع شده و در سرور‌های مختلف نگهداری می‌کنند و براساس آن‌ها به پرسمان‌ها پاسخ می‌دهند به خودی خود با چالش سرعت پاسخگویی با پرسمان‌ها مواجه هستند. افزودن لایه حریم خصوصی تفاضلی باید به گونه‌ای باشد که به زمان پاسخگویی به پرسمان سربار زمانی محسوسی اضافه نکند.

لینکدین راهکار خود را به دو بخش تقسیم کرده‌ است. اول. اعمال حریم خصوصی تفاضلی در سیستم تحلیلگر بلادرنگ دوم. مدیریت بودجه حریم خصوصی تفاضلی در بین سرور‌های توزیع شده. جدول زیر نقشه راه بخش اول راهکار را به صورت کلی نمایش می‌دهد.

دامنه شناخته شده زمانی به مجموعه داده اطلاق می‌شود که حجم داده‌ها منطقی و شناخته شده باشد و دامنه ناشناس زمانی به مجموعه داده اطلاق می‌شود که حجم داده‌ها بسیار زیاد و ناشناس باشد.

در زمانی که حساسیت نامحدود هست بودجه به تعداد نتیجه بازگشتی در پاسخ به پرسمان کسر می‌شود و زمانی که حساست دلتا هست، بودجه به اندازه دلتا کسر می‌شود.

زمانی که نوع دامنه داده‌ها و حساسیت آن‌ها مشخص شد از سازوکارهای گامبل و لاپلاس طبق جدول بالا برای اعمال حریم خصوصی تفاضلی بر روی پاسخ پرسمان استفاده می‌کنیم.

برای مدیریت بودجه حریم خصوصی تفاضلی، یک سیستم مرکزی که به صورت بلادرنگ بودجه را بین سرورهای مختلف مشخص می‌کند تعبیه شده است. این سیستم دارای دو فرض است. اول. تحلیلگران تبانی نمی‌کنند. یعنی بودجه و پاسخ پرسمان‌های خود را با یکدیگر به اشتراک نمی‌گذارند. دوم. تحلیلگران یک مجموعه (شرکت) یک دسترسی واحد و بودجه مشترک دارند.

در این سیستم مدیریت بر پایه دو مورد در نظر گرفته شده است. اول. بودجه حریم خصوصی تفاضلی دوم. تعداد پرسمان

Rogers, Ryan, et al. “LinkedIn’s Audience Engagements API: A privacy preserving data analytics system at scale.” arXiv preprint arXiv:2002.05839 (2020).

LinkedIn’s Audience Engagements API: A Privacy Preserving Data Analytics System at Scale

دیدگاهتان را بنویسید لغو پاسخ