Процесс сохранения частной или конфиденциальной информации путем удаления или кодирования идентификаторов, которые связывают отдельных лиц и хранимые данные
Что такое анонимизация данных?
Анонимизация данных – это метод сохранения частной или конфиденциальной информации путем удаления или кодирования идентификаторов, которые связывают отдельных лиц с хранимыми данными. Это делается для защиты частной деятельности физического лица или корпорации при сохранении достоверности собираемых данных и обмена ими.
Анонимизация данных – это один из методов, который организации могут использовать для соблюдения строгих правил конфиденциальности данных, требующих обеспечения безопасности личной информации, такой как медицинские отчеты, контактная информация и финансовые данные.
Однако, даже если данные идентификаторов очищены, злоумышленники могут использовать методы деанонимизации, чтобы повторить процедуру анонимизации данных. Поскольку данные обычно поступают из нескольких источников, некоторые из которых открыты для общественности, методы деанонимизации позволяют использовать перекрестные ссылки на источники и раскрывать личную информацию.
Резюме
- Анонимизация данных – это процесс сохранения частной или конфиденциальной информации путем удаления или кодирования идентификаторов, которые связывают отдельных лиц с хранимыми данными.
- Политика анонимизации данных гарантирует, что компания понимает и выполняет свои обязательства по защите важных, личных и конфиденциальных данных.
- Сбор анонимных данных и удаление идентификационных данных из базы данных ограничит возможность извлечения личной информации из результатов.
Методы анонимизации данных
1. Маскировка данных
Маскировка данных – это раскрытие данных с измененными значениями. Анонимизация данных осуществляется путем создания зеркального отображения базы данных и реализации стратегий изменения, таких как перетасовка символов, шифрование, использование терминов или замена символов. Например, символ значения может быть заменен таким символом, как “*” или “x”. Это затрудняет идентификацию или обратное проектирование.
2. Псевдонимизация
Псевдонимизация – это инструмент деидентификации данных, который заменяет личные идентификаторы ложными идентификаторами или псевдонимами, например, заменяет идентификатор “Джон Смит” на идентификатор “Марк Спенсер”. Это обеспечивает статистическую точность и конфиденциальность данных, позволяя использовать измененные данные для создания, обучения, тестирования и анализа, сохраняя при этом конфиденциальность данных.
3. Обобщение
Обобщение предполагает преднамеренное исключение некоторых данных, чтобы сделать их менее идентифицируемыми. Данные могут быть изменены на несколько диапазонов или на большую область с разумными границами. Например, номер дома по адресу может быть удален, но убедитесь, что название переулка не удалено. Цель состоит в том, чтобы удалить некоторые идентификаторы, сохранив при этом точность данных.
4. Обмен данными
При замене данных, часто известной как перестановка и перетасовка, значения атрибутов набора данных изменяются таким образом, что они не соответствуют исходной информации. Переключение атрибутов (столбцов), содержащих узнаваемые значения, такие как дата рождения, может оказать огромное влияние на анонимизацию.
5. Изменение данных
Возмущение данных незначительно изменяет исходный набор данных, применяя методы округления нумерации и добавляя случайный шум. Набор значений должен быть пропорционален возмущению. Небольшая база данных может привести к плохой анонимизации, в то время как широкая база данных может снизить полезность набора данных. Например, для округления таких значений, как возраст или номер дома, следует использовать основание 5.
6. Синтетические данные
Синтетические данные – это информация, сгенерированная алгоритмически и не имеющая отношения к какому-либо конкретному случаю. Данные используются для создания искусственных наборов данных вместо модификации или использования исходного набора данных, что ставит под угрозу конфиденциальность и защиту.
Метод синтетических данных включает в себя построение математических моделей на основе шаблонов, содержащихся в исходном наборе данных. Для получения синтетических результатов можно использовать стандартные отклонения, линейную регрессию, медианы или другие статистические методы.
Преимущества анонимизации данных
1. Защита от возможной потери доли рынка и доверия
Анонимизация данных – это метод обеспечения того, чтобы компания понимала и выполняла свои обязанности по защите конфиденциальных данных в мире чрезвычайно сложных требований по защите данных, которые могут варьироваться в зависимости от того, где находится бизнес и клиенты. Таким образом, это защищает компании от возможной потери доли рынка и доверия.
2. Защита от рисков неправомерного использования данных и инсайдерской эксплуатации
Анонимизация данных – это защита от рисков неправомерного использования данных и инсайдерской эксплуатации, которые приводят к несоблюдению нормативных требований.
3. Повышает эффективность управления и согласованность результатов
Анонимизация данных также повышает эффективность управления и согласованность результатов. Чистые и точные данные позволяют эффективно использовать приложения и сервисы, сохраняя аналитику больших объемов данных и конфиденциальность. Это способствует цифровым преобразованиям, предоставляя защищенные данные для использования при создании новой рыночной стоимости.
Недостаток анонимизации данных
В соответствии с нормативными требованиями веб-сайты должны получать разрешение от пользователей на сбор личной информации, такой как файлы cookie, IP-адреса и идентификаторы компьютеров. Сбор анонимных данных и удаление идентификационных данных из базы данных ограничит возможность извлечения значимой информации из результатов.
Например, анонимизированная информация не может быть использована для таргетинга или персонализации взаимодействия с пользователем.