빅데이터의 처리와 분석 단계에서 빅데이터 사이언티스트가 관심을 가져야 하는 법적 이슈는 △개인정보의 비식별화 △마이닝 △개인정보의 통합 △개인정보의 국외 이전 △분석 결과 식별정보 생성시 법적 취급 △일시적 복제권 침해 등이 있다.
◇ 개인정보의 비식별화
개인정보의 비식별화는 빅데이터 처리와 분석에서 매우 중요한 지위를 차지하고 있다. 빅데이터의 결과가 식별정보(= 개인정보)를 목표로 하지 아니하는 한 비식별화 처리가 일반적이다. 이와 관련해 용어 정리를 할 필요가 있다. 개인정보는 식별정보와 같은 의미인 반면, 비식별정보는 그 정보만으로 식별할 수 없기 때문에 개인정보가 아니다.
한편 개인정보를 비식별화하면 비식별정보가 되지만 문제는 원래부터 비식별정보였던 정보와 달리 비식별화된 정보는 경우에 따라서는 다시 식별성을 가지게 되는 문제점, 즉 재식별화 위험이 있다. 따라서 비식별화된 정보는 원래부터 비식별정보였던 정보와 동일하게 취급해서는 안 된다. 개인정보의 비식별화 과정에서 항상 재식별화 위험이 있기 때문에 점검하고 모니터링해야 한다.
현재 개인정보보호 법령상 비식별화의 개념 정의나 재식별화 모니터링 의무, 비식별화된 정보의 관리 등은 규정되어 있지 않다. 따라서 실무상 비식별화된 정보를 원래부터 비식별정보였던 정보와 구분하지 않고 통틀어 비식별정보로 다루고 있는 실정이다. 하지만 이러한 태도는 바람직하지 않고, 오히려 빅데이터의 신뢰성을 떨어뜨리고 막연한 불신을 야기할 수 있다.
비식별화된 정보는 원래부터 비식별정보였던 정보와 동일하게 취급해서는 아니 되고 식별정보와 비식별정도의 중간 정도의 보호 수준은 유지해야 한다. 예컨대 비식별화된 정보에 관한 기술적·관리적 보호조치 의무나 재식별화 모니터링 의무 등에 대해 규정해 프라이버시를 보호하는 빅데이터가 되도록 유도하는 것이 바람직하다.
나아가 비식별화의 기준을 제시하는 것이 바람직하다. 참고로 영국의 경우, Motivated Intruder Test로 상대적으로 비전문가가 재식별에 성공할 수 있는지를 판별하여 식별 위험의 최소한의 기준을 정하고 있다.
◇ 마이닝
현재 빅데이터의 분석 기법으로는 통계분석, 데이터마이닝, 텍스트마이닝, 예측분석, 최적화, 평판분석(오피니언마이닝), 소셜네트워크분석, 군집분석 등이 사용되고 있다. 이 중에서 마이닝(mining)은 당연히 법적 이슈가 될 수밖에 없다.
마이닝의 유형으로는 데이터 마이닝(대용량의 데이터 등에서 감춰진 지식이나 기대하지 못했던 경향, 새로운 규칙 등의 유용한 정보를 발견하는 과정), 텍스트 마이닝(자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾아가는 마이닝 기법), 웹 마이닝(인터넷상에서 수집된 정보를 데이터 마이닝 기법으로 분석·통합하는 기법), 소셜 마이닝(소셜 미디어의 글과 사용자를 분석하여 소비자의 흐름이나 패턴 등을 분석하는 기법), 현실 마이닝(사람들의 행동패턴을 이해하기 위해 사회적 행동과 관련된 정보를 모바일·GPS 등을 통해 얻고 분석하는 기법) 등이 있다(출처: 한국정보화진흥원).
마이닝이란 데이터 분석을 의미하지만, 법적으로는 마이닝이라는 용어보다는 프로파일링이란 용어를 많이 사용하고 있다. 그러나 양자는 동일한 개념은 아니다. 프로파일링(profiling)이란, 수집부터 시작해 마이닝을 포함해 결과를 내는 과정까지 포함하는 일체를 가리키기 때문에, 프로파일링은 마이닝을 포함하는 개념이다.
마이닝 과정에서 데이터 분석을 통하여 특정인의 취향이나 기호 등을 유출해내게 되는데, 이러한 마이닝을 금지하는 조문은 발견되지 않는다. 다만 우리 법은 민감정보 처리를 금지하고 있기 때문에 민감정보 생성을 목적으로 하는 마이닝이나 프로파일링은 금지된다. 여기서 민감정보란 ‘사상·신념, 노동조합·정당의 가입·탈퇴, 정치적 견해, 건강, 성생활 등에 관한 정보, 그 밖에 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보’를 의미한다.
한편 EU의 개인정보보호 규정(GDPR 2012)은 개인적 특성의 평가, 개인에 관한 분석 또는 예측을 위한 기준의 적용을 받지 않을 권리 즉 프로파일링 거부권을 보장하고 있으며, 프로파일링이 예외적으로 허용되는 경우로는, 정보주체의 적법한 이익을 보호해주는 적합한 기준이 제공되거나 정보주체에 의한 계약 체결 또는 이행의 요청이 충족되는 경우에 계약 체결 또는 이행 과정에서 처리되는 경우, 정보주체의 합법적 이익을 보장하기에 적합한 기준을 규정한 EU 또는 회원국의 법률에 의하여 명시적으로 승인되어 처리되는 경우, 동의요건과 적합한 보호조치 하에서 정보주체의 동의하에 처리되는 경우를 규정하고 있다.
우리 법은 프로파일링의 한계를 설정하지 않고 있어 실무에서 혼선을 야기하고 있고 전문가들은 프로파일링을 악으로 취급하는 경향이 있다. 그러나 모든 프로파일링에 대해 부정적으로 생각하는 것은 프로파일링에 대한 이해가 부족해서 생긴 현상이다.
향후 빅데이터 산업을 위해 프로파일링에 관한 기준 설정이 필요하며, 특히 개인정보 자기결정권 침해가 없는 ‘착한’ 프로파일링을 예시하여 프로파일링을 양성화 또는 합법화하는 노력이 필요하다.
◇ 개인정보의 통합
빅데이터는 그 용어에서 알 수 있듯이 정보의 공유나 통합 등이 전제되는 경우가 많다. 원래부터 비식별정보였던 정보의 통합은 법적으로는 문제되지 않고, 비식별화된 정보의 통합 역시 현재는 문제되지 않는다. 그러나 개인정보의 무분별한 공유나 통합은 목적 범위 외의 이용·공유의 문제를 야기한다.
예컨대 A 개인정보를 마케팅 목적으로 수집하고 B 개인정보를 계약 이행 목적으로 수집했는데, 나중에 A 개인정보와 B 개인정보를 통합해 마케팅 목적으로 이용하는 것이 가능할 것인가? 만일 통합·분석이 목적 범위 내의 이용이라고 판명된다면 큰 문제는 없지만, 목적 범위 외의 이용에 해당한다면 통합 이전에 원칙적으로 정보주체의 동의를 다시 얻어야 한다.
이 문제는 통합되는 개인정보의 수집 목적의 ‘동질성’ 여부를 가지고 판단하는 수밖에 없어 보인다. 즉 통합되는 개인정보 수집목적이 동질이면 통합·분석은 적법하겠지만 그렇지 않으면 정보주체의 별도의 동의를 얻어야 할 것이다.
이러한 결론은 엄격한 목적제한성 때문에 비롯된 것이다. 빅데이터는 그 개념상 수집한 개인정보를 창의적으로 그리고 트렌디하게 분석 또는 이용하는 것이 전제되어 있기 때문에 개인정보에 대한 엄격한 목적 설정은 빅데이터의 장애가 될 수 있다. 하지만 빅데이터 때문에 목적제한성을 완화하자고 주장하는 사람은 극소수이다. 오히려 대부분의 전문가들은 빅데이터 시대에 목적제한성을 엄격하게 준수하자고 말하고 있다.
목적제한성의 엄격함을 극복하기 위해서는 수집 시 동의를 받을 때 수집목적 설정을 잘 하는 수밖에 없다. 빅데이터 운용에 있어 수집 단계부터 체계적이고 장기적인 관점으로 접근할 필요가 있고 수집 시 동의서나 개인정보처리방침을 작성할 때도 이런 점을 고려해서 작성해야 할 것이다.
◇ 개인정보의 국외 이전
빅데이터는 클라우드 등의 인프라를 이용하는 경우가 많으며, 글로벌 비즈니스를 하는 기업의 경우에는 개인정보가 국경을 통과해 수집·보관·분석되는 경우가 매우 많다. 이렇게 개인정보가 국경을 통과하는 것을 통틀어 개인정보의 국외 이전이라고 부른다. 개인정보 국외 이전은 국외 제공과 국외 위탁을 모두 포괄하는 개념이다.
국외 이전만큼 우리법이 경직되어 규정된 경우가 없을 정도로 매우 경직된 태도를 취하고 있다. 온라인 기업에 적용되는 정보통신망법의 경우 제공이건 위탁이건 상관없이 모두 정보주체의 동의를 얻어야만 한다. 사실상 국외 이전을 허용하지 않는 입법이라 할 수 있다.
개인정보 보호라는 것은 엄격한 규정에 의해 달성될 수 있지만, 경직된 규정은 오히려 현실적인 개인정보 보호를 방해한다. 엄격과 경직은 구별되는 개념인데, 예컨대 문을 하나만 만들어 놓고 그 문을 통과하기 어렵게 해두면 엄격·경직이지만, 문을 여러 개 만들어 놓고 각 문을 통과하기 어렵게 해두면 이것은 엄격·유연이라 할 수 있다.
우리 개인정보보호 법령은 기본적으로 엄격하고 경직되어 있다. 엄격한 개인정보보호는 미덕이지만 경직된 것은 미덕이 될 수 없다. 좀 더 유연하게 여러 개의 문을 만들어 줄 필요가 있다.
이와 관련해 엄격하다고 알려진 EU 개인정보보호 규정(GDPR 2012)은, 정보주체가 충분한 설명을 받고 동의를 한 경우뿐만 아니라 개인정보가 이전될 국가가 적절한 수준의 보호(Adequate level of protection)를 갖추고 있다고 EU 집행위원회가 판정을 하는 경우 BCRs(Binding Corporate Rules)·EU 집행위원회가 채택한 표준데이터보호조항·EU 집행위원회가 유효하다고 인정한다.
그리고 감독기관이 채택한 표준데이터 보호조항·감독기관이 승인한 표준계약조항에 부합하는 경우, 국외이전이 계약이행에 필요한 경우·정보주체의 이익을 위해 필요한 경우, 공익을 위해 필요한 경우, 법적 공방을 위해 필요한 경우, 정보주체의 동의를 얻지 못하는 상황에서 정보주체의 이익을 위해 필요한 경우, 세이프하버 약정이 체결되어 있고 그 기준을 준수한 경우, EU 의회에서 승인한 경우도 국외 이전을 할 수 있다. 우리도 이런 유연한 태도를 지향해야 할 것이다.
◇ 분석 결과 식별정보 생성 시 법적 취급
빅데이터 분석 결과 식별정보가 나왔을 때, 식별정보에 관한 정보주체는 개인정보 자기결정권을 행사해 정정·삭제 등을 요구할 수 있을까?
개인정보 자기결정권은 계약을 전제로 하여 발생하는 권리가 아니고 기본권이기 때문에 소스가 비식별정보이든지, 식별정보이든지 어느 경우라도 정보주체는 빅데이터 분석 결과 생성된 식별정보에 대해 개인정보 자기결정권을 행사할 수 있다고 해석된다. 이런 문제를 근본적으로 해결하는 방법으로는 사전에 분석 결과의 생성까지를 포함해서 동의를 얻는 방법이 있다.
나아가 비식별정보를 가지고 식별정보의 결과를 냈을 때, 이를 일종의 수집으로 보아 식별정보 정보주체의 동의를 얻어야 하는가? 이 문제는 빅데이터 분석 결과의 생성이 수집인지 아닌지에 따라 결정될 문제인데, 이를 수집으로 보기는 쉽지 않아 보인다.
◇ 일시적 복제권 침해
빅데이터 처리 및 분석은 저작권 이슈를 야기할 수 있다. 개인정보가 담긴 소스도 많지만, 어떤 경우에는 저작물로 인정되는 소스도 적지 않기 때문이다. 저작권은 저작물에 대해 인정되는 권리이며, 데이터베이스 역시 저작권법에 의한 보호를 받고 있다. 따라서 빅데이터 분석을 위한 타인의 저작물·데이터베이스 수집시 그 타인의 저작권 침해 문제가 발생한다.
예컨대 빅데이터 분석을 위해 수집한 저작물을 분석자의 하드디스크에 옮기는 경우 이는 영구적 복제권이나 전송권 침해가 될 수 있다. 그렇다면 하드디스크에 옮기지 않고 처리하는 경우는 이러한 문제가 발생하지 않는 것인가?
하드디스크에 옮기지 않더라도 램(RAM)에 올려 처리하는 경우에는 일시적 복제권 침해 문제가 발생할 수 있다. 다만 우리나라 저작권법은 ‘컴퓨터에서 저작물을 이용하는 경우에는 원활하고 효율적인 정보처리를 위하여 필요하다고 인정되는 범위 안에서 그 저작물을 그 컴퓨터에 일시적으로 복제할 수 있다’고 규정하여 일시적 복제에 있어 폭넓은 예외를 인정하고 있어 빅데이터 처리 과정에서의 일시적인 RAM 복제는 예외에 해당될 가능성도 없지 않다. 그러나 저작권법이 빅데이터까지 염두에 두고 위와 같은 예외 규정을 정한 것은 아니기 때문에 관련 논의가 더 필요한 상황이다.
◇ 결어 : 정보주체의 신뢰
앞으로 우리의 관점은 정보처리시스템의 서버와 클라이언트, 이를 구동시키는 소프트웨어만 바라보고 분석하는 관점이 아니라 그 안에서 유동적으로 흘러가는 ‘정보’를 주시해야 한다. 즉 정보 중심에서 소프트웨어와 하드웨어를 바라보고 정보 중심으로 정보처리시스템의 목적을 설정해야 한다. 이것이 빅데이터에 필요한 시각이다.
정보의 중심에서 시야를 펼치면서, 그 정보의 가치를 극대화시키는 것이 빅데이터라 할 수 있다. 특히 각종 정보 중에서 개인정보는 빅데이터의 본질적인 요소라 할 수 있다. 그러나 개인정보는 주인이 따로 있기 때문에 이들의 신뢰를 얻는 것이 중요하다.
즉 프라이버시 보호는 선택이 아니라 의무라 보아야 한다. 빅데이터 운용에 있어 프라이버시 보호를 비용으로 보지 말고, 정보주체의 신뢰를 얻는 경쟁력으로 이해해야 한다.
나아가 프라이버시는 산업으로도 이해해야 한다. ISO/IEC JTC1/SC27, ITU-T/SG17과 같은 국제 표준에서도 프라이버시에 대한 표준을 준비 중에 있다는 것만 보아도 프라이버시 보호는 빅데이터 산업에 있어 중요한 요소가 될 것으로 보인다.
참고로, 최근 독일 리히텐슈타인 지방자치단체는 빅데이터 가이드라인을 제정했는데, ‘Privacy by Design’과 개인정보영향평가(PIA)를 강조하고 있다. 빅데이터 설계 초기부터 프라이버시를 고려한 설계를 하여야 하고, 중요한 단계마다 프라이버시 침해가 없는지 영향평가를 통해 위험성을 제거해야 한다는 것이다.
향후 이 둘은 정보주체의 프라이버시 보호 및 정보주체의 신뢰와 관련하여 빅데이터가 고려해야 하는 중요한 요소가 될 것이라고 생각한다.
* 법무법인 민후 김경환 변호사 작성, 블로그(2014. 12. 8.), 보안뉴스(2014. 11. 18.) 기고.