PDF 정보 삭제
- PDF 위에 검은 사각형을 그려도 그 아래 텍스트는 그대로 남아 있는 경우가 많습니다.
- 드래그로 복사하거나 텍스트 추출 도구를 쓰면 가린 글자가 다시 나올 수 있습니다.
- 제대로 지우려면 실제 텍스트 객체를 삭제하거나, 이미지로 변환한 뒤 그 위를 칠해야 합니다.
- 작업 후에는 직접 복사·검색·확대해서 정말 사라졌는지 확인하는 단계가 필요합니다.
검은 칠은 왜 안전하지 않은가
주민번호나 계좌번호를 가리려고 PDF 위에 검은 사각형을 올리는 경우가 흔합니다. 문제는 그 사각형이 글자를 가린 게 아니라 글자 위에 겹쳐 놓인 별개의 도형일 뿐이라는 점입니다. 화면에서는 안 보이지만, 텍스트 데이터는 파일 안에 그대로 살아 있습니다. 2010년대 후반 해외 정부·법원 문서에서 가린 부분이 복사로 새어 나간 사례가 여러 번 보도된 적이 있고, 원리는 지금도 똑같습니다.
가린 글자가 다시 보이는 경로
실제로 어떻게 새는지 알면 대처가 쉬워집니다. 아래 세 가지가 대표적입니다.
| 방법 | 일어나는 일 |
|---|---|
| 드래그 후 복사 | 가린 영역을 마우스로 긁어 붙여넣으면 텍스트가 그대로 나옴 |
| 텍스트 추출 | 도구로 전체 텍스트를 뽑으면 가린 글자도 함께 포함됨 |
| 사각형 이동·삭제 | 편집기에서 검은 도형만 치우면 아래 글자가 드러남 |
실제 텍스트까지 지우는 방법
핵심은 도형으로 덮는 게 아니라 글자 자체를 없애는 것입니다. 전용 PDF 편집기에는 보통 '교정(Redaction)' 기능이 따로 있습니다. 일반 검은 칠과 달리, 지정한 영역의 텍스트·이미지 데이터를 함께 삭제한 뒤 그 자리를 칠합니다. 기능 이름이 도구마다 달라서 '검은 칠'과 '교정'을 구분해서 골라야 합니다. 무료 도구라면 교정 지원 여부를 먼저 확인하는 편이 안전합니다.
이미지로 굳히는 우회법
편집기에 교정 기능이 없을 때 쓰는 방법이 있습니다. 페이지를 이미지로 바꾸면 텍스트 레이어가 사라지므로, 그 이미지 위에 검은 칠을 해도 복사로 글자가 나오지 않습니다. 페이지를 캡처하거나 이미지 PDF 변환 흐름을 거꾸로 활용해 PDF를 그림으로 만든 뒤, 가릴 곳을 칠하고 다시 PDF로 묶는 식입니다. 다만 이미지화하면 글자가 다소 흐려지고 용량이 커질 수 있어, 마무리로 이미지 압축을 한 번 거치면 무난합니다. 반대로 누가 그 이미지에서 글자를 다시 뽑으려 한다면 이미지 텍스트 추출 같은 OCR을 쓸 수 있는데, 칠한 부분은 검게 인식돼 복원되지 않습니다.
놓치기 쉬운 흔적들
가린 글자 말고도 정보가 남는 곳이 있습니다. 문서 속성에는 작성자 이름이나 만든 프로그램이 적혀 있고, 스캔 PDF라면 촬영 기기 정보가 붙기도 합니다. 사진 파일을 다룰 때처럼 EXIF·위치 제거를 챙기는 감각이 PDF에도 필요합니다. 또 여러 문서를 PDF 합치기·나누기로 묶을 때 가리기 전 원본 페이지가 섞여 들어가지 않았는지 봐야 합니다. 서명을 넣어 배포하는 문서라면 교정을 끝낸 뒤 마지막 단계에서 처리하는 편이 순서상 깔끔합니다.
마무리
가렸다는 느낌과 실제로 지워졌다는 사실은 다릅니다. 작업을 마쳤다면 가린 영역을 직접 드래그해 복사해 보고, 글자 검색이 걸리는지, 크게 확대했을 때 흐릿한 흔적이 비치지 않는지 세 번쯤 확인하길 권합니다. 한 번의 검은 칠보다 이 확인 습관이 더 안전합니다.