본문 바로가기

딥러닝 & 머신러닝/논문 리뷰

[논문 리뷰] Descanning: From Scanned to the Original Images with a Color Correction Diffusion Model

반응형
이번 게시물에선 제가 석사과정 동안 진행했던 "Descanning" 연구에 대해 소개합니다.

해당 연구는 AAAI 2024에 채택되었으며, 현재 이를 확장하여 저널 제출을 준비 중입니다. 이 논문은 약 1년 반 동안 실험, 분석, 작성의 과정을 거쳤습니다. 그 과정에서 논문 내용이 대대적으로 수정되기도 하고, 수차례 밤샘 작업, 그리고 3번의 Reject을 겪기도 했습니다. 그러나 끝내 AAAI 2024 게재라는 결실을 맺게 되어 매우 기쁩니다.

 

현재 소스 코드는 깃허브에 정리되어 있으며, 데이터셋과 모델 가중치 파일은 저널 게재가 승인된 이후 공개할 예정입니다.

 

많은 관심 부탁드립니다. 감사합니다!

깃허브: https://github.com/jhcha08/Descanning


Abstract

많은 양의 아날로그 정보, 즉 문서와 이미지가 디지털 세계에서 저장, 공유, 또는 분석을 위해 스캔된 복사본 형태로 디지털화되었습니다. 하지만 이러한 콘텐츠의 품질은 물리적 세계에서 프린트, 저장, 스캔 과정에서 발생하는 다양한 왜곡으로 인해 심각하게 저하됩니다.

 

고품질 콘텐츠를 스캔된 복사본에서 복원하는 것은 많은 제품에서 필수적인 작업이 되었지만, 체계적으로 탐구되지 않았으며, 우리가 아는 한 공개된 데이터셋도 없습니다. 본 논문에서는 이 문제를 Descanning으로 정의하고, DESCAN-18K라는 고품질 대규모 데이터셋을 소개합니다. 이 데이터셋은 야외에서 수집된 18K개의 Original 및 Scanned 이미지 쌍을 포함하고 있으며, 다중의 복잡한 Degradation을 포함합니다.

 

이러한 복잡한 Degradation을 제거하기 위해, 우리는 DescanDiffusion이라는 새로운 Image Restoration 모델을 제안합니다. 이 모델은 Global color distortion을 교정하는 Color Encoder와 Local degradation을 제거하는 Conditional Denoising Diffusion Probabilistic Model (DDPM)로 구성됩니다.

 

또한, DescanDiffusion의 일반화 능력을 향상시키기 위해, 스캔된 이미지에서 두드러지는 Degradation을 재현하여 Synthetic Data Generation 전략을 설계했습니다. 우리는 포괄적인 실험과 분석을 통해 DescanDiffusion이 객관적, 주관적으로 기존 Baseline 및 상용 복원 제품을 능가함을 입증했습니다.

Introduction

지난 몇십 년 동안, 잡지, 책, 사진과 같은 일반적인 종이 기반 자료의 정보는 스캔 과정을 통해 디지털 형태로 저장, 공유, 분석하기 위해 활발히 디지털화되었습니다. 예를 들어, Google은 2002년부터 Project Ocean이라는 코드명 하에 2,500만 권 이상의 책을 스캔하고 디지털화했습니다. 그러나 스캔된 이미지의 품질은 종종 프린트, 저장, 스캔 과정에서 발생하는 왜곡으로 인해 저하됩니다.

 

따라서 원본 정보를 정확히 보존하기 위해서는 이러한 과정을 통해 디지털화된 (스캔된) 복사본에서 발생한 Degradation을 제거해야 합니다. 기술적으로는, 각 스캔된 이미지는 원본 디지털 복사본을 프린트 및 스캔한 후에 얻어진 것이기 때문에, 각 스캔된 버전에 대한 Ground Truth 디지털 복사본이 존재합니다.

 

본 논문에서는 Descanning이라는 새로운 inverse problem을 정의합니다. 즉, 스캔된 복사본에서 원본 디지털 복사본으로 이미지를 복원하는 문제입니다. 구체적으로, 이는 스캔 또는 보존 과정에서 손상된 종이에 물리적으로 인쇄된 정보를 복원하는 것을 의미합니다. 우리는 이러한 과정에서 발생하는 Degradation을 크게 두 가지로 분류합니다:

  1. Color-related Degradation: 색상 변화.
  2. Non-color-related Degradation: 외부 및 내부 노이즈, Halftone Pattern, Texture 왜곡, Bleed-through 효과.

비록 많은 실제 이미지 복원 방법과 데이터셋이 제안되었지만, 현실 세계의 스캔된 이미지에서 존재할 수 있는 다양한 Degradation 혼합에 초점을 맞춘 연구는 거의 없었습니다. 따라서 많은 실제 스캔된 이미지를 확보하고 학습 기반 Descanning 모델을 훈련하기 위해 이러한 Degradation 특성을 체계적으로 조사하는 것이 중요합니다.

 

이 연구에서는 Descanning을 위한 새로운 데이터셋인 DESCAN-18K를 구축합니다. 이 데이터셋은 1024×1024 해상도의 RGB TIFF Original 이미지와, 이를 다양한 스캐너를 사용하여 스캔한 버전의 18,360쌍으로 구성됩니다.

 

DESCAN-18K는 전형적인 스캔된 이미지에서 대표적으로 발견되는 여섯 가지 복잡한 Degradation에 대한 풍부한 정보를 제공합니다. 또한 다양한 자연 풍경과 텍스트를 포함하여 Descanning 작업을 어렵게 하면서도 실용적으로 만듭니다. 이러한 데이터셋의 특성은 일반적으로 단일 (또는 몇 가지) Degradation 유형만 포함하거나 텍스트 또는 그림만 포함하는 기존 복원 관련 데이터셋과 다릅니다.

 

우리는 DESCAN-18K에 대한 통계적 분석을 수행하고 그 안에 존재하는 Degradation을 체계화합니다. 이러한 분석을 기반으로, 원래 DESCAN-18K와 유사한 Degradation을 포함한 추가 학습 데이터 쌍을 합성합니다.

 

최근 Diffusion Model은 low-level vision task를 수행할 수 있는 매우 효과적인 생성적 방법으로 주목받고 있습니다. 그러나 이러한 모델은 Descanning 문제와 같은 다중 Degradation 복원을 위한 연구에서는 아직 탐구되지 않았습니다.

 

이 복잡한 복원 문제를 해결하기 위해, 우리는 DescanDiffusion이라는 새로운 이미지 복원 모델을 제안합니다. 이 모델은 다음과 같은 구성 요소로 이루어져 있습니다:

  1. CNN 기반의 Color Encoder를 통한 Global color correction.
  2. Conditional DDPM을 활용한 Local generative refinement.

우리 연구의 주요 기여점은 다음과 같습니다:

  1. Descanning이라는 새로운 실용적 이미지 복원 문제를 정의하였습니다. 이는 스캔된 이미지에서 복잡한 Degradation을 제거하여 원본 이미지를 복원하는 작업입니다.
  2. Descanning 작업을 위한 대규모 데이터셋인 DESCAN-18K를 구축했습니다. 우리는 DESCAN-18K에 대한 통계적 분석을 수행하고, Original 이미지를 스캔된 이미지로 변환하는 과정에서 발생하는 Degradation 유형을 분석했습니다. 또한, 이 분석을 기반으로 Synthetic Data Generation 전략을 설계했습니다.
  3. DescanDiffusion이라는 새로운 이미지 복원 모델을 제안했습니다. 이 모델은 Global color correction을 위한 CNN 기반의 Color Encoder와, 다중 Degradation을 다루기 위해 설계된 Conditional DDPM으로 구성됩니다.
  4. DescanDiffusion의 효과를 보여주는 다양한 실험 및 분석 결과도 제공합니다. 여기에는 미리 본 적 없는 유형의 스캐너에 대한 결과와 상용 제품과의 비교도 포함됩니다. DescanDiffusion은 다른 Baseline보다 우수한 성능을 보여주며 새로운 시나리오에도 잘 일반화되는 것으로 나타났습니다.

Related Works

Image Restoration with Single Degradation

대부분의 이미지 복원 연구는 단일 Color-related Degradation (CD) 또는 Non-color-related Degradation (NCD)를 다룹니다. 예를 들어:

  • CD: 색상 페이딩 또는 채도 문제를 해결하기 위한 CNN 및 Vision Transformer 기반 모델.
  • NCD: 노이즈 제거, 초해상도(Super-Resolution), 또는 블러 제거를 목표로 한 모델.

이러한 모델들은 단일 유형 (예: 블러, 노이즈 등) 의 Degradation이 존재할 때 뛰어난 성능을 보여줍니다. 그러나 여러 CD와 NCD가 동시에 존재하는 경우에도 동일한 성능을 보장할 수 있을지는 불확실합니다.


특히 Descanning 문제에서, 스캔된 이미지는 스캐닝, 프린팅 등 디지털 처리 단계로 인해 높은 불확실성과 다양성을 지닌 복잡한 CD 및 NCD를 포함합니다. 따라서 기존 방법을 직접 적용하면 성능이 저하될 수 있으며, Descanning을 위해 보다 전용적인 모델이 필요합니다.

Real-world Photo Restoration

여러 연구에서 현실 세계의 사진 복원을 다루어 왔습니다. 예를 들어:

  • 오래된 사진 복원을 위해 다양한 Degradation (예: 스크래치, 먼지 등) 을 처리하는 모델.
  • 스마트폰으로 스캔된 이미지를 Semi-supervised 방식으로 복원하는 모델.
  • 특정 Degradation (예: Demoiréing) 문제를 해결하는 모델.

그러나 스캔된 이미지의 경우 Halftone Pattern 및 Bleed-through Effect와 같은 특수한 NCD를 제대로 처리할 수 없는 경우가 많습니다.

 

기존의 전통적인 이미지 처리 기반 방법들은 스캔 "문서" 복원 (예: 어두운 경계 제거, 스캔 음영 제거 등) 에 초점을 맞추었으나, 이러한 방법은 주로 책의 페이지 곡률이나 책등 (Spine) 과 같은 기하학적 오정렬 문제에 한정됩니다. 이는 텍스트와 사진을 포함하는, 복잡한 Degradation을 포괄적으로 제거하려는 우리의 목표와 다릅니다.

 

따라서 Descanning 문제를 포괄적으로 해결하기 위해, 우리는 다양한 스캐너로부터 수집한 실제 스캔된 이미지와 원본 데이터를 포함하는 대규모 데이터셋을 구축하고, 이러한 스캔 이미지의 특성에 맞게 설계된 Descanning 모델을 제안합니다.

Diffusion Models for Image Restoration

최근 Diffusion Model은 뛰어난 생성 성능으로 다양한 분야 (예: 텍스트-이미지 생성, 자연어 처리, 시각 응용) 에서 활발히 활용되고 있습니다. 또한, 몇 가지 Diffusion Model이 이미지 복원을 위해 개발되었습니다. (예: 초해상도 (Super Resolution), 블러 제거 (Deblurring), 인페인팅 (Inpainting) 등)

 

그러나 Descanning 문제와 같이 여러 Degradation을 동시에 제거하기 위해 Diffusion Model을 탐구한 연구는 거의 없습니다. 본 연구에서는 Diffusion Model, 특히 Conditional DDPM의 복원 능력과 일반화 능력을 활용한, DescanDiffusion을 제안합니다.

 

우리는 Vanilla DDPM을 Descanning에 단순히 적용하면 원본 이미지의 색상 분포에서 벗어나는 문제가 발생할 수 있음을 발견했습니다. 이를 해결하기 위해, CNN 기반의 Color Encoder를 설계하여, 스캔된 이미지의 색상 분포를 원본 이미지에 근접하게 예측 및 교정했고, Color Encoder로부터 추출한 색상 정보를 Diffusion 과정에 명시적으로 제공해, 모델의 복원 과정을 효과적으로 가이드합니다.

Dataset

본 연구에서는 DESCAN-18K라는 대규모 데이터셋을 소개합니다. 이 데이터셋은 18,360쌍의 Original 이미지와 Scanned 이미지로 구성되어 있으며, 해상도는 1024×1024의 RGB TIFF 포맷입니다.

 

11종의 잡지 (출처: Raspberry Pi Foundation) 로부터 수집된 데이터로, 다양한 이미지 및 텍스트 콘텐츠, 색상, 텍스처 등을 포함합니다. 잡지는 몇 일부터 최대 7년까지 보존되었으며, 다양한 유형의 Degradation을 담고 있습니다.

Dataset Processing

각 페이지는 다음과 같은 여러 대중적인 스캐너를 이용하여 스캔되었습니다.

  • Plustek OpticBook 4800
  • Canon imageRUNNER ADVANCE 6265
  • Fuji Xerox ApeosPort C2060
  • Canon imagepress C650

스캔된 이미지는 RGB TIFF 포맷으로 디지털화되었으며, IT 8.7 (ISO 12641) 표준을 준수하여 색상 보정 (calibration) 을 수행했습니다. 이는 스캐너 모델 간의 기술적 차이를 줄이고, 모델이 다양한 스캐너 유형에 일반화되도록 합니다.

 

또한, 스캔된 이미지와 원본 PDF 페이지 간의 불일치 (여백 설정, 구겨진 페이지 등) 를 해결하기 위해 Image Registration을 수행하고, 추가적인 전처리 과정을 거쳤습니다. 순서는 다음과 같습니다.

  1. AKAZE 알고리즘을 사용하여 Image Registration.
  2. 큰 차이가 나는 이미지를 수작업으로 필터링.
  3. 각 이미지를 1024×1024 크기로 랜덤하게 크롭 후 Image Registration 반복.

훈련, 검증, 테스트 세트는 다음과 같이 설정했습니다. 테스트 세트는 훈련과 검증에 사용된 스캐너와 다른 스캐너로 생성되어, 미리 본 적 없는 유형의 스캐너에 대한 일반화 능력을 평가할 수 있습니다.

  • 훈련 세트: Plustek OpticBook 4800과 Canon imageRUNNER ADVANCE 6265로 스캔된 18,000개의 이미지 중 17,640개 사용.
  • 검증 세트: 훈련 세트와 같은 스캐너로 스캔된 이미지 중, 훈련에 사용되지 않은 360개의 이미지 사용.
  • 테스트 세트: Fuji Xerox ApeosPort C2060과 Canon imagepress C650로 스캔된 360개의 이미지 사용.

Dataset Analysis

우리는 DESCAN-18K 데이터셋을 분석하여, 스캔된 이미지에 있는 Degradation을 총 여섯 가지 유형으로 분류했습니다.
각 Degradation 유형은 독립적으로 나타날 수도 있지만, 대부분은 복합적으로 나타납니다.

  1. External Noise:
    프린팅, 스캔, 보존 과정에서 유입된 이물질로 인해 점 또는 국부적 얼룩 형태로 나타남.
  2. Internal Noise:
    스캔 과정에서 생성된 시각적 손상. 주로 구겨지거나 곡선 형태, 또는 선형 레이저 패턴으로 나타남.
  3. Bleed-through Effect:
    종이 뒷면의 내용이 스캔된 이미지에 겹쳐 나타나는 현상. 일반적인 현실 이미지에는 나타나지 않음.
  4. Texture Distortion:
    스캔 과정에서 발생하는 물리적 텍스처 왜곡 또는 주름. 국소적으로 나타나는 External Noise와 달리, 전역적으로 발생하는 경향이 있음.
  5. Halftone Pattern:
    프린팅 과정에서 연속적인 모양을 나타내기 위해, 다양한 크기와 간격으로 인쇄된 색상 점들로 인해 생성됨.
  6. Color Transition:
    스캔 및 보존 과정 중 이미지의 색상이 전역적으로 변형됨. 색상 페이딩 또는 채도 변화가 포함됨.

Synthetic Data Generation

우리는 DESCAN-18K 데이터셋에 대한 분석을 기반으로, 스캔된 이미지에서 관찰되는 Degradation을 시뮬레이션합니다. 구체적인 생성 방법은 다음과 같으며, 위 표에선 Degradation을 합성하기 위해 사용했던 파라미터 세팅을 나타냅니다.

  1. Color Transition: 원본 이미지 HSV 색상 공간을 조정해 생성. (예: 채도를 변경해 색상을 더 어둡거나 밝게 함.)
  2. Bleed-through Effect: 두 개의 원본 이미지를 알파 블렌딩 (Alpha-blending) 하여 생성.
  3. Halftone Pattern 및 Texture Distortion: Gaussian Noise를 적용하여 시뮬레이션.
  4. External Noise 및 Internal Noise: 점 또는 선형 레이저 패턴 형태로 각각 합성.

이러한 방식으로 합성 데이터를 생성해 모델에 추가로 학습시켜, DescanDiffusion이 새로운 스캐너에서 생성된 이미지도 효과적으로 복원할 수 있도록 일반화 성능을 개선했습니다.

 

합성 데이터는 DESCAN-18K 훈련 데이터의 일부 원본 이미지를 사용하여 생성되었으며, 생성된 데이터와 실제 스캔 데이터를 25:75 비율로 혼합하여 훈련했습니다. 이러한 비율은 실험적으로 결정되었습니다.

 

이처럼 합성 데이터와 실제 스캔 데이터를 혼합하여 훈련된 모델을 DescanDiffusion+으로 정의했습니다. 해당 모델의 훈련 데이터 중 25%는 합성-원본 쌍이고, 나머지 75%는 스캔-원본 쌍으로 구성되어 있습니다. 반면 DescanDiffusion 모델은 합성 데이터를 포함하지 않고 오직 실제 스캔-원본 쌍만 사용해서 훈련되었습니다.

 

제안하는 합성 데이터 생성 기법은 DESCAN-18K 데이터셋 외에도, 다른 원본 문서 이미지에 적용하여 추가 훈련 데이터를 확장하는 데 활용될 수 있습니다.

Preliminary: DDPM

이 섹션에서는 DescanDiffusion의 중요한 구성 요소인 DDPM에 대해 간략히 소개합니다.

Forward Diffusion Process

주어진 이미지 (데이터 분포에서 샘플링된 데이터) 에 대해, Forward Noising Diffusion Markov Process가 적용됩니다. 이는 다단계 t에서 점진적으로 노이즈를 추가하는 과정으로, 노이즈는 Noise Schedule β에 의해 제어됩니다. 이 과정은 아래와 같이 표현됩니다.

 

여기서, T는 Diffusion Process의 총 단계 수를 나타냅니다. x_0​, x_1, ... , x_T​ 는 잠재 변수 (Latent Variables) 이며, T→∞일 때 x_T는 Gaussian Isotropic Noise에 수렴합니다.

 

Forward Process의 특정 단계 t에서의 Latent Space x_t는 아래 공식을 통해 Closed-form으로로 샘플링할 수 있습니다.

Reverse Diffusion Process

복원을 위해, Reverse Denoising Diffusion Process가 수행됩니다. 이는 q(x_{t-1}|x_t)를 추정하는 과정이며, Neural Network θ로 매개변수화된 Reverse Process p_θ를 학습합니다.

 

여기서 μ_θ(x_t, t)는 추정된 평균, σ_θ(x_t, t)^2 는 추정된 분산입니다. (고정값 β_t로 설정 가능)

Loss Function and Inference

DDPM에서는 μ_ 대신 Neural Network ϵ_θ를 학습해 을 추정합니다. 이때 Loss는 다음과 같이 정의됩니다.

 

Inference 과정은 x_T ​~ N(0, I) 에서 시작합니다. 그 다음 t = T, T−1,…,1 순서로 Latent Variable x_t를 반복적으로 정제합니다. 최종적으로 t = 0에서 깨끗한 출력 x_0를 생성합니다.

Proposed Method

 

스캔된 이미지에는 복잡한 Degradation이 혼합되어 있어, 다른 이미지 복원 작업보다 Descanning이 더 어려운 문제입니다. 스캔된 이미지의 Degradation을 Color-related Degradation (CD)과 Non-color-related Degradation (NCD)로 분류하여 각각을 효과적으로 처리할 수 있는 새로운 이미지 복원 모델 DescanDiffusion을 설계했습니다. DescanDiffusion은 CD를 처리하는 Global Color Correction Module과, NCD를 처리하는 Local Generative Refinement Module로 구성됩니다.

Global Color Correction with the Color Encoder

 

Global Color Correction Module은 스캔된 이미지 I_에서 원본 이미지 I_의 색상 분포를 예측하고 이를 교정합니다. 즉, CD 제거에 집중합니다. 이 모듈은 그림에 나타난 바와 같이 Color Encoder 를 사용합니다.

  • Color Encoder:
    • CNN 모델인 ResNet-34를 기반으로 구축.
    • 스캔된 이미지 I_를 입력으로 받아 원본 이미지 I_의 색상 분포를 예측.
    • 출력은 v_c = Φ(I_s로, v_는 R,G,B 색상 채널의 평균(μ_) 및 표준 편차(σ_)로 구성된 1x6 차원 벡터.
    • 여기서 k는 각 R, G, B 채널을 의미함.
  • 손실 함수:
    Color Encoder는 L2 손실을 최소화하도록 학습됩니다. 여기서 v_는 원본 이미지 I_의 색상 통계, Θ는 Φ의 학습 가능한 파라미터입니다.
  • 색상 재정규화 (re-normalization):
    예측된 색상 통계를 사용해, 스캔된 이미지 I_s​의 색상 분포를 I_o​의 색상 분포로 재정규화하여, Color-corrected 이미지 I_ 를 만듭니다.

 

Local Generative Refinement with DDPM

 

Local Generative Refinement Diffusion Model (LGRDM)은 Color-corrected 이미지 I_에서 NCD를 제거하고, I_의 로컬 색상 분포를 I_에 더 가깝게 만듭니다.

  • Conditional DDPM 구조:
    • DDPM을 기반으로 한 조건부 Denoising 네트워크 ϵ_를 사용.
    • I_와 v_를 조건으로 설정하여, 복원 과정에서 색상 정보와 로컬 디테일을 효과적으로 반영.
  • 조건 설정:
    • : DDPM의 latent variable인 x_와 함께 각 시간 단계 t에서 연결 (concatenation).
    • : 고차원 임베딩 공간으로 투영하여 DDPM의 Timestep 임베딩에 추가.
  • 손실 함수:
    DDPM 네트워크 ϵ_는 아래 손실을 최소화하도록 학습됩니다.

  • 훈련 및 추론:
    • 훈련: Pseudo-code는 Algorithm 1에 요약되어 있으며, I_와 v_가 네트워크의 조건으로 사용됩니다.
    • 추론: Algorithm 2에 따라, 스캔된 이미지 I_에서 시작하여, 역으로 복원 과정을 수행합니다.

Experiments

Experimental Setup

Descanning은 이전에 탐구된 적이 없는 새로운 문제이므로 기존 연구와 직접적인 비교는 어렵습니다. 따라서, 관련 작업을 수행하는 모델들을 다음과 같은 기준으로 광범위하게 평가했습니다:

  1. Image-to-image Translation 모델: Pix2PixHD, CycleGAN
  2. Descanning과 유사 작업을 수행하는 최신 Image Restoration 모델: HDRUNet, Restormer, ESDNet, NAFNet
  3. Real-world Photo Restoration 모델: OPR (Bringing Old Photos Back to Life), DPS (Deep Photo Scan)
  4. 상용 제품: Clear Scan, Adobe Scan, Microsoft Lens
  5. Diffusion 기반 Image Restoration 모델: DDRM

위의 모델들 중 일부는 DESCAN-18K 훈련 세트를 사용하여 다시 학습했으며, OPR과 DPS는 공식 Pre-trained 모델을 사용했습니다. 이는 해당 모델들이 실제 사진 복원에 최적화되었을 것으로 예상했기 때문입니다.

Comparison to Existing Methods

정량적 평가에는 다음 네 가지 성능 지표를 사용했습니다:

  • PSNR (Peak Signal-to-Noise Ratio): 복원된 이미지와 원본 간의 픽셀 단위 유사성 측정. 값이 높을수록 좋음.
  • SSIM (Structural Similarity Index Measure): 구조적 유사성 측정. 값이 높을수록 좋음.
  • LPIPS (Learned Perceptual Image Patch Similarity): 학습된 시각적 품질 측정. 값이 낮을수록 좋음.
  • FID (Fréchet Inception Distance): 생성된 이미지와 원본 이미지의 분포 차이를 평가. 값이 낮을수록 좋음.

 

  • 표 1에서, DescanDiffusion 및 DescanDiffusion+는 모든 지표에서 다른 방법들 (상용 제품 포함) 보다 우수한 성능을 보였습니다.
  • 나아가, 테스트 세트는 훈련에 사용된 스캐너와는 다른 스캐너에서 생성된 이미지로 구성되어 있습니다.
  • 이를 통해 DescanDiffusion의 새로운 스캐너에 대한 일반화 성능을 입증할 수 있습니다.
  • 따라서 어떤 스캐너를 사용하든, 이 모델은 스캔된 이미지를 안정적으로 복원할 수 있습니다.

 

또한, 비교된 모델들에서 Histogram Matching을 통해 색상 보정을 수행한 결과를 추가적으로 평가했습니다.

  • Histogram Matching은 한 이미지의 색상 분포를 다른 이미지의 색상 분포에 적용하는 방법입니다.
  • 즉, Histogram Matching은 CD를 제거하는 데 효과적이며, 실제로 테스트 세트에 적용 후 모델에 입력했을 때 대부분의 방법이 개선된 성능을 보였습니다. (표2)
  • 이는 Descanning에서 Global color correction, 즉 CD 제거 모듈이 중요한 역할을 한다는 것을 강조합니다.

 

DDRM (Denoising Diffusion Restoration Model) 은 최근 제안된 Diffusion 기반 Image Restoration 모델입니다.

  • DDRM은 256×256 해상도로만 동작하기에, DescanDiffusion과의 비교는 동일한 해상도에서 수행했습니다.
  • DescanDiffusion은 DDRM보다 PSNR, SSIM, LPIPS, FID 지표에서 우수한 성능을 보였습니다.

 

위 그림에서 DescanDiffusion과 비교 모델들의 시각적 결과를 확인할 수 있습니다:

  • DescanDiffusion은 텍스트 영역, 자연 장면, 화면 콘텐츠 등에서 NCD와 CD 문제를 거의 완벽히 해결했습니다.
  • 다른 모델들은 이러한 문제를 잘 해결하지 못하거나, 오히려 추가적인 아티팩트를 생성하는 경우도 있었습니다.

Ablation Study

 

DescanDiffusion을 이루는 세 가지 구성 요소의 효과를 분석하기 위해, Ablation Study를 수행했습니다:

  1. Color-corrected Image Condition (CIC):
    • DDPM에 Color-corrected Image를 조건으로 추가하는 것이 성능을 크게 향상시켰습니다.
  2. Color Correction Vector Condition (CVC):
    • Color Correction Vector를 추가함으로써 색상 분포의 일관성을 유지하고 성능이 더욱 향상되었습니다.
  3. Synthetic Data Generation (SDG):
    • 합성 데이터를 추가적으로 사용한 모델은 새로운 스캐너에 대한 일반화 성능이 향상되었습니다.

Inference Time Comparison

  • 모델의 추론 시간은 NVIDIA TESLA V100 GPU에서 측정되었습니다.
  • CNN 또는 Transformer 기반 모델에 비해 Diffusion 기반인 DescanDiffusion의 추론 시간은 더 느렸습니다.
  • 하지만 DescanDiffusion은 훈련 시 순수 노이즈 대신 스캔된 이미지에서 시작하였고, 이는 적은 reverse sampling 단게로 이어져 일반적인 DDPM에 비해 추론 시간을 최대 92%까지 단축할 수 있었습니다.

Experiment on Additional Datasets

 

추가 데이터셋에서 DescanDiffusion의 성능을 평가했습니다:

  1. DPS 데이터셋: 100개의 스마트폰으로 스캔된 이미지.
  2. OPR 데이터셋: 7개의 오래된 사진.
  • 해당 데이터셋들은 Ground Truth 이미지가 없었기에, non-reference metric인 NRQM, NIQE, PI를 사용해 성능을 측정했습니다.
  • DescanDiffusion은 이들 데이터셋에서도 높은 성능을 보였지만, Descanning은 복잡한 NCD와 CD가 혼합된 스캔된 이미지에 초점을 맞추고 있습니다.
  • 해당 실험을 통해, DESCAN-18K는 Descanning 성능을 평가하기에 가장 적합한 데이터셋임이 확인되었습니다.

Conclusion

스캔된 이미지를 복원하는 것은 방대한 스캔 콘텐츠의 양 때문에 디지털 세계에서 매우 중요합니다. 저희가 아는 한, 이 문제를 Descanning으로 정의한 것은 이번이 처음입니다.

 

이 문제를 해결하기 위해 스캔된 이미지와 원본 이미지의 쌍을 포함하는 새로운 대규모 데이터셋 DESCAN-18K를 소개합니다. 또한 DESCAN-18K의 열화 유형을 두 가지 범주로 분류하여 CD와 NCD로 나누었습니다.

 

열화 유형에 대한 분석을 기반으로, Global Color Correction을 위한 CNN 기반의 color encoder와 Local Generative Refinement를 위한 conditional DDPM 기반의 DescanDiffusion이라는 새로운 이미지 복원 모델을 제안합니다.

 

이 새로운 데이터셋과 전용 모델 덕분에, DescanDiffusion은 복원된 이미지의 시각적 품질 측면에서 뛰어난 성능을 발휘합니다. 저희의 작업은 복잡하고 다양한 열화 문제를 처리하기 위한 분석 및 효과적인 아키텍처 설계 전략을 제시하며, 이 분야의 새로운 가능성을 열었다고 믿습니다.

 

마지막으로, 제안된 모델을 OCR 같은 하위 작업에 적용하거나, 제안된 데이터셋을 활용해 새로운 실세계 이미지 복원 모델을 평가하는 것도 중요한 미래 방향이 될 수 있습니다.

반응형