AI 뉴스허브

JPEG 압축을 사용하여 신경망 훈련 개선

JPEG 압축을 사용하여 신경망 훈련 개선

JPEG 압축을 사용하여 신경망 훈련 개선

캐나다의 새로운 연구 논문에서는 신경망의 훈련 계획에 JPEG 압축을 의도적으로 도입하여 더 나은 결과를 얻고 적의 공격에 더 잘 저항할 수 있는 프레임워크를 제안했습니다.

이것은 상당히 급진적인 아이디어입니다. 왜냐하면 기계 학습이 아닌 사람의 보기에 최적화된 JPEG 아티팩트가 일반적으로 JPEG 데이터에 대해 훈련된 신경망에 해로운 영향을 미친다는 것이 현재 일반적인 통념이기 때문입니다.

서로 다른 손실 값으로 압축된 JPEG 이미지 간의 선명도 차이에 대한 예입니다(손실이 높을수록 파일 크기가 작아지지만 다른 유형의 아티팩트 중에서 색상 그라데이션에 대한 묘사 및 밴딩이 희생됩니다). 출처: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

메릴랜드 대학교와 Facebook AI의 2022년 보고서 주장하다 JPEG 압축은 신경망 훈련에서 ‘상당한 성능 저하’를 초래합니다. 이전 작업 신경망은 이미지 압축 인공물에 상대적으로 탄력적이라고 ​​주장했습니다.

1년 전, 문헌에 새로운 생각이 등장했습니다. JPEG 압축은 실제로 활용 가능 모델 학습의 결과를 개선합니다.

그러나 해당 논문의 저자는 다양한 품질 수준의 JPEG 이미지 훈련에서 향상된 결과를 얻을 수 있었지만 그들이 제안한 모델은 너무 복잡하고 부담스러워서 실용적이지 않았습니다. 또한 시스템에서는 기본 JPEG 최적화 설정(양자화) 훈련 효능에 대한 장벽이 입증되었습니다.

이후 프로젝트(2023년 DNN Vision을 위한 JPEG 호환 압축)는 JPEG 압축 교육 이미지에서 약간 더 나은 결과를 얻은 시스템을 실험했습니다. 심층 신경망(DNN) 모델. 그러나 훈련 중에 모델의 일부를 동결하면 모델의 다양성과 새로운 데이터에 대한 탄력성이 감소하는 경향이 있습니다.

JPEG-DL

대신, 새로운 일제목 JPEG에서 영감을 받은 딥 러닝는 기존 모델에 적용할 수도 있는 훨씬 간단한 아키텍처를 제공합니다.

워털루 대학교 연구진은 다음과 같이 말합니다.

‘결과에 따르면 JPEG-DL은 모델 복잡성이 미미하게 증가하면서 다양한 DNN 아키텍처에서 표준 DL보다 훨씬 더 일관되게 성능이 뛰어납니다.

특히 JPEG-DL은 일부 세분화된 분류 데이터 세트에서 분류 정확도를 최대 20.9% 향상시키는 동시에 DL 파이프라인에 훈련 가능한 매개변수 128개만 추가합니다. 더욱이, 표준 DL에 비해 JPEG-DL의 우월성은 학습된 모델의 강화된 적대적 견고성과 입력 이미지의 파일 크기 감소로 더욱 입증됩니다.’

저자는 최적의 JPEG 압축 품질 수준이 신경망이 이미지의 중심 주제를 구별하는 데 도움이 될 수 있다고 주장합니다. 아래 예에서는 신경망에서 특징을 얻을 때 새를 배경에 혼합하는 기본 결과(왼쪽)를 볼 수 있습니다. 이에 비해 JPEG-DL(오른쪽)은 사진의 피사체를 구별하고 묘사하는 데 성공합니다.

JPEG-DL의 기본 방법에 대해 테스트합니다. 출처: https://arxiv.org/pdf/2410.07081

‘이런 현상’ 그들은 설명한다, ‘에서는 “압축 지원”이라고 합니다. [2021] 논문은 압축이 잡음과 방해가 되는 배경 특징을 제거하여 이미지의 주요 개체를 강조하여 DNN이 더 나은 예측을 할 수 있다는 사실로 정당화됩니다.’

방법

JPEG-DL은 미분 가능을 도입합니다. 소프트 양자화기이는 표준 JPEG 최적화 루틴의 미분 불가능한 양자화 연산을 대체합니다.

이는 다음을 허용합니다. 그라데이션 기반 이미지 최적화. 이는 기존 JPEG 인코딩에서는 불가능합니다. 균일 양자화기 가장 가까운 계수에 가까운 반올림 연산을 사용합니다.

JPEG-DL 스키마의 차별화 가능성은 훈련 모델의 매개변수와 JPEG 양자화(압축 수준) 모두의 공동 최적화를 허용합니다. 공동 최적화는 모델과 훈련 데이터가 서로 수용되는 것을 의미합니다. 엔드투엔드 프로세스가 필요하지 않으며 레이어를 동결할 필요가 없습니다.

기본적으로 시스템은 일반화 프로세스의 논리에 맞게 (원시) 데이터 세트의 JPEG 압축을 사용자 정의합니다.

JPEG-DL의 개념적 스키마.

원시 데이터가 교육을 위한 이상적인 자료라고 가정할 수도 있습니다. 결국 이미지는 일괄적으로 실행될 때 적절한 전체 길이 색상 공간으로 완전히 압축 해제됩니다. 그렇다면 원본 형식은 어떤 차이가 있나요?

글쎄요, JPEG 압축은 인간이 볼 수 있도록 최적화되어 있기 때문에 이러한 목표에 부합하는 방식으로 세부적인 영역이나 색상을 버립니다. 푸른 하늘 아래 호수 사진이 주어지면 ‘필수적인’ 세부 정보가 포함되어 있지 않기 때문에 하늘에 더 높은 수준의 압축이 적용됩니다.

반면에 신경망에는 중심 주제에 집중할 수 있는 편심 필터가 부족합니다. 대신, 하늘에 있는 모든 밴딩 인공물을 해당 데이터에 동화할 유효한 데이터로 간주할 가능성이 높습니다. 잠재 공간.

인간은 하늘의 밴딩을 무시하지만 심하게 압축된 이미지(왼쪽)에서 신경망은 이 콘텐츠를 버려야 한다는 사실을 전혀 인식하지 못하며 더 높은 품질의 이미지가 필요합니다(오른쪽). 출처: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

따라서 JPEG 압축의 한 수준은 매우 구체적인 도메인을 나타내지 않는 한 훈련 데이터세트의 전체 콘텐츠에 적합하지 않습니다. 예를 들어 군중 사진은 초점이 좁은 새 사진보다 압축률이 훨씬 낮습니다.

저자는 양자화의 어려움에 익숙하지 않지만 양자화의 기본에는 익숙한 사람들을 관찰합니다. 변압기 아키텍처는 이러한 프로세스를 다음과 같이 간주할 수 있습니다. ‘주의조작’광범위하게.

데이터 및 테스트

JPEG-DL은 변환기 기반 아키텍처에 대해 평가되었으며 컨벌루션 신경망 (CNN). 사용된 아키텍처는 다음과 같습니다. 효율적Former-L1; 레스넷; VGG; 모바일넷; 그리고 ShuffleNet.

사용된 ResNet 버전은 얼마나 많이 데이터 세트: ResNet32, ResNet56 및 ResNet110. VGG 기반 테스트를 위해 VGG8 및 VGG13이 선택되었습니다.

CNN의 경우 훈련 방법론은 2020년 작업에서 파생되었습니다. 대조 표현 증류 (CRD). EfficientFormer-L1(변압기 기반)의 경우 2023년 나들이 훈련 방법 더 큰 모델로 모델 초기화 사용되었습니다.

테스트에 포함된 세분화된 작업에는 4개의 데이터 세트가 사용되었습니다. 스탠포드 개; 옥스퍼드 대학교의 월경; CUB-200-2011 (CalTech Birds); 그리고 애완동물 (‘고양이와 개’옥스포드 대학교와 인도 하이데라바드 간의 협력).

CNN의 세분화된 작업을 위해 저자는 다음을 사용했습니다. PreAct ResNet-18 그리고 DenseNet-BC. EfficientFormer-L1의 경우 앞서 언급한 방법론은 더 큰 모델로 모델 초기화 사용되었습니다.

CIFAR-100 및 세분화된 작업 전반에 걸쳐 다양한 규모의 이산 코사인 변환 JPEG 압축 방식의 (DCT) 주파수는 다음과 같이 처리되었습니다. 아담 옵티마이저는 이를 적응시키기 위해 학습률 테스트된 모델 전체의 JPEG 레이어에 대한 것입니다.

테스트 중 ImageNet-1K모든 실험에서 저자는 PyTorch를 사용했습니다. 스퀴즈넷ResNet-18 및 ResNet-34를 핵심 모델로 사용합니다.

JPEG 레이어 최적화 평가를 위해 연구원들은 다음을 사용했습니다. 확률적 경사하강법 (SGD)를 사용하면 더욱 안정적인 성능을 얻을 수 있습니다. 그러나 ImageNet-1K 테스트의 경우 2019년 논문의 방법은 학습된 단계 크기 양자화 고용되었습니다.

CIFAR-100의 기준선과 JPEG-DL에 대한 검증 정확도가 상위 1위 이상이며 표준 및 평균 편차는 3회 실행에 대한 평균입니다. 아래에서는 다양한 모델 아키텍처에 걸쳐 다양한 세분화된 이미지 분류 작업에 대한 상위 1개 검증 정확도가 다시 3회 통과의 평균을 얻었습니다.

위에 설명된 초기 결과에 대해 논평하면서 저자는 다음과 같이 말합니다.

‘CIFAR-100에 대해 테스트된 7개 모델 모두에서 JPEG-DL은 상위 1위 정확도에서 최대 1.53%의 이득을 얻으며 지속적으로 개선을 제공합니다. 세분화된 작업에서 JPEG-DL은 두 가지 다른 모델을 사용하는 모든 데이터세트에서 최대 20.90%까지 향상된 성능을 제공하여 상당한 성능 향상을 제공합니다.’

ImageNet-1K 테스트 결과는 다음과 같습니다.

다양한 프레임워크 전반에 걸쳐 ImageNet에 대한 상위 1개 검증 정확도 결과입니다.

여기 논문에는 다음과 같이 명시되어 있습니다.

‘복잡성이 약간 증가하면(128개의 매개변수 추가) JPEG-DL은 단일 라운드를 사용하여 기준선과 비교하여 SqueezeNetV1.1의 상위 1 정확도에서 0.31%의 이득을 달성합니다. [quantization] 작업.

‘양자화 라운드 수를 5로 늘림으로써 우리는 0.20%의 추가 개선을 관찰했으며, 이는 기준선에 비해 총 0.51%의 이득을 가져옵니다.’

연구원들은 또한 해킹된 데이터를 사용하여 시스템을 테스트했습니다. 적의 공격 구혼 빠른 그라데이션 부호 있는 방법 (FGSM) 및 투영된 경사하강법 (PGD).

공격은 다음 두 가지 모델에서 CIFAR-100을 대상으로 수행되었습니다.

두 가지 표준 적대적 공격 프레임워크에 대한 JPEG-DL 테스트 결과입니다.

저자는 다음과 같이 말합니다.

‘[The] JPEG-DL 모델은 표준 DNN 모델에 비해 적대적 견고성을 크게 향상시켜 FGSM의 경우 최대 15%, PGD의 경우 최대 6% 향상됩니다.’

또한 기사 앞부분에서 설명했듯이 저자는 다음을 사용하여 추출된 특징 맵을 비교했습니다. GradCAM++ – 안녕할 수 있는 프레임워크 시각적인 방식으로 특징을 추출합니다.

추출된 특징이 강조 표시된 기준선 및 JPEG-DL 이미지 분류를 위한 GradCAM++ 그림입니다.

논문에서는 JPEG-DL이 향상된 결과를 제공하며 어떤 경우에는 기준선에서 식별하지 못한 이미지를 분류할 수도 있었다고 기록했습니다. 새가 등장하는 이전 그림 이미지에 대해 저자는 다음과 같이 말합니다.

‘[It] JPEG-DL 모델의 특징 맵은 기본 모델에 의해 생성된 특징 맵에 비해 전경 정보(새)와 배경 사이의 대비가 훨씬 더 우수하다는 것이 분명합니다.

특히 JPEG-DL 기능 맵의 전경 개체는 잘 정의된 윤곽선으로 둘러싸여 있어 배경과 시각적으로 구별할 수 있습니다.

‘반대로 기본 모델의 특징 맵은 전경이 낮은 주파수에서 더 높은 에너지를 포함하여 배경과 더 부드럽게 혼합되는 혼합 구조를 보여줍니다.’

결론

JPEG-DL은 원시 데이터를 사용할 수 있는 상황에서 사용하기 위한 것입니다. 그러나 이 프로젝트에 포함된 일부 원칙이 콘텐츠의 품질이 낮을 수 있는 기존 데이터 세트 교육에 적용될 수 있는지 확인하는 것이 가장 흥미로울 것입니다. 인터넷에서 스크랩한 하이퍼스케일 데이터세트에서 자주 발생합니다.

현재로서는 이는 주로 주석 문제로 남아 있지만 교통 기반 영상 인식그리고 다른 곳.

2024년 10월 10일 목요일 첫 게시

게시물 JPEG 압축을 사용하여 신경망 훈련 개선 처음 등장한 Unite.AI.

Exit mobile version