가우스 스플래팅을 사용한 이미지 편집

Date:

논문 'MiraGe: Gaussian Splatting을 사용한 편집 가능한 2D 이미지'(https://arxiv.org/abs/2410.01521)를 지원하는 데 사용할 수 있는 다양한 소스의 이미지 몽타주

폴란드와 영국 연구자 간의 새로운 협력은 다음과 같은 활용 가능성을 제시합니다. 가우스 스플래팅 이미지 편집: 이미지의 선택된 부분을 일시적으로 3D 공간으로 해석하여 사용자가 이미지의 3D 표현을 수정 및 조작한 다음 변환을 적용할 수 있습니다.

고양이 머리의 방향을 변경하기 위해 Gaussian Splatting을 통해 해당 단면을 3D 공간으로 이동시킨 후 사용자가 조작합니다. 그런 다음 수정 사항이 적용됩니다. 이 프로세스는 현재의 복잡한 프로세스가 완료될 때까지 인터페이스를 잠그는 Adobe 소프트웨어의 다양한 모달 기술과 유사합니다. 출처: https://github.com/waczjoan/MiraGe/

고양이 머리의 방향을 변경하기 위해 Gaussian Splatting을 통해 해당 단면을 3D 공간으로 이동시킨 후 사용자가 조작합니다. 그런 다음 수정 사항이 적용됩니다. 이 프로세스는 현재의 복잡한 프로세스가 완료될 때까지 인터페이스를 잠그는 Adobe 소프트웨어의 다양한 모달 기술과 유사합니다. 출처: https://github.com/waczjoan/MiraGe/

Gaussian Splat 요소는 일시적으로 삼각형 메쉬로 표현되고 일시적으로 ‘CGI 상태’로 전환되므로 프로세스에 통합된 물리 엔진은 자연스러운 움직임을 해석하여 객체의 정적 상태를 변경하거나 애니메이션을 생성할 수 있습니다. .

새로운 MiraGe 시스템에 통합된 물리 엔진은 애니메이션이나 이미지의 정적 변경을 위해 물리적 움직임을 자연스럽게 해석할 수 있습니다.

새로운 MiraGe 시스템에 통합된 물리 엔진은 애니메이션이나 이미지의 정적 변경을 위해 물리적 움직임을 자연스럽게 해석할 수 있습니다.

이 프로세스에는 생성적 AI가 포함되지 않습니다. 잠재 확산 모델 (LDM)은 Adobe와 달리 관련되어 있습니다. 반딧불 시스템Adobe Stock(이전의 Fotolia)에서 교육을 받았습니다.

시스템 – 호출 신기루 – 선택 사항을 3D 공간으로 해석하고 거울 이미지 Splat에 구현될 수 있는 대략적인 3D 좌표와 이미지를 메시로 해석합니다.

재생하려면 클릭하세요. MiraGe 시스템 사용자가 수동으로 변경했거나 물리 기반 변형이 적용된 요소의 추가 예입니다.

저자는 MiraGe 시스템을 이전 접근 방식과 비교한 결과 대상 작업에서 최첨단 성능을 달성한다는 사실을 발견했습니다.

zBrush 모델링 시스템 사용자는 이 프로세스에 익숙할 것입니다. 왜냐하면 zBrush를 사용하면 사용자는 기본적으로 3D 모델을 ‘평면화’ 2D 세부 사항을 추가하는 동시에 기본 메시를 유지하고 새로운 세부 사항을 해석합니다. 이는 MiraGe 방법과 반대되는 ‘동결’입니다. 이는 Firefly나 뒤틀기 또는 조잡한 작업과 같은 기타 Photoshop 스타일 모달 조작과 유사하게 작동합니다. 3D 해석.

매개변수화된 가우스 스플랫(Gaussian Splats)을 통해 MiraGe는 2D 이미지의 선택된 영역을 고품질로 재구성하고 일시적인 3D 선택 항목에 연체 물리학을 적용할 수 있습니다.

매개변수화된 가우스 스플랫(Gaussian Splats)을 통해 MiraGe는 2D 이미지의 선택된 영역을 고품질로 재구성하고 일시적인 3D 선택 항목에 연체 물리학을 적용할 수 있습니다.

논문에는 다음과 같이 명시되어 있습니다.

‘[We] 인간의 해석을 시뮬레이션하여 2D 이미지를 인코딩하는 모델을 소개합니다. 구체적으로, 우리 모델은 인간이 사진이나 종이를 보는 것처럼 2D 이미지를 인식하여 3D 공간 내에서 평평한 물체로 처리합니다.

‘이러한 접근 방식을 통해 직관적이고 유연한 이미지 편집이 가능하며 복잡한 변형을 가능하게 하면서 인간 인식의 미묘한 차이를 포착할 수 있습니다.’

그만큼 새 종이 제목이 붙어있다 MiraGe: 가우스 스플래팅을 사용하여 편집 가능한 2D 이미지크라쿠프의 Jagiellonian University와 Cambridge University의 4명의 저자가 작성했습니다. 시스템의 전체 코드는 다음과 같습니다. GitHub에서 출시됨.

연구자들이 이 문제를 어떻게 해결했는지 살펴보겠습니다.

방법

MiraGe 접근 방식은 가우스 메시 스플래팅 (GaMeS) 매개변수화는 새 논문의 저자 두 명을 포함하는 그룹이 개발한 기술입니다. GaMeS를 사용하면 Gaussian Splats를 전통적인 CGI 메시로 해석하고 CGI 커뮤니티가 지난 수십 년 동안 개발한 표준 범위의 뒤틀기 및 수정 기술을 적용할 수 있습니다.

MiraGe는 2D 공간에서 ‘평평한’ 가우스를 해석하고 GaMeS를 사용하여 일시적으로 콘텐츠를 GSplat 지원 3D 공간으로 ‘가져옵니다’.

각 평면 가우스는 '삼각형 수프'라고 불리는 삼각형 구름의 세 점으로 표현되어 추론된 이미지를 조작할 수 있습니다. 출처: https://arxiv.org/pdf/2410.01521

각각의 평면 가우스는 ‘삼각형 수프’라고 불리는 삼각형 구름의 세 점으로 표현되어 추론된 이미지를 조작할 수 있습니다. 출처: https://arxiv.org/pdf/2410.01521

위 이미지의 왼쪽 하단에서 MiraGe가 해석할 이미지 섹션의 ‘거울’ 이미지를 생성하는 것을 볼 수 있습니다.

저자는 다음과 같이 말합니다.

‘[We] Y축을 따라 배치되고 원점을 중심으로 대칭으로 정렬되고 서로를 향하는 두 대의 카메라를 활용하는 새로운 접근 방식을 사용합니다. 첫 번째 카메라는 원본 이미지를 재구성하는 임무를 맡고, 두 번째 카메라는 거울 반사를 모델링합니다.

따라서 사진은 3D 공간적 맥락에 포함된 반투명 트레이싱 페이퍼 시트로 개념화됩니다. 반사는 수평으로 뒤집어서 효과적으로 표현할 수 있습니다. [image]. 이 미러 카메라 설정은 생성된 반사의 충실도를 향상시켜 시각적 요소를 정확하게 캡처할 수 있는 강력한 솔루션을 제공합니다.’

이 추출이 완료되면 일반적으로 어려울 수 있는 원근 조정이 3D에서 직접 편집을 통해 액세스할 수 있게 된다고 논문에서는 지적합니다. 아래 예에서는 팔만 포함하는 여성의 이미지 선택을 볼 수 있습니다. 이 경우 사용자는 그럴듯한 방식으로 손을 아래쪽으로 기울였습니다. 이는 단순히 픽셀을 밀어서 어려운 작업이 될 것입니다.

MiraGe 편집 기술의 예

MiraGe 편집 기술의 예.

Photoshop에서 Firefly 생성 도구를 사용하여 이를 시도하면 일반적으로 손이 합성된 확산 상상의 손으로 대체되어 편집의 진정성이 손상됩니다. 다음과 같은 보다 뛰어난 성능을 갖춘 시스템조차도 컨트롤넷 안정 확산 및 기타 잠재 확산 모델을 위한 보조 시스템, 플럭스와 같은이미지 간 파이프라인에서 이러한 종류의 편집을 달성하는 데 어려움을 겪고 있습니다.

이 특정 추구는 다음과 같은 INR(암시적 신경 표현)을 사용하는 방법에 의해 지배되었습니다. 사이렌 그리고 철사. 암시적 표현 방법과 명시적 표현 방법의 차이점은 모델의 좌표가 INR에서 직접 주소 지정될 수 없다는 것입니다. 연속 기능.

대조적으로 Gaussian Splatting은 명시적이고 주소 지정이 가능한 X/Y/Z를 제공합니다. 데카르트 좌표가우시안 타원을 사용하더라도 복셀 또는 3D 공간에서 콘텐츠를 묘사하는 다른 방법.

2D 공간에서 GSplat을 사용한다는 아이디어는 2024년 중국 학술 협력에서 가장 두드러지게 제시되었다고 저자는 지적합니다. 가우스 이미지2D 버전의 Gaussian Splatting을 제공하여 1000fps의 추론 프레임 속도를 지원합니다. 하지만 이 모델에는 이미지 편집과 관련된 구현이 없습니다.

GaMeS 매개변수화를 통해 선택한 영역을 가우스/메시 표현으로 추출한 후, 처음에 설명된 MPM(Material Points Method) 기술을 사용하여 이미지가 재구성됩니다. 2018 CSAIL 논문.

MiraGe에서는 변경 과정에서 Gaussian Splat이 동등한 메시 버전에 대한 안내 프록시로 존재합니다. 3DMM CGI 모델 ~이다 자주 사용되는 NeRF(Neural Radiance Fields)와 같은 암시적 신경 렌더링 기술을 위한 조정 방법으로 사용됩니다.

이 과정에서 2차원 객체는 3D 공간에서 모델링되고 영향을 받지 않는 이미지 부분은 최종 사용자에게 표시되지 않으므로 프로세스가 끝날 때까지 조작의 상황별 효과가 뚜렷하지 않습니다.

MiraGe는 인기 있는 오픈 소스 3D 프로그램에 통합될 수 있습니다. 블렌더지금은 자주 사용되는 AI가 포함된 워크플로우에서 주로 이미지 간 목적으로 사용됩니다.

2D 이미지에 묘사된 인물의 팔 움직임을 포함하는 Blender의 MiraGe 워크플로우입니다.

2D 이미지에 묘사된 인물의 팔 움직임을 포함하는 Blender의 MiraGe 워크플로우입니다.

저자는 Gaussian Splatting을 기반으로 한 변형 접근 방식의 두 가지 버전을 제공합니다. 무정형 그리고 석묵.

Amorphous 접근 방식은 GaMeS 방법을 직접 활용하여 추출된 2D 선택 항목이 3D 공간에서 자유롭게 이동할 수 있도록 하는 반면, Graphite 접근 방식은 초기화 및 훈련 중에 가우시안을 2D 공간으로 제한합니다.

연구원들은 비정질 접근 방식이 흑연보다 복잡한 모양을 더 잘 처리할 수 있지만 변형의 가장자리가 이미지의 영향을 받지 않은 부분과 정렬되는 ‘눈물’ 또는 균열 인공물이 더 분명하다는 것을 발견했습니다*.

따라서 그들은 앞서 언급한 ‘거울 이미지’ 시스템을 개발했습니다.

‘[We] Y축을 따라 배치되고 원점을 중심으로 대칭으로 정렬되고 서로를 향하는 두 대의 카메라를 활용하는 새로운 접근 방식을 사용합니다.

‘첫 번째 카메라는 원본 이미지를 재구성하는 임무를 맡고, 두 번째 카메라는 거울 반사를 모델링합니다. 따라서 사진은 3D 공간적 맥락에 포함된 반투명 트레이싱 페이퍼 시트로 개념화됩니다. 반사는 수평으로 뒤집어서 효과적으로 표현할 수 있습니다. [image].

‘이 미러 카메라 설정은 생성된 반사의 충실도를 향상시켜 시각적 요소를 정확하게 캡처할 수 있는 강력한 솔루션을 제공합니다.’

논문에서는 MiraGe가 다음과 같은 외부 물리 엔진을 사용할 수 있다고 지적합니다. 블렌더에서 사용 가능또는 타이치_엘리먼츠.

데이터 및 테스트

MiraGe에 대해 수행된 테스트의 이미지 품질 평가를 위해 신호 대 잡음비 (SNR) 및 MS-SIM 지표가 사용되었습니다.

사용된 데이터세트는 Kodak 무손실 트루 컬러 이미지 제품군그리고 DIV2K 확인 세트. 이러한 데이터 세트의 해상도는 가장 가까운 이전 작업인 Gaussian Image와의 비교에 적합했습니다. 시험된 다른 경쟁 프레임워크로는 SIREN, WIRE, NVIDIA의 즉각적인 신경 그래픽 프리미티브 (I-NGP) 및 NeuRBF.

실험은 NVIDIA GEFORCE RTX 4070 노트북과 NVIDIA RTX 2080에서 진행되었습니다.

MiraGe는 새 논문에 실린 결과에 따라 선택한 이전 프레임워크에 비해 최첨단 결과를 제공합니다.

MiraGe는 새 논문에 실린 결과에 따라 선택한 이전 프레임워크에 비해 최첨단 결과를 제공합니다.

이러한 결과에 대해 저자는 다음과 같이 말합니다.

‘우리는 우리 제안이 두 데이터 세트 모두에서 이전 솔루션보다 성능이 뛰어남을 확인했습니다. 두 지표로 측정한 품질은 이전의 모든 접근 방식에 비해 상당한 개선을 보여줍니다.’

결론

MiraGe의 2D Gaussian Splatting 적용은 분명히 입증될 수 있는 초기 단계이자 잠정적인 시도입니다. 이미지를 수정하기 위해 확산 모델을 사용하는 모호함과 변덕에 대한 매우 흥미로운 대안이 될 것입니다(예: Firefly 및 기타 API 기반 확산 방법, Stable Diffusion 및 Flux와 같은 오픈 소스 아키텍처를 통해).

이미지에 작은 변화를 줄 수 있는 확산 모델은 많지만 LDM은 텍스트 기반 사용자 수정 요청에 대한 의미론적 접근 방식과 종종 ‘과도한 상상력’ 접근 방식으로 인해 제한됩니다.

따라서 소스 이미지만 참조로 사용하면서 이미지의 일부를 일시적으로 3D 공간으로 끌어와 조작하고 다시 이미지로 바꾸는 기능은 Gaussian Splatting이 미래에 매우 적합할 수 있는 작업인 것 같습니다.

* 논문에서는 원치 않는 가우시안(가공물)을 생성하는 경향이 있음에도 불구하고 ‘Amorphous-Mirage’를 가장 효과적이고 유능한 방법으로 언급하고 ‘Graphite-Mirage’가 더 유연하다고 주장한다는 점에서 약간의 혼란이 있습니다. Amorphous-Mirage가 가장 좋은 디테일을 얻고 Graphite-Mirage가 가장 좋은 유연성을 얻는 것으로 보입니다. 두 가지 방법 모두 다양한 장단점을 가지고 논문에 제시되어 있으므로 현재로서는 저자의 선호도가 명확하지 않은 것 같습니다.

2024년 10월 3일 목요일 첫 게시

게시물 가우스 스플래팅을 사용한 이미지 편집 처음 등장한 Unite.AI.

Share post:

Subscribe

Popular

More like this
Related

생성 AI 활용: 업계 리더를 위한 대담한 도전과 보상

조직이 AI의 잠재력을 계속 탐구함에 따라 Microsoft 고객은 워크플로를...

식품 안전 분야에서 AI의 필요성 증가

특히 광범위한 조류독감 발생의 영향이 농업 부문 전반에 걸쳐...

12월23일 정부지원사업 신규 공고 리스트 (12건) _ (파일 재가공/재배포 가능)

12월 23일 12건<12/23지원사업 신규 공고 목록> *전 영업일인 12/20에 올라온...

Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...