약간 변경된 새로운 버전의 게임을 플레이한다고 상상해 보세요. GeoGuessr. 당신은 평범한 미국 주택의 사진을 보게 될 것입니다. 어쩌면 막다른 골목에 앞마당이 있고 앞에 자랑스럽게 성조기가 펄럭이는 2층짜리 주택일 수도 있습니다. 하지만 이 집에는 특별히 특징적인 것이 없으며, 이 집이 어느 주에 있는지, 주인이 어디에서 왔는지 알려주는 것도 없습니다.
마음대로 사용할 수 있는 두 가지 도구가 있습니다. 두뇌와 미국 전역의 무작위 장소를 촬영한 44,416장의 저해상도 조감도 사진 및 관련 위치 데이터입니다. 집을 항공 이미지와 일치시키고 정확하게 찾을 수 있습니까?
나는 확실히 할 수 없었지만 새로운 기계 학습 모델은 아마도 그렇게 할 수 있을 것입니다. 연구원들이 만든 소프트웨어 중국석유대학(중국 동부)데이터베이스를 검색합니다. 원격 감지 거리 이미지(집, 상업용 건물 또는 도로에서 촬영할 수 있는 기타 모든 것)를 데이터베이스의 항공 이미지와 일치시키는 관련 위치 정보가 있는 사진입니다. 다른 시스템도 동일한 작업을 수행할 수 있지만 이 시스템은 다른 시스템에 비해 크기가 작고 매우 정확합니다.
최상의 상태에서는(180도 시야각을 가진 사진을 마주했을 때) 위치를 좁히는 첫 번째 단계에서 최대 97%의 성공률을 보입니다. 이는 비교할 수 있는 다른 모든 모델보다 낫거나 2% 이내입니다. 이상적이지 않은 조건에서도 많은 경쟁사보다 더 나은 성능을 발휘합니다. 정확한 위치를 찾아낼 때 정확도는 82%로 다른 모델보다 3점 이내입니다.
하지만 이 모델은 속도와 메모리 절약 측면에서 참신합니다. 연구원들에 따르면 비슷한 제품보다 최소 2배 빠르며 필요한 메모리의 1/3도 사용하지 않습니다. 이러한 조합을 통해 내비게이션 시스템 및 방위 산업 분야의 응용 분야에 가치가 있습니다.
“우리는 관점의 표면적인 차이를 무시하고 두 관점 모두에서 동일한 ‘핵심 랜드마크’를 추출하여 이를 간단한 공유 언어로 변환하는 데 집중하도록 AI를 교육합니다.”라고 설명합니다. 펭 렌중국석유대학교(중국 동부)에서 기계 학습 및 신호 처리 알고리즘을 개발하고 있습니다.
이 소프트웨어는 심층 크로스뷰 해싱(deep cross-view hashing)이라는 방법을 사용합니다. 스트리트 뷰 사진의 각 픽셀을 거대한 조감도 데이터베이스의 모든 단일 이미지와 비교하는 대신 이 방법은 해싱을 사용합니다. 이는 데이터 모음(이 경우 거리 수준 및 항공 사진)을 데이터에 고유한 일련의 숫자로 변환하는 것을 의미합니다.
이를 위해 중국석유대학교 연구 그룹은 이미지를 작은 단위로 분할하고 조각 사이에서 패턴을 찾는 비전 변환기라는 일종의 딥 러닝 모델을 사용합니다. 모델은 사진에서 높은 건물, 원형 분수 또는 원형 교차로로 식별하도록 훈련된 대상을 찾은 다음 해당 결과를 숫자 문자열로 인코딩할 수 있습니다. ChatGPT는 유사한 아키텍처를 기반으로 하지만 이미지가 아닌 텍스트에서 패턴을 찾습니다. (“GPT”의 “T”는 “변압기”를 의미합니다.)
각 사진을 나타내는 숫자는 지문과 같다고 합니다. 리홍동호주 국립대학교에서 컴퓨터 비전을 전공하고 있습니다. 숫자 코드는 지리적 위치 프로세스를 통해 가능한 일치 항목을 신속하게 좁힐 수 있도록 각 이미지의 고유한 특징을 캡처합니다.
새로운 시스템에서는 주어진 지상 사진과 관련된 코드를 데이터베이스에 있는 모든 항공 이미지의 코드와 비교하여(테스트를 위해 팀은 미국과 호주의 위성 이미지를 사용했습니다) 항공 일치에 가장 가까운 5개의 후보를 산출합니다. 가장 가까운 일치 항목의 지리를 나타내는 데이터는 이상값의 영향을 줄이기 위해 서로 더 가까운 위치에 가중치를 더 두는 기술을 사용하여 평균을 낸 다음 스트리트 뷰 이미지의 예상 위치를 표시합니다.
지리위치에 대한 새로운 메커니즘은 지난 달에 발표되었습니다. 지구과학과 원격 탐사에 관한 IEEE 거래.
빠르고 메모리 효율적
“완전히 새로운 패러다임은 아니지만” 이 논문은 “해당 분야 내에서 분명한 발전을 나타냅니다”라고 Li는 말합니다. 이 문제는 이전에 해결되었기 때문에 세인트루이스에 있는 워싱턴 대학의 컴퓨터 과학자와 같은 일부 전문가들은 네이선 제이콥스그다지 흥분되지 않습니다. “저는 이것이 특별히 획기적인 논문이라고 생각하지 않습니다.”라고 그는 말합니다.
그러나 Li는 Jacobs의 의견에 동의하지 않습니다. 그는 이 접근 방식이 해싱을 사용하여 기존 기술보다 일치하는 이미지를 더 빠르고 메모리 효율적으로 찾을 수 있다는 점에서 혁신적이라고 생각합니다. 단지 35MB만 사용하는 반면, Ren의 팀이 조사한 다음으로 가장 작은 모델에는 약 3배 많은 공간인 104MB가 필요합니다.
연구진은 이 방법이 그 다음으로 빠른 방법보다 두 배 이상 빠르다고 주장했다. 거리 수준 이미지를 미국 항공 사진 데이터 세트와 일치시킬 때 준우승자의 일치 시간은 약 0.005초였습니다. Petroleum 그룹은 약 0.0013초 만에 위치를 찾을 수 있었는데, 이는 거의 4배 더 빠른 속도입니다.
결과적으로 우리의 방법은 기존의 이미지 지리 위치 파악 기술보다 더 효율적이라고 Ren은 말하며 Li는 이러한 주장이 신뢰할 수 있음을 확인합니다. 해싱은 “속도와 간결성을 위한 잘 확립된 경로이며 보고된 결과는 이론적 기대와 일치합니다”라고 Li는 말합니다.
이러한 효율성은 유망해 보이지만 이 방법이 대규모로 작동하려면 더 많은 작업이 필요하다고 Li는 말했습니다. 그룹은 지리적 위치 일치의 견고성에 영향을 미칠 수 있는 계절 변화나 이미지를 차단하는 구름과 같은 현실적인 문제를 완전히 연구하지 않았습니다. 결국 이러한 한계는 더 분산된 위치에서 이미지를 도입함으로써 극복될 수 있다고 Ren은 말합니다.
그럼에도 불구하고 (최고 수준의 GeoGuessr를 넘어서는) 장기 애플리케이션은 지금 고려해 볼 가치가 있다고 전문가들은 말합니다.
Jacobs는 오래된 가족 사진에 자동으로 위치 정보 태그를 지정하는 등 효율적인 이미지 위치 정보를 위한 몇 가지 사소한 용도가 있다고 말합니다. 그러나 더 심각한 측면에서는 내비게이션 시스템이 이와 같은 위치 정보 방법을 활용할 수도 있습니다. 만약에 GPS 자율주행차에서 실패할 경우 위치를 빠르고 정확하게 찾는 또 다른 방법이 유용할 수 있다고 Jacobs는 말합니다. Li는 또한 향후 5년 이내에 비상 대응에 역할을 할 수 있다고 제안했습니다.
국방 시스템에도 응용이 있을 수 있습니다. 파인더국가정보국(Office of the Director of National Intelligence)의 2011년 프로젝트는 정보 분석가가 오버헤드 이미지를 포함한 소스의 참조 데이터를 사용하여 메타데이터가 없는 사진에 대해 최대한 많은 것을 배울 수 있도록 돕기 위한 것이었습니다. 목표는 이 새로운 지리적 위치 방법과 유사한 모델을 사용하여 달성할 수 있습니다.
Jacobs는 국방 애플리케이션을 상황에 맞게 설명합니다. 정부 기관이 메타데이터 없이 테러리스트 훈련 캠프 사진을 보낸 경우 해당 사이트의 위치 정보를 어떻게 빠르고 효율적으로 찾을 수 있습니까? 심층 크로스뷰 해싱이 도움이 될 수 있습니다.