온라인 광고 부문이기 때문에 추정된 2023 년에 740 억 달러를 지출 한 경우 광고 회사 가이 특정 컴퓨터 비전 연구에 상당한 자원을 투자하는 이유를 이해하기 쉽습니다.
단호하고 보호 적이지만 업계 가끔 게시합니다 얼굴 및 시선 인식에서보다 고급 독점 작업을 암시하는 연구- 연령 인식인구 통계 분석 통계의 중심 :

야생 광고 컨텍스트에서 나이를 추정하는 것은 특정 연령 인구 통계를 목표로하는 광고주에게 관심이 있습니다. 자동 안면 연령 추정 의이 실험 예에서, 연기자 Bob Dylan의 시대는 수년에 걸쳐 추적됩니다. 출처 : https://arxiv.org/pdf/1906.03625
ARXIV와 같은 공개 리포지토리에 거의 나타나지 않는이 연구는 합법적으로 회복 된 참가자를 AI 중심 분석의 기초로 사용하여 어느 정도까지, 그리고 시청자가 광고와 관련이 있는지 결정합니다.

DLIB의 지향 구배 히스토그램 (HOG)은 종종 얼굴 추정 시스템에 사용됩니다. 출처 : https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rrunvyarn
동물 본능
이와 관련하여 당연히 광고 산업은 잘못된 양성 (분석 시스템이 피험자의 행동을 잘못 해석하는 경우)을 결정하고 광고를보고있는 사람이 내용에 완전히 참여하지 않을 때 명확한 기준을 설정하는 데 관심이 있습니다.
스크린 기반 광고에 관한 한, 연구는 두 가지 환경에서 두 가지 문제에 중점을 둔 경향이 있습니다. 환경은 ‘데스크탑’또는 ‘모바일’이며, 각각은 맞춤형 추적 솔루션이 필요한 특정 특성을 가지고 있습니다. 그리고 광고주의 관점에서 문제는 올빼미 행동과 도마뱀 행동 – 시청자가 광고 앞에있는 광고에 전적으로주의를 기울이지 않는 경향.

광고 연구 프로젝트의 주제에서 ‘올빼미’및 ‘도마뱀’행동의 예. 출처 : https://arxiv.org/pdf/1508.04028
보고 있다면 떨어져 있는 머리 전체와의 의도 된 광고에서 이것은 ‘올빼미’행동입니다. 머리 자세가 정적이지만 눈은 방황합니다 화면에서 이것은 ‘도마뱀’행동입니다. 통제 된 조건에서 새로운 광고의 분석 및 테스트 측면에서 시스템이 캡처 할 수있는 필수 조치입니다.
SmartEye의 Implicativa 획득의 새로운 논문은 이러한 문제를 해결하여 여러 기존의 프레임 워크를 활용하여 모든 필수 조건과 가능한 반응에 걸쳐 결합되고 연결된 기능 세트를 제공하는 아키텍처를 제공하며 시청자가 지루하거나 약혼하거나 광고자가 원하는 컨텐츠로부터 멀리 떨어져 있는지 알 수 있습니다.

데스크탑 및 모바일 장치에 대해 별도로 표시되는 다양한주의 산만 신호에 대한 새로운주의 시스템에 의해 감지 된 참 및 잘못된 양성의 예. 출처 : https://arxiv.org/pdf/2504.06237
저자는*:
‘제한된 연구 온라인 광고 중에주의를 모니터링했습니다. 이러한 연구는 전환 된 시선 사례를 식별하기 위해 헤드 포즈 또는 시선 방향을 추정하는 데 중점을 두었지만 장치 유형 (데스크탑 또는 모바일), 화면에 대한 카메라 배치 및 화면 크기와 같은 중요한 매개 변수를 무시합니다. 이러한 요인들은주의 탐지에 큰 영향을 미칩니다.
‘이 논문에서 우리는 오프 스크린, 말하기, 졸음 (하품 및 장기 눈 폐쇄를 통해)을 응시하고 화면을 방해하는 등의 올빼미 및 도마뱀 행동을 포함하여 다양한 산만자를 감지하는주의 탐지를위한 아키텍처를 제안합니다.
‘이전 접근 방식과 달리, 우리의 방법은 장치 유형, 카메라 배치, 스크린 크기 (데스크탑 용) 및 카메라 방향 (모바일 장치)과 같은 장치 별 기능을 원시 시선 추정과 통합하여주의 감지 정확도를 향상시킵니다.’
그만큼 새로운 작품 제목이 있습니다 온라인 광고 중 시청자 관심 모니터링Impitiva의 4 명의 연구원에게서 나왔습니다.
방법 및 데이터
그러한 시스템의 비밀과 폐쇄 소스 특성으로 인해, 새로운 논문은 저자의 접근 방식을 라이벌과 직접 비교하지 않고 오히려 그 발견을 전적으로 절제 연구로 제시합니다. 이 논문은 일반적으로 컴퓨터 비전 문헌의 일반적인 형식을 준수하지 않습니다. 따라서 우리는 연구가 제시된대로 연구를 살펴볼 것입니다.
저자들은 제한된 수의 연구만이 온라인 광고의 맥락에서 특히주의 탐지를 다루었다고 강조했다. 에서 Affdex sdk실시간 멀티 페이스 인식을 제공하는, 관심은 헤드 포즈에서만 유추되며, 헤드 각도가 정의 된 임계 값을 통과하면 참가자가 부주의 한 것으로 표시됩니다.

Affdex SDK의 예인,주의의 지표로서 헤드 포즈에 의존하는 영향력 시스템. 출처 : https://www.youtube.com/watch?v=c2cwb5jhmby
에서 2019 협업 딥 러닝을 사용한 비디오 컨텐츠에 대한 시각적 관심의 자동 측정약 28,000 명의 참가자의 데이터 세트는 쳐다 보는 것,,, 눈을 감고또는 참여 관련없는 활동및 CNN-LSTM 모델은 시간이 지남에 따라 얼굴 모양으로부터의 관심을 감지하도록 훈련되었습니다.

2019 년 논문에서, 비디오 내용을 보는 시청자의 예측 된주의 상태를 보여주는 예를 보여줍니다. 출처 : https://www.jeffcohn.net/wp-content/uploads/2019/07/attention-13.pdf.pdf
그러나 저자들은 이러한 초기 노력이 참가자가 데스크탑 또는 모바일 장치를 사용하고 있는지 여부와 같은 장치 별 요소를 설명하지 못했습니다. 또한 화면 크기 나 카메라 배치를 고려하지도 않았습니다. 또한 Affdex 시스템은 시선 전환을 식별하는 데만 중점을두고 다른 산만의 원인을 생략하는 반면, 2019 년 작업은 더 넓은 행동 세트를 감지하려고 시도하지만 단일 얕은 사용을 시도합니다. CNN 이 논문은이 과제에 부적절했을 수 있습니다.
저자는이 라인에서 가장 인기있는 연구 중 일부가 AD 테스트에 최적화되지 않았으며, 이는 운전이나 교육과 같은 도메인에 비해 다른 요구를 가지고 있으며, 여기서 카메라 배치 및 교정이 일반적으로 미리 고정되어 보석화되지 않은 설정에 의존하고 제한된 시선의 데스크톱 및 모바일 장치 내에서 작동하는 경우에 미리 고정됩니다.
따라서 그들은 온라인 광고 중에 시청자의 관심을 감지하고 두 개의 상용 툴킷을 활용하기위한 아키텍처를 고안했습니다. Affdex 2.0 그리고 SmartEye SDK.

Affdex 2.0의 얼굴 분석의 예. 출처 : https://arxiv.org/pdf/2202.12059
이 이전 작품은 저수준을 추출합니다 특징 얼굴 표정, 헤드 포즈 및 시선 방향과 같은. 그런 다음 이러한 기능은 화면의 시선 위치를 포함하여 더 높은 수준의 지표를 생성하도록 처리됩니다. 입을 크게 벌린; 그리고 말하기.
시스템은 4 가지 산만 유형을 식별합니다. 오프 스크린 시선; 졸음,; 말하기; 그리고 무인 화면. 또한 뷰어가 데스크탑 또는 모바일 장치에 있는지 여부에 따라 시선 분석을 조정합니다.
데이터 세트 : 시선
저자는 4 개의 데이터 세트를 사용하여주의 탐지 시스템을 강화하고 평가했습니다. 세 가지 시선 행동, 말하기 및 하품에 개별적으로 초점을 맞 춥니 다. 산만 유형의 혼합이 포함 된 실제 광고 테스트 세션에서 4 번째로 인출되었습니다.
작업의 특정 요구 사항으로 인해 각 범주에 대해 사용자 정의 데이터 세트가 작성되었습니다. 큐 레이트 된 모든 데이터 세트는 웹 기반 설정을 사용하여 집이나 직장 환경에서 광고를보고있는 수백만 건의 녹음 된 참가자 세션을 갖춘 독점적 인 저장소에서 공급되었으며, 동의서의 동의 계약의 한계로 인해 저자는 새로운 작업에 대한 데이터 세트를 공개적으로 이용할 수 없다고 말합니다.
만들기 위해 시선 데이터 세트에서 참가자들은 가장자리를 포함하여 화면의 다양한 지점에서 움직이는 점을 따르고 시퀀스가 세 번 반복 된 4 방향 (위, 아래, 왼쪽 및 오른쪽)으로 화면에서 멀리 보도록 요청 받았다. 이러한 방식으로 캡처와 커버리지의 관계가 설정되었습니다.

(a) 데스크탑 및 (b) 모바일 장치의 시선 비디오 자극을 보여주는 스크린 샷. 첫 번째 및 세 번째 프레임은 움직이는 점을 따르는 지침을 표시하는 반면, 두 번째 및 네 번째 프롬프트 참가자는 화면에서 멀리 떨어져 있습니다.
움직이는 도트 세그먼트는 다음과 같이 표시되었습니다 친절한및 오프 스크린 세그먼트 AS 부주의 한긍정적 인 예와 부정적인 예제의 라벨이 붙은 데이터 세트를 생성합니다.
각 비디오는 대략 160 초 동안 지속되었으며, 각각 1920 × 1080 및 608 × 1080의 해상도를 가진 데스크탑 및 모바일 플랫폼 용 별도 버전으로 지속되었습니다.
322 개의 데스크탑과 287 개의 모바일 레코딩으로 구성된 총 609 개의 비디오가 수집되었습니다. 비디오 컨텐츠와 데이터 세트에 따라 레이블이 자동으로 적용되었습니다. 나뉘다 테스트를 위해 158 개의 훈련 샘플과 451로.
데이터 세트 : 말하기
이러한 맥락에서 ‘부주의’를 정의하는 기준 중 하나는 사람이 말하는 경우입니다. 1 초 이상 (이 경우는 순간적인 의견이거나 기침이 될 수 있습니다).
통제 된 환경은 오디오를 기록하거나 분석하지 않기 때문에 추정 된 얼굴 랜드 마크의 내부 이동을 관찰하여 음성이 추론됩니다. 따라서 감지합니다 말하기 오디오가 없으면 저자는 시각적 입력을 기반으로 한 데이터 세트를 만들었고 내부 리포지토리에서 가져오고 두 부분으로 나뉘 었습니다.이 중 첫 번째에는 약 5,500 개의 비디오가 포함되어 있으며 각각 3 개의 주석기로 말하기 또는 말하기로 표시되어 있으며 4,400은 훈련 및 검증에 사용되었으며 1,100은 테스트를 위해 사용되었습니다.
두 번째는 세션 유형에 따라 자동으로 레이블이 지정된 16,000 개의 세션으로 구성되었습니다.
데이터 세트 : 하품
일부 ‘하품’데이터 세트는 포함됩니다 조류 그리고 운전자 피로저자는 광고 테스트 시나리오에 적합하지 않다고 주장합니다. 시뮬레이션 하품 또는 다른 사람과 혼동 될 수있는 안면 가연 두려움, 또는 기타 비 기존 조치.
따라서 저자는 내부 컬렉션에서 735 개의 비디오를 사용하여 턱 드롭 1 초 이상 지속됩니다. 각 비디오는 3 개의 주석에 의해 수동으로 레이블을 지정했습니다. 활동적인 또는 비활성 하품. 프레임의 2.6 %만이 활성 하품을 포함하여 클래스 불균형을 강조했으며 데이터 세트는 테스트를 위해 670 개의 훈련 비디오와 65로 나뉘 었습니다.
데이터 세트 : 산만
그만큼 혼란 데이터 세트는 또한 참가자가 할당 된 작업없이 실제 광고를 보았던 저자의 광고 테스트 저장소에서 도출되었습니다. 총 520 개의 세션 (모바일에서 193 개, 데스크탑 환경 327 개)이 무작위로 선택되었고 3 개의 주석기에 의해 수동으로 레이블이 지정되었습니다. 친절한 또는 부주의 한.
부주의 한 행동이 포함되었습니다 오프 스크린 시선,,, 말하기,,, 졸음그리고 무인 화면. 이 세션은 유연한 웹캠 배치로 인해 데스크탑 녹음이 더 일반적이며 전 세계의 다양한 지역에 걸쳐 있습니다.
주의 모델
제안 된주의 모델은 낮은 수준의 시각적 특징, 즉 얼굴 표정을 처리합니다. 헤드 포즈; 및 시선 방향 – 위에서 언급 한 Affdex 2.0 및 SmartEye SDK를 통해 추출됩니다.
그런 다음 이들은 고급 지표로 변환되며, 각 산만자는 독립적 인 최적화 및 평가를 위해 자체 데이터 세트에서 교육 된 별도의 이진 분류기로 처리됩니다.

제안 된 모니터링 시스템에 대한 스키마.
그만큼 시선 모델은 뷰어가 데스크탑 및 모바일 장치에 대한 별도의 교정으로 정규화 된 시선 좌표를 사용하여 화면을보고 있는지 또는 멀리 떨어져 있는지 여부를 결정합니다. 이 과정을 돕는 것은 선형입니다 벡터 머신을 지원합니다 (SVM), 공간 및 시간적 특징에 대해 훈련을 받았으며 메모리 창 빠른 시선 변화를 부드럽게합니다.
감지합니다 오디오없이 말하기시스템은 자른 구강 영역과 대화식 및 비 변환 비디오 세그먼트에 대해 훈련 된 3D-CNN을 사용했습니다. 레이블은 세션 유형에 따라 할당되었으며 시간적 평활화는 간단한 입 움직임으로 인한 오 탐지를 줄였습니다.
입을 크게 벌린 수동으로 레이블이 지정된 프레임에 대해 훈련 된 3D-CNN을 사용하여 더 넓은 얼굴 모션을 포착하기 위해 풀 페이스 이미지 작물을 사용하여 감지되었습니다 (이 작업은 자연적인 시청에서 하품의 저주파와 다른 표현식과 유사함에 따라 작업이 복잡해졌습니다).
스크린 포기 얼굴이나 극단적 인 머리 자세를 통해 확인되었으며 의사 결정 트리.
최종주의 상태 고정 규칙을 사용하여 결정되었습니다 : 감지 된 모듈이 부주의 한 경우 뷰어가 표시되었습니다. 부주의 한 – 민감도 우선 순위를 정하고 데스크탑 및 모바일 컨텍스트에 대해 별도로 조정됩니다.
테스트
앞에서 언급했듯이, 테스트는 구성 요소가 제거되고 결과에 미치는 영향이있는 절제 방법을 따릅니다.

연구에서 확인 된 다른 범주의 인식 부주의.
시선 모델은 세 가지 주요 단계를 통해 오프 스크린 동작을 식별했습니다. 생망 추정치 정규화, 출력 미세 조정 및 데스크탑 장치의 화면 크기 추정.
각 구성 요소의 중요성을 이해하기 위해 저자는 개별적으로 제거하고 226 개의 데스크탑 및 2 개의 데이터 세트에서 그려진 225 개의 모바일 비디오에서 성능을 평가했습니다. 결과, 결과 G-Lean 그리고 F1 점수는 다음과 같습니다.

개별 처리 단계가 제거 된 버전과 함께 전체 시선 모델의 성능을 나타내는 결과.
모든 경우에, 단계가 생략되면 성능이 떨어졌습니다. 정규화는 특히 카메라 배치가 모바일 장치보다 더 많이 변하는 데스크탑에서 특히 가치가있는 것으로 판명되었습니다.
이 연구는 또한 시각적 특징이 모바일 카메라 방향을 예측하는 방법 : 얼굴 위치, 헤드 포즈 및 눈 시선은 0.75, 0.74 및 0.60을 기록한 반면, 조합은 0.91에 도달하여 강조 (저자 상태)에 도달했습니다.
그만큼 말하기 수직 입술 거리에 대한 교육을받은 모델은 달성했습니다 roc-auc 수동으로 레이블이 붙은 테스트 세트에서 0.97, 더 큰 자동 레이블이 붙은 데이터 세트에서 0.96으로, 두 가지 전체에서 일관된 성능을 나타냅니다.
그만큼 입을 크게 벌린 모델은 구강 종횡비를 사용하여 96.6 %의 ROC-AUC에 도달했으며, 이는 함께 97.5 %로 향상되었습니다. 액션 장치 Affdex 2.0의 예측.
무인 화면 모델은 순간을 다음으로 분류합니다 부주의 한 Affdex 2.0과 Smarteye가 모두 1 초 이상 얼굴을 감지하지 못했을 때. 이것의 유효성을 평가하기 위해 저자는 그러한 모든 면적이없는 이벤트에 수동으로 주석을 달았습니다. 진짜 산만 데이터 세트, 각 활성화의 근본 원인을 식별합니다. 모호한 사례 (예 : 카메라 폐쇄 또는 비디오 왜곡)는 분석에서 제외되었습니다.
아래 결과 표에서 볼 수 있듯이 ‘페이스 없음’활성화의 27 %만이 사용자가 물리적으로 화면을 떠나기 때문입니다.

특정한 경우에 얼굴이 발견되지 않은 다양한 이유.
논문은 다음과 같습니다.
‘무인 화면이 비면 신호를 유발하는 인스턴스의 27% 만 구성 되었음에도 불구하고, 극단적 인 각도로 오프 스크린을 바라 보거나 과도한 움직임을 보거나 물체/손으로 얼굴을 심하게 폐색하는 것과 같은 부주의를 나타내는 다른 이유로 활성화되었습니다.’
정량적 테스트의 마지막 테스트에서 저자는 다른 산만 신호 (시선 및 헤드 포즈를 통해), 졸음, 말하기 및 무인 화면이 얼마나 점차적으로 산만 신호를 추가하는지 평가하여주의 모델의 전반적인 성능에 영향을 미쳤습니다.
테스트는 두 가지 데이터 세트에서 수행되었습니다 진짜 산만 데이터 세트 및 테스트 하위 집합 시선 데이터 세트. G-Lean 및 F1 점수는 성능을 측정하는 데 사용되었습니다 (졸음과 말하기는이 맥락에서 제한된 관련성으로 인해 시선 데이터 세트 분석에서 제외 되었음에도 불구하고) s.
아래와 같이, 더 많은 산만 유형이 추가됨에 따라주의 감지가 일관되게 개선되었고 오프 스크린 시선가장 일반적인 산만으로, 가장 강력한 기준선을 제공합니다.

다양한 산만 신호를 아키텍처에 추가하는 효과.
이 결과 중 논문은 다음과 같습니다.
‘결과에서, 우리는 먼저 모든 산만 신호의 통합이 향상된주의 탐지에 기여한다고 결론을 내릴 수 있습니다.
‘둘째,주의 탐지의 개선은 데스크탑과 모바일 장치 모두에서 일관됩니다. 셋째, 실제 데이터 세트의 모바일 세션은 응시할 때 상당한 헤드 움직임을 보여 주며, 이는 쉽게 감지되어 데스크톱에 비해 모바일 장치의 성능이 높아집니다. 넷째, 졸음 신호를 추가하면 일반적으로 드물기 때문에 다른 신호에 비해 상대적으로 약간의 개선이 있습니다.
‘마지막으로, 무단 화면 신호는 모바일 장치가 쉽게 방치 될 수 있기 때문에 데스크톱에 비해 모바일 장치에서 상대적으로 더 큰 개선 을가집니다.’
저자는 또한 그들의 모델을 AD 테스트에 사용 된 이전 시스템 인 Affdex 1.0과 비교했으며, 현재 모델의 헤드 기반 시선 탐지조차도 두 장치 유형에서 Affdex 1.0을 능가했습니다.
‘이 개선은 요 및 피치 방향에 헤드 움직임을 통합하고 헤드 포즈를 사소한 변화를 설명하기 위해 정상화 한 결과입니다. 실제 모바일 데이터 세트의 뚜렷한 헤드 움직임으로 인해 헤드 모델은 Affdex 1.0과 유사하게 수행되었습니다. ‘
저자는 아래에 표시된 (아마도 다소 불완전한) 질적 테스트 라운드로 종이를 닫습니다.

데스크탑 및 모바일 장치의주의 모델에서 샘플 출력을, 각 행은 다양한 산만 유형에 대한 진정한 및 오 탐지의 예를 제시합니다.
저자 상태 :
‘결과는 우리의 모델이 통제되지 않은 설정에서 다양한 산만자를 효과적으로 감지한다는 것을 나타냅니다. 그러나 화면에 시선을 유지하면서 심한 머리 기울기, 일부 입 폐색, 지나치게 흐릿한 눈 또는 심하게 어두워 진 얼굴 이미지와 같은 특정 모서리 케이스에서 잘못된 양성을 생성 할 수 있습니다. ‘
결론
결과는 이전 작업에 대한 측정되었지만 의미있는 발전을 나타내지 만, 연구의 더 깊은 가치는 뷰어의 내부 상태에 액세스하기 위해 지속적으로 드라이브로 제공하는 엿볼 수 있습니다. 데이터는 동의하에 수집되었지만 방법론은 체계적인 시장 연구 환경을 넘어 확장 될 수있는 미래의 프레임 워크를 지적합니다.
이 편집증 결론은이 특별한 연구의 회랑, 제약 및 질투 적으로 보호 된 특성에 의해서만 강화된다.
* 저자의 인라인 인용을 하이퍼 링크로 전환합니다.
2025 년 4 월 9 일 수요일에 처음 출판되었습니다
게시물 광고주의 청중에서 ‘올빼미와 도마뱀’을 찾고 있습니다 먼저 나타났습니다 Unite.ai.