말을 넘어서 : AI는 당신이있는 곳에서 당신을 만나기 위해 멀티 모드로갑니다

Date:

말을 넘어서 : AI는 당신이있는 곳에서 당신을 만나기 위해 멀티 모드로갑니다

Susanna Ray

(() => {
$ iframe, $ closeBtn;
const $ player = document.getElementById ( ‘player-67d98a757b3ed’);
const $ playerPlayBtn = document.getElementById ( ‘player-btn-67d98a757b3ed’);
const $ playerPlayTitleBtn = document.getElementById ( ‘player-title-btn-67d98a757b3ed’);
const $ playerText = document.getElementById ( ‘player-text-67d98a757b3ed’);
기능 onkeydown (e) {
if (document.ActiveElement! == $ CloseBtn) {
$ iframe.focus ();
}
}
함수 initiframe (e) {
$ iframe = document.createElement ( ‘iframe’);
$ iframe.style.top = 0;
$ iframe.style.left = 0;
$ iframe.style.position = ‘절대’;
$ iframe.style.width = ‘100%’;
$ iframe.style.height = ‘100%’;
$ iframe.setAttribute ( ‘Frameborder’, 0);
$ iframe.setattribute ( ‘tabindex’, 1);
$ iframe.setAttribute ( ‘allow’, ‘autoplay; fullscreen’);
$ iframe.setAttribute ( ‘title’, ‘beyond words : ai는 당신이있는 곳에서 당신을 만나기 위해 멀티 모드로갑니다’);
$ iframe.setAttRibute ( ‘src’, ‘https://www.youtube-nocookie.com/embed/?autoplay=1&autohide=1&fs=1&modestbranding=1&showinfo=0&controls=2&autoplay=1&temem=0&temememem=0/relimemem=10/Thememe=
$ closeBtn = $ player.querySelector ( ”[data-close-player]’);
$ player.insertbefore ($ iframe, $ closeBtn);
$ player.removeEventListener ( ‘Click’, initiframe);
$ playerText.style.display = ‘none’;
$ player.style.display = ‘블록’;
document.addeventListener ( ‘keyup’, onkeydown);
settimeout (() => {
$ iframe.focus ();
$ iframe.click ();
settimeout (() => {
$ iframe.focus ();
$ iframe.click ();
$ CloseBtn.setAttribute ( ‘tabindex’, 1);
}, 1000);
}, 1000);
함수 ClosePlayer () {
$ CloseBtn.removeEventListener ( ‘Click’, ClosePlayer);
$ player.removeChild ($ iframe);
$ player.style.display = ‘none’;
$ closeBtn.style.display = ‘none’;
$ playerText.style.removeProperty ( ‘display’);
$ closeBtn.setAttribute ( ‘tabindex’, -1);
document.removeeventListener ( ‘keyup’, onkeydown);
$ playerPlayBtn.focus (); // 비디오를 시작한 버튼으로 다시 집중하십시오.
}
$ closeBtn.addeventListener ( ‘Click’, ClosePlayer);
$ closeBtn.style.display = ‘block’;
}
$ playerPlayBtn && $ playerPlayBtn.addeventListener ( ‘click’, initiframe);
$ playerPlayTitleBtn && $ playerPlayTitleBtn.addeventListener ( ‘Click’, initiframe);
}) ();

웹을 스크롤하고 햇볕에 반짝 거리는 청록색의 물에 대한 아름다운 해변 사진을 발견 할 때 며칠 동안 비가 내 렸습니다. 어디에 있습니까, 당신은 큰 소리로 묻고 어떻게 거기에 갈 수 있습니까?

대답은 즉각적입니다. 귀하의 AI 조수는 해변을 식별 할뿐만 아니라 전체 휴가 계획을 세웁니다. 당신은 세부 사항을 통해 여정을 개선하고 그 동안 음란 한 날씨에 대처하는 데 팁을 얻고 제안 된 사운드 트랙을 연주하여 기분을 높이도록 도와줍니다.

AI 경험이 점점 더 멀티 모달이되고 있기 때문에 간단한 텍스트 프롬프트를 넘어 설 수 있습니다. 질문을 입력합니다. 도구 답변 – 이미지, 오디오 및 비디오를 사용하여 온라인으로 보는 것을보고 듣는 내용을 듣습니다. 이러한 기능은 최신 AI 도구가 원하는 일에 대한 자세한 내용을 얻는 데 도움이되며, 기술과 상호 작용하고 정보를 훨씬 빠르고 쉽게 얻을 수있는보다 직관적 인 방법을 제공합니다.

Microsoft에서 AI 제품 개발을 안내하고있는 Ryan Volum은 Microsoft에서 AI 제품의 개발을 안내하고있는 Ryan Volum은 인간의 두뇌가 텍스트, 이미지 및 오디오에서 동시에 정보를 동시에 흡수하여 텍스트, 이미지 및 오디오에서 동시에 정보를 흡수했습니다. “우리는 우리가 인간으로 보는 세상을 점점 더 많이주고 있습니다.”

멀티 모달 AI 모델은 완전히 새롭지는 않지만 의사가 환자를 진단하고 치료하는 데 도움이되는 도구에 실제 영향을 미치기 시작했습니다. 정도 그리고 기상 기관은 심한 폭풍을 더 많이 예측합니다 정확히.

멀티 모달 도구는 Volum이 최근에 다른 건강 보험 옵션 중에서 선택하려고 할 때와 같이 사람들이 더 많은 일상적인 문제를 단순화하는 데 도움이됩니다.

각 계획의 밀도가 높은 언어를 제작하는 대신 Volum은 Copilot Vision웹 탐색을 덜 압도적으로 만들기 위해 실시간 지원을 제공하는 Microsoft 기능. 그의 허락으로, Copilot Vision은 사이트의 모든 것을 텍스트뿐만 아니라 차트와 이미지도 잊어 버렸고 첫 번째 줄을 통과하는 것보다 적은 시간에 그를 위해 모든 것을 요약했습니다.

그런 다음 자연스러운 대화에서 그의 질문에 대답하여 다른 출처의 정보를 가져와 결정에 도움이되는 맥락을 제공했습니다.

Volum은“내 세상에서 나를 만날 수 있었고 더 나은 지원을 제공한다고 말했다. 그는 두 사람이 비행기를 타기 위해 종종 함께 일하는 방식에 비유합니다.

“비행기에있는 사본이 당신이 말하는 것을들을 수는 있지만보고있는 것을 볼 수 없다면, 그들은 훨씬 덜 도움이 될 것입니다.”라고 그는 말합니다. “그러나 그들은 당신 앞에 구름을 볼 수 있기 때문에, 대시 보드 표시기, 비행기의 원격 측정법, Copilot이 훨씬 더 도움이 될 수 있으며 사용자가 필요한 것을 전달하는 데 필요한 작업이 훨씬 적습니다.”

멀티 모달 AI를 통해 개발자는 자연 언어로 최근의 혁신의 기초를 구축하고 이러한 기능을 다른 입력으로 확장했습니다. 전통적인 대형 언어 모델 (LLMS)은 인간 언어로 인코딩 된 개념을 추출하여 논리적 추론을 만들고 문제를 해결하며 컨텐츠를 생성하여 텍스트 기반 작업을 수행하는 것처럼, 멀티 모드 모델은 음성 및 비주얼과 같은 다른 커뮤니케이션 모드와 동일합니다.

모델은 방대한 데이터 세트에 대한 교육을받으며 텍스트, 이미지의 모양 및 색상 또는 오디오의 톤 및 피치와 같은 다양한 유형의 데이터에서 주요 기능을 식별합니다. 그들은 이러한 입력을 분류하고 예를 들어 고양이의 이미지를 유형 및 음성 단어에 연결 한 다음 패턴을 인식하여 양식에 연결됩니다.

훈련을 받으면 모델은 모드간에 번역하여 컨텐츠를 이해하고 만들 수 있습니다. 예를 들어 누군가의 구어 방향에서 이미지를 생성하거나 입력 된 요청에서 오디오를 만들 수 있습니다.

이러한 확장 된 기능은 도움이됩니다 임상의와 과학자특히 Microsoft Health Futures의 건강 및 생명 과학 연구를 이끌고있는 Jonathan Carlson은 특히 큰 진전이라고 말합니다.

LLM은 의료 약속 중에 환자와의 대화를 기록하고 분류하는 데 사용됩니다 (증상과 질문들 사이에서 논의가 튀어 나오더라도, 의사가 증거와 서명을 해야하는 전문가에 대한 전문가에게 의뢰와 같은 많은 의사의 시간과주의를 기울이는 다양한 후속 작업에 대해 논의가 있습니다.

그리고 멀티 모달 모델은 픽셀을 분석하는 추론 능력을 적용함으로써 한 걸음 더 나아가고 있습니다. 의료 영상가능한 종양 또는 찾기 어려울 수있는 다른 이상을 식별합니다. AI는 병리학 자의 작업을 지원하고 검증하는 데 사용될 수 있으며 심지어 인간의 눈이 놓칠 수있는 것들을 잡을 수 있다고 Carlson은 말합니다.

Carlson은“이제 이미지와 언어로 인코딩 된 개념을 이해하는 모델이 있습니다. “그래서 당신은 ‘이봐, 병리학 이미지가 있고, 면역 세포를 모두 보여주고, 의심스러운 암 세포를 식별하고, 적절한 치료를 선택하는 데 도움이되는 바이오 마커가 있는지 알려주십시오.’ 이러한 풍부한 개념이있는 모델이 있으면 실제로 이러한 개념을 정렬하고 기본적으로 함께 스냅하고 끝나는 것이 매우 간단합니다. 풍부한 경험 이제 본질적으로 이미지와 대화 할 수있는 곳.”

이 기능은 의료 전문가를 더 많이 안내하는 데 도움이됩니다 목표 테스트 및 정확한 치료초기 진단을 통해 결과를 개선하고 불필요한 절차를 줄임으로써 환자의 시간, 불편 함 및 돈을 절약합니다.

많은 사람들이 Coplelot Vision을 사용하여 Edge 브라우저에서 멀티 모달 기능을 사용할 수 있으며, 이제 미국의 모든 Copilot Pro 및 Free Copilot 사용자가 사용할 수있는 새로운 도구를 사용할 때 각 사람이 제어하고 있습니다. Session을 시작하려면 Copilot Vision 아이콘을 클릭해야하며, 일단 끝나면 데이터가 삭제됩니다.

비즈니스와 개발자는 전체에서 선택할 수 있습니다 멀티 모달 모델의 카탈로그 – 또는 도움을 받으십시오 1,800 옵션의 믹싱 및 일치 Azure AI Foundry -보다 지능적이고 대화식 상용 도구를 만들기 위해.

메르세데스-벤츠예를 들어, Azure AI Vision과 GPT-4 터보를 사용하여 자동차 주변 환경을보고 운전자가 특정 거리에 주차 할 수 있는지 또는 건물이 다가오는 건물과 같은 질문에 대한 질문에 구두로 답변하는 도구를 만들었습니다.

Microsoft가 최근 소개했습니다 마그마 모델 시각적 인식을 언어 이해력과 통합하여 AI 구동 조수 또는 로봇이 훈련받지 않은 주변 환경을 이해하고 도구를 잡거나 웹 사이트 탐색 및 버튼을 클릭하여 명령을 실행하는 등 새로운 작업에 대한 적절한 작업을 제안합니다. 그것은 중요한 단계입니다 AI 요원 그것은 다목적, 일반 목적 조수 역할을 할 수 있습니다.

그리고 새로운 PHI-4 멀티 모달 모델 전임자보다 컴퓨팅 전력을 사용하여 기기에서 말하기, 비전 및 텍스트를 직접 처리 할 수 ​​있습니다. 이 작고 접근하기 쉬운 모델을 통해 개발자는 수학적 및 논리적 작업에서 탁월한 효율적인 응용 프로그램을 만들 수 있습니다.

서비스와 같은 서비스의 멀티 모달 기능 Azure AI 컨텐츠 이해 콜센터 녹음, 스캔 문서 또는 소셜 미디어 게시물과 같은 구조화되지 않은 수많은 데이터에서 의미있는 통찰력을 찾는 데 도움이 될 수 있습니다.

Microsoft의 최고 제품 책임자 인 Sarah Bird는이 기능이 새로운 위험과 AI에 대한 교육 및 협력에 대한 교육에 대한 광범위한 필요성과 함께 제공됩니다. 책임있는 AI.

Bird는 사람들이 대표되는 방식 또는 허위 진술은 멀티 모달 AI에 고유 한 위험이라고 Bird는 말합니다.

그녀는 사람들의 반응이 사용 된 양식에 따라 변한다 고 말했다. 예를 들어, 폭력적인 이미지는 폭력적인 텍스트보다 더 심각한 것으로 인식됩니다. 비디오는 서면 이야기보다 더 신뢰할 수있는 것으로 보입니다. 그리고 Copilot과 같은 AI 조수가 가청 목소리로 말할 때, 오류는 화면에 나타날 때보 다 의도적 인 느낌입니다.

따라서 Microsoft의 안전 연구원과 엔지니어들은 이미 생성 AI를 위해 가드 레일 위에 건설하고 있다고 Bird는 말합니다.

더 많은 양식이 더 많은 위험을 초래함에 따라, 자체적으로 양성 할 수있는 텍스트, 이미지 또는 오디오와 같은 입력은 동물로 묘사하는 텍스트를 가진 유명한 사람의 사진과 같이 결합 될 때 유해한 콘텐츠를 만드는 데 사용될 수 있습니다. 이것이 바로 Microsoft가 안전 모델을 업그레이드하여 개별 부품이 아닌 출력의 합을 검토하는 이유라고 Bird는 말합니다.

위험에 대한 광범위한 인식과 AI 생성 컨텐츠를 인식하는 방법도 핵심입니다. Microsoft는 기초를 크립 롭게 기술하여 모든 AI 생성 컨텐츠에 서명하여 누구나 식별 할 수 있도록합니다. 교육과 훈련은 사람들이 이러한 서명을 기대하고 그 의미를 알기 위해 중요합니다. C2PA 연합 Microsoft 및 기타 업계 리더가 설립하여 소스 인증 표준을 개발했습니다.

“위험을 줄이기 위해 기술적으로나 플랫폼 내에서 우리가 할 수있는 일이 많이 있습니다”라고 Bird는 말합니다. “그러나 세계에는 새로운 콘텐츠가 있으며, 세계는 그 접근 방식을 조정해야합니다. 모든 사람은 우리가 멀티 모달 위험을 평가하고 방어하는 방법에 역할을합니다.”

개발이 서로를 기반으로하면서 연구가 빠르게 발전하고 있습니다.

칼슨은 지난 몇 년 만에 처음 몇 년 만에 연구원들은 기계와 멀티 모달 AI 지원을 통해 셀의 전체적인 그림을 만들 수있게 해줍니다.

“다음 세트는 모델이 단백질을 이해하는 방법을 어떻게 배우는가?” 그는 말한다. “우리는 그 일을 많이하고 있으며, 예를 들어 백신에 대한 항원을 엔지니어링하기 위해 언어 모델링에서 동일한 아이디어를 가져 와서 수백, 수천, 수백만 개의 단백질 서열에 적용 할 수 있습니다.

“이것은 자연의 언어를 배우는 것”이라고 그는 말한다. “우리는 인간의 이야기의 언어를 배우는 것과 마찬가지로, 세포가 자신을 표현하는 방식에 대한 언어 또는 단백질 서열이 실제로 작동하는 방식을 배울 수 있습니까?”

Volum은 텍스트, 음성, 이미지, 오디오 및 비디오를 사용하여 모든 종류의 문제를 한 번에 해결할 수있게되면 새로운 기회의 세계가 열릴 수 있다고 Volum은 말합니다.

“점점 더 인공 지능은 우리가있는 곳에서 우리를 만날 것입니다.”라고 그는 말합니다.

Michał Bednarski / 임시 스튜디오의 삽화. 2025 년 3 월 18 일에 스토리 게시

Share post:

Subscribe

Popular

More like this
Related

4월 2일 정부지원사업 신규 공고 리스트 (100건) _ (파일 재가공/재배포 가능)

4월 2일 100건<4/2 지원사업 신규 공고 목록> *전 영업일인 4/1에...

SEER Robotics는 RDS 차량 관리 시스템이 산업 시나리오에 적용된다고 말합니다.

RDS 차량 관리 시스템은 다단계 이동과 같은 시나리오에서 사용할...

2025 년 3 월의 상위 10 개 로봇 개발

Promat 및 Nvidia GTC와 같은 큰 행사가 새로운 릴리스의...

구축 또는 구매 : Robotics Summit에서 상용화 전문가로부터 배우십시오.

어느 시점에서 모든 스타트 업은 사내에서 어떤 시스템의 어떤...