스타트업, CPU 속도를 100배 더 빠르게 만들 수 있다고 주장

Date:

빠르게 진화하는 시대에 AI 가속기범용 CPU는 많은 사랑을 받지 못합니다. “CPU 세대를 살펴보면 점진적인 개선이 보입니다.”라고 말합니다. 티모 발토넨핀란드에 본사를 둔 CEO 겸 공동 창립자 흐름 컴퓨팅.

발토넨의 목표는 CPU를 본래의 ‘중심’ 역할로 되돌리는 것입니다. 이를 위해 그와 그의 팀은 새로운 패러다임을 제안하고 있습니다. 예를 들어 노트북에 16개의 동일한 CPU 코어를 넣어 계산 속도를 높이는 대신, 제조업체는 표준 CPU 코어 4개와 Flow Computing의 소위 병렬 처리 장치(PPU) 코어 64개를 동일한 풋프린트에 넣고 최대 100배 더 나은 성능을 달성할 수 있습니다. 발토넨과 그의 협력자들 그들의 사건을 설명했습니다 에서 핫칩 8월에 컨퍼런스가 열립니다.

PPU는 컴퓨팅 작업이 병렬화 가능한 경우 속도를 높여주지만, 기존 CPU는 그 병렬성을 활용할 수 없고, GPU와 같은 것에 오프로드하면 비용이 너무 많이 듭니다.

“일반적으로 우리는 ‘좋습니다. 병렬화는 작업 부하가 큰 경우에만 가치가 있습니다.’라고 말합니다. 그렇지 않으면 오버헤드가 많은 이익을 망칩니다.”라고 그는 말합니다. 외르그 켈러독일 하겐에 있는 FernUniversität의 병렬성과 VLSI의 교수이자 의장이며, Flow Computing과 제휴하지 않았습니다. “그리고 이제 이것은 더 작은 작업 부하로 바뀌었습니다. 즉, 코드에서 이 병렬화를 적용할 수 있는 곳이 더 많아졌습니다.”

컴퓨팅 작업은 대략 두 가지 범주로 나눌 수 있습니다. 각 단계가 이전 단계의 결과에 따라 달라지는 순차적 작업과 독립적으로 수행할 수 있는 병렬 작업입니다. Flow Computing CTO 겸 공동 창립자 마르티 포셀 단일 아키텍처를 두 가지 유형의 작업에 최적화할 수 없다고 말합니다. 따라서 아이디어는 각 유형의 작업에 최적화된 별도의 단위를 갖는 것입니다.

“코드의 일부로 순차적 워크로드가 있는 경우 CPU 부분이 이를 실행합니다. 그리고 병렬 부분의 경우 CPU가 해당 부분을 PPU에 할당합니다. 그러면 두 단어의 장점을 모두 얻을 수 있습니다.”라고 Forsell은 말합니다.

Forsell에 따르면 병렬 처리를 위해 최적화된 컴퓨터 아키텍처에는 네 가지 주요 요구 사항이 있습니다. 메모리 지연 허용, 즉 다음 데이터가 메모리에서 로드되는 동안 그냥 유휴 상태가 되지 않는 방법을 찾는 것, 병렬로 실행되는 프로세서 명령어 체인인 소위 스레드 간의 통신을 위한 충분한 대역폭, 코드의 병렬 부분이 올바른 순서로 실행되는지 확인하는 효율적인 동기화, 그리고 실제로 수학적 및 논리적 연산을 동시에 수행하는 여러 기능 단위를 사용할 수 있는 저수준 병렬 처리입니다. Flow Computing의 새로운 접근 방식에 대해 Forsell은 “병렬 계산을 위해 처음부터 아키텍처를 재설계하거나 설계를 시작했습니다.”라고 말합니다.

모든 CPU는 잠재적으로 업그레이드될 수 있습니다

메모리 액세스 지연을 숨기기 위해 PPU는 멀티스레딩을 구현합니다. 각 스레드가 메모리를 호출하면 첫 번째 스레드가 응답을 기다리는 동안 다른 스레드가 실행을 시작할 수 있습니다. 대역폭을 최적화하기 위해 PPU에는 유연한 통신 네트워크가 장착되어 있어 모든 기능 단위가 필요에 따라 다른 단위와 통신할 수 있으며 저수준 병렬성도 허용합니다. 동기화 지연을 처리하기 위해 기존 동기화 프로토콜보다 최대 10,000배 더 효율적이라고 주장하는 웨이브 동기화라는 독점 알고리즘을 사용합니다.

PPU의 성능을 보여주기 위해 Forsell과 그의 협력자들은 그들의 설계에 대한 개념 증명 FPGA 구현을 구축했습니다. 이 팀은 FPGA가 시뮬레이터와 동일한 성능을 보였으며, PPU가 예상대로 작동하고 있음을 보여주었다고 말합니다. 이 팀은 여러 개의 비교 PPU 설계와 기존 CPU 간의 연구. “최대 100배 [improvement] Forsell은 “비교 대상 상용 프로세서 중 하나와 동일한 속도로 실행되는 Flow PPU의 실리콘 구현이 있고 당사의 마이크로 아키텍처를 사용한다는 가정 하에 예비 성능 비교에서 이러한 결과가 도출되었습니다.”라고 말했습니다.

현재 이 팀은 PPU용 컴파일러를 개발 중이며, CPU 생산 분야에서 파트너를 찾고 있습니다. 그들은 대형 CPU 제조업체가 자사 제품에 관심을 가져서 공동 설계를 진행할 수 있기를 바라고 있습니다. 그들의 PPU는 모든 명령어 세트 아키텍처로 구현할 수 있으므로 모든 CPU를 잠재적으로 업그레이드할 수 있습니다.

켈러는 “이제 이 기술을 시장에 내놓을 때가 됐습니다.”라고 말합니다. “이제 모바일 기기에서 에너지 효율적인 컴퓨팅이 필요하고, 동시에 높은 컴퓨팅 성능이 필요하기 때문입니다.”

Share post:

Subscribe

Popular

More like this
Related

모듈식 모터 및 기어박스로 제품 개발이 간편해집니다.

후원자: 맥슨의 Parvalux.경쟁에서 승리하려면 엔지니어는 개발 시간을 단축하고 제품...

Draganfly, 병원 드론 배달 개념 증명 비행 완료

Draganfly는 Brigham 장군의 개념 증명을 통해 드론이 의료 분야의...

2024년 기후 기술 상위 10개 스토리

2024년에는 기후변화에 대처하는 기술 전기를 생산하는 연을 타고 구름...

Microsoft의 AI 생태계가 Salesforce 및 AWS를 능가하는 방법

AI 에이전트 일반적으로 사람의 개입이 필요한 작업을 수행하도록 설계된...