*한이룸 네트워크 채널에 계신 분들을 대상으로 해외 아티클 번역해서 제공해드리고 있습니다.

배경

AI가 아래와 같은 강아지 이미지를 생성하는 것을 본 적이 있으시죠.

image.png

소리가 나는 이미지: 하나의 캔버스에 이미지와 사운드 구성하기 - https://arxiv.org/pdf/2405.12221

2024년 5월, 미시간 대학교의 세 명의 연구원이 "소리가 나는 이미지."라는 제목의 논문을 발표했습니다: 하나의 캔버스에 이미지와 소리 구성하기"라는 제목의 논문을 발표했습니다.

이 게시물에서는 다음 내용을 설명합니다.

  1. '소리가 나는 이미지'를 생성한다는 것이 무엇을 의미하는지, 그리고 이것이 인간의 이전 작업과 어떻게 연결되는지 설명합니다.
  2. 이 모델이 기술적 수준에서 어떻게 작동하는지 알기 쉽게 설명합니다.
  3. 이 백서가 AI가 할 수 있는 일과 해야 하는 일에 대한 우리의 이해에 도전하는 이유

소리가 나는 이미지란 무엇인가요?

이 질문에 답하려면 두 가지 용어를 이해해야 합니다:

  1. 파형
  2. 스펙트로그램

현실 세계에서 소리는 물체를 진동시켜 음파(시간에 따른 기압의 변화)를 생성함으로써 만들어집니다. 소리가 마이크를 통해 포착되거나 디지털 신디사이저로 생성되면 이 음파를 파형으로 표현할 수 있습니다:

2024-08-13_13-57-18.png

어쿠스틱 노래의 파형. 음악 및 이미지 작성자.

파형은 오디오 녹음과 재생에는 유용하지만, 일반적으로 오디오 데이터를 이용한 음악 분석이나 머신 러닝에는 사용하지 않습니다. 대신 훨씬 더 많은 정보를 제공하는 신호 표현인 스펙트로그램이 사용됩니다.

어쿠스틱 노래의 멜 스펙트로그램. 음악 및 이미지 작성자.