Last active
May 22, 2025 07:11
-
-
Save znxkznxk1030/abba6e11f2af3d7a1690c75da8b6b456 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#1. | |
안녕하세요. 10조 발표를 시작하겠습니다. | |
저희는 "음성-이미지 멀티모달을 활용하여 음성과 매칭되는 인물을 추론하는 AI 모델"이라는 주제로 세미나 연구를 진행하고자 합니다. | |
#2. | |
먼저 프로젝트 개요를 설명드린 후, 내용과 응용, 일정 순으로 발표를 진행하겠습니다. | |
#3. | |
저희 팀 이름은 "러닝 크루"입니다. | |
머신 러닝과 요즘 유행하는 러닝 크루를 결합하여 지었으며, 크루처럼 함께 배우며 즐겁게 연구하자는 의미를 담았습니다. | |
팀원은 저를 포함해 총 5명으로, 나영님, 우람님, 종현님, 주호님입니다. | |
모두 럭키 세븐 기수로 구성되어 있어 잭팟 같은 팀이라고 할 수 있습니다. | |
#4. | |
음성을 활용한 연구 주제를 고민하던 중, 음성과 텍스트, 이미지, 비디오 등 다양한 데이터를 함께 고려하는 멀티모달 모델을 연구하면 흥미로울 것 같아 이 주제를 선택했습니다. | |
음성-영상 멀티모달 연구를 구체화하기 위해 "목소리로 범인 찾기"라는 페르소나를 설정했습니다. | |
보이스 피싱 사건에서 목소리 데이터와 CCTV 등을 통해 확보한 용의자의 얼굴 이미지 또는 영상 데이터를 활용하여 용의자를 특정하는 것이 목표입니다. | |
즉, 음성 파일과 이미지 또는 영상이 주어졌을 때, 범인을 식별하는 정확도를 최대화하는 모델을 설계하는 것이 연구의 핵심입니다. | |
#5. | |
그렇다면 음성과 얼굴은 얼마나 연관성이 있을까요? 실제로 연관성이 있을까요? | |
이를 확인하기 위해 선행 연구를 조사했고, 직관적으로 얼굴과 목소리가 어울린다는 느낌처럼 생물학 및 심리학적으로도 경향성이 존재한다는 사실을 확인했습니다. | |
#6. | |
음성과 얼굴 관련 AI 분야의 선행 연구도 살펴보았습니다. | |
대표적인 연구로는 Wav2Pix와 Speech2Face가 있습니다. | |
두 연구 모두 음성 데이터를 입력으로 받아 화자의 얼굴을 생성하는 모델을 설계했습니다. | |
Wav2Pix는 GAN을, Speech2Face는 VGG 기반의 Face Decoder를 사용했습니다. | |
이 연구들을 통해 음성과 얼굴의 연관성을 활용한 선행 연구가 존재하며, 실제 데모를 통해 그럴듯한 경향성을 확인할 수 있었습니다. | |
저희는 이러한 경향성을 역으로 활용하여 얼굴 이미지에서 매칭 정확도를 판별하는 연구를 진행하고자 합니다. | |
#7. | |
데이터 확보와 관련해 공개된 유튜브 영상을 활용해 자체 데이터셋을 구축하거나, VoxCeleb 1/2 또는 AVSpeech와 같은 벤치마크 데이터셋을 사용하는 것을 고려 중입니다. | |
자체 데이터셋은 모델이 목표로 하는 상황에 맞는 데이터를 학습시킬 수 있다는 장점이 있고, 벤치마크 데이터셋은 다양한 환경에서 대규모로 수집된 데이터와 다른 선행 모델과의 비교가 용이하다는 이점이 있습니다. | |
학습 방법으로는 NT-Xent와 MoCo와 같은 대조 학습 기반의 모델을 생각하고 있습니다. | |
#8. | |
프로젝트의 최종 목표는 음성을 활용해 화자를 정확히 식별하는 모델을 개발하는 것입니다. | |
테스트셋에서 정확도와 정밀도를 최대치로 끌어올리는 것을 목표로 하고 있습니다. | |
#9. | |
음성과 얼굴의 연관성을 잘 판별하는 모델이 있다면 다음과 같은 애플리케이션에 활용될 수 있습니다. | |
화자 인식 추적 시스템: 줌과 같은 회의 프로그램에서 화자가 카메라를 벗어난 경우에도 음성과 인물을 쉽게 매칭할 수 있습니다. | |
DeepFake 탐지: AI에서 문제가 되는 DeepFake 영상에서 얼굴 움직임과 음성의 불일치성을 통해 합성된 영상을 검출할 수 있습니다. | |
서빙 로봇: 서빙 로봇이 호출한 손님을 이 모델을 활용해 식별할 수 있습니다. | |
#10. | |
추진 일정은 다음과 같습니다. | |
6월까지 모델 개발에 필요한 선행 연구와 구현 학습을 진행하고 있으며, 방학 기간인 7~8월에는 알고리즘 설계와 반복 테스트를 진행할 예정입니다. | |
8월부터는 구현을 시작해 10월부터 실험 및 검증을 진행하고, 11월부터는 결과를 정리하여 발표하고자 합니다. | |
저희는 주 1회 온라인으로 각자 선행 연구를 공부하고 모델 개발에 필요한 지식을 공유하며, 매주 테스트 1개씩 수행하고 있습니다. | |
현재까지 데이터 수집 및 가공, 임베딩, NT-Xent 손실 함수를 통한 학습까지 진행했습니다. | |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment