# speech

Front-end 국비지원 #061일
아래와 보는 이미지는 reflection 기능을 사용하여 이미지를 반전시켰다.HTMLCSShttps://caniuse.com/ 에서 크로스브라우징이 되는지 버전체크를 한다. 파이어폭스는 지원하지 않는걸 확인하게 된다. 따라서 크로스브라우징이 필요하며 https
Sound Classification 정리 7. CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 6. HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 5. SSAST: Self-Supervised Audio Spectrogram Transformer
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 4. Efficient Training of Audio Transformers with Patchout (PaSST)
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 3. AST: Audio Spectrogram Transformer
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 2. PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 1. PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리했습니다.
Sound Classification 정리 - 0. Index
Audio & Speech 분야의 Sound Classification 논문 정리

Multi-modal Dense Video Captioning(2020) Review
Multi-modal Dense Video Captioning

[iOS] speech to text by Speech
🤓 들어가며 text를 speech로 옮기는 일은 생각보다 간단했다. '그런데 speech를 text로 바꾸는 것은 어떻게 하지? MLKit 이라도 사용해야 하나?' 라는 걱정. MLKit까지 사용할 필요는 없을 것 같고 SFSpeechRecognizer면 충분!
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis 논문 정리
#Speech #DeepLearning #Paper
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis 논문 정리
#Speech #DeepLearning #Paper

[번역] data2vec: A Grneral Framework for Self-supervised Learning in Speech, Vision and Language
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

Data Augmentation in Audio and Speech (Feature-Drop Aspect)
이 글은 논문을 읽고 정리하기 위한 글입니다.
English_DAY_01
Amazon founder and CEO Jeff Bezos delivers graduation speech at Princeton University

23. Speech Synthesis
Text to Speech 기능 구현voice 종류, rate, pitch도 함께 설정 (Html 상의 input value 연동)SpeechSynthesis API: text to speech 기능 구현 시 활용 APIhttps://developer.mozi