세상 밖으로 나온 무
close
프로필 사진

세상 밖으로 나온 무

github: @hytric

  • 분류 전체보기 (104)
    • CS (14)
      • python (3)
      • Error (9)
      • Development (2)
    • Thinking (8)
    • Startup (28)
      • SeTA (24)
      • 로컬러닝랩 : 나만의-성 (1)
      • Story (3)
    • AI (19)
      • Project (5)
      • Language Model (3)
      • Audio processing (0)
      • ML basic (11)
    • Paper review (35)
      • Audio Language Model (15)
      • Disentanglement (6)
      • Audio Speech Recognition (3)
      • Codec (1)
      • Speculative Decoding (2)
      • etc. (7)
    • My life (0)
  • 홈
  • github
  • Profile
  • linkedin
Lightweight SpeechLLM for Medical Speech Recognition and QA

Lightweight SpeechLLM for Medical Speech Recognition and QA

GitHub - hytric/SLLMContribute to hytric/SLLM development by creating an account on GitHub.github.com Project overviewMistral ai의 Voxtral mini 3B를 활용하여 medical domain에 특화된 Speechllm 모델을 제작LLM의 성능을 높이는 두가지 방법을 모두 검증RAGFinetuning (QLoRA) Background병원 진료 중 의료진과 환자의 대화에는 수많은 전문용어가 등장합니다.그러나 기존 음성 인식(ASR) 시스템은 일반 언어에 맞춰 학습되어 있어‘비중격성형술’ 같은 전문 용어를 자주 잘못 인식하거나 누락하곤 합니다. 이를 해결하기 위해 단순히 “잘 듣는” 수준을 넘어의미를 ..

  • format_list_bulleted AI/Project
  • · 2025. 10. 7.

Korean Audio, Multilingual Hubert translate Training Guideline

최근 Audio2Audio multilingual translate에서 hubert를 활용한 direct translation이 제안되었다.Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech TranslationAV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation논문에서는 다양한 언어를 지원하지만, 한국어를 지원하지는 않는다.그래서 한글도 같이 지원하도록 모델을 학습하는 것이 목표이다.현재 Training code가 제공되지 않기 때문에, 자세한 가이드라인도 같이 ..

  • format_list_bulleted AI/Project
  • · 2025. 10. 7.

AI Spark 글로벌 산불감지 챌린지, TransUNet, Attention U-Net

제6회 2024 연구개발특구 AI SPARK 챌린지글로벌 산불 감지 챌린지: AI를 활용한 향상된 위성 이미지 분석(Global Wildfire Detection Challenge: Leveraging AI for Enhanced Satellite Imagery Analysis)aifactory.space 이번 인공지능 대회는 처음 참가했으며, 짧은 기간 동안 성능을 높이기 위해 많은 노력을 기울였습니다. 단순히 모델 선정과 구현만 중요한 것이 아니라, 데이터셋을 세밀하게 분석하고, 정확도를 높이기 위한 데이터 전처리 과정의 필요성을 깊이 깨달았습니다. 다음 대회에서는 이를 더욱 철저히 준비할 계획입니다.높은 성능을 달성하기 위해 기존 모델을 앙상블하는 방법이 좋은 결과를 낸다는 점도 배웠습니다. 단일..

  • format_list_bulleted AI/Project
  • · 2025. 10. 7.

Future Vehicle Project(SLAM & Navigation) Roadmap

3차원 지도를 획득하기 위해 스테레오 및 단일 카메라를 활용하여 raw image data에서 특징점을 찾아 포인트 클라우드를 생성하였으며, obstacle이 많은 환경에서도 원활한 지도 획득 성능을 보였다.Navigation을 위해 depth filtering, height filtering을 거쳐 3차원 지도를 2차원 지도로 변환하였으며, odometry 및 map 데이터 기반으로 출발지부터 목적지까지 최단 경로를 계획하여 navigation을 수행하였다.이번 프로젝트는 ROS의 다양한 기능과 노드 구조를 직접 다루면서 실무적인 경험을 쌓을 수 있는 기회였으며, SLAM 및 네비게이션에 대한 기초적인 개념부터 실제 하드웨어와 소프트웨어를 결합한 응용까지 다양한 측면에서 배우는 계기가 되었고 실제 학회..

  • format_list_bulleted AI/Project
  • · 2025. 10. 7.

Vision based Automous Human Following Wheeled Mobile Robot

이번 프로젝트는 Vision 기반의 자율 주행 로봇을 개발하는 것으로, 사람을 인식하고 따라가는 기능을 구현하는 것이 주요 목표였습니다. 주어진 플랫폼은 TurtleBot3 Burger와 Intel Realsense T265 카메라였으며, 이를 통해 SLAM(동시적 지도 작성 및 위치 추정)과 내비게이션을 실현하고, 로봇이 일정 거리를 유지하며 사람을 추적할 수 있도록 Depth map을 작성해야 했습니다. Technical challenges and solutions 프로젝트에서 가장 큰 기술적 도전은 Intel Realsense T265 카메라였습니다. 이 카메라는 본래 Depth map을 위한 카메라가 아니라 자기 위치를 추적하는 카메라로 설계된 제품이었기 때문에, 이를 사용하여 깊이 정보를 추출하..

  • format_list_bulleted AI/Project
  • · 2025. 10. 7.
  • navigate_before
  • 1
  • navigate_next
공지사항
  • 블로그 관리, 노출 및 운영에 관한 글
전체 카테고리
  • 분류 전체보기 (104)
    • CS (14)
      • python (3)
      • Error (9)
      • Development (2)
    • Thinking (8)
    • Startup (28)
      • SeTA (24)
      • 로컬러닝랩 : 나만의-성 (1)
      • Story (3)
    • AI (19)
      • Project (5)
      • Language Model (3)
      • Audio processing (0)
      • ML basic (11)
    • Paper review (35)
      • Audio Language Model (15)
      • Disentanglement (6)
      • Audio Speech Recognition (3)
      • Codec (1)
      • Speculative Decoding (2)
      • etc. (7)
    • My life (0)
인기 글
전체 방문자
오늘
어제
Copyright © 세상 밖으로 나온 무 모든 권리 보유.
SKIN: Copyright © 쭈미로운 생활 All rights reserved. Designed by JJuum.
and Current skin "dev-roo" is modified by Jin.

티스토리툴바