Trustworthy AI

공정성(Fairness), 견고성(Robustness), 프라이버시·보안(Privacy & Security), 해석 가능성(Interpretability) 등 실제 현장에서 안전하고 윤리적인 AI를 구현하는 기반을 연구합니다.

Developing reliable, fair, and robust AI systems that generalize well under real-world uncertainties.

주요 연구 분야

공정성(Fairness)

AI 시스템이 특정 집단에 대한 편향 없이 공정한 결정을 내릴 수 있도록 하는 알고리즘 개발

견고성(Robustness)

적대적 공격이나 예상치 못한 입력에도 안정적으로 작동하는 AI 모델 설계

프라이버시 & 보안

개인정보를 보호하면서도 효과적인 학습이 가능한 기술 연구

해석 가능성(Interpretability)

AI 모델의 의사결정 과정을 이해하고 설명할 수 있는 방법론 개발

관련 프로젝트

인공지능 시스템의 실용화를 위한 딥러닝 안정성 알고리즘 개발

2022.06 - 2025.02 한국연구재단 기본연구

표현 학습, 적대적 노이즈 대응, 강건한 모델 개발, noisy 라벨 학습

#Generalization #Robustness #Fairness

공정한 인공지능 면접 모델 알고리즘 개발

2022.07 - 2022.12 Genesis Lab

인공지능 면접 시스템의 공정성 분석 및 개선 알고리즘 개발

#Fairness #Multimodal #Deep learning

윤리적인 다국어 LLM 활용을 위한 문맥 기반 탈옥 가드레일 구축

2025.03 – 2027.02 한국연구재단 우수신진연구

LLM 탈옥 공격 탐지 및 방어, 다국어 유해 데이터셋 구축, 퍼플팀 기반 보안 연구

#Large Language Model #Jailbreaking #Guardrail