Data Science! 13

[글또 10기] OpenAI API, Whisper 와 Streamlit 으로 프로토타입 챗봇 만들기

들어가기 앞서이 글을 읽으시는 사람이면 어느정도 IT에 관심이 있으실 분들이니 미리 말합니다.Streamlit 은 프로토타이핑 용도이지, 진짜 배포용이면 Django, Flask 나 허깅페이스, 또는 OpenAI API(이거로 배포해볼 생각입니다) 를 사용하셔야 합니다. 기능 설명1. 맞춤형 챗봇이기 때문에 사용자의 개인정보를 어느정도 받아서 작동합니다.2. Whisper 를 활용해서 음성인식을 합니다.3. OpenAI API를 활용해서 부적절한 내용들을 필터링합니다. 코드 설명우선 개발 환경을 설정해줍니다. 필요한 패키지를 pip 로 다 import 해준뒤 파이썬에서는 openai api 키를 넣어줍시다.pip install openai streamlit sounddevice numpyimport op..

Data Science! 2025.02.16

조금 늦은 2024년 회고

연말 마무리, 언론취재, 그리고 Skilled Worker Visa 전환문제 때문에 정신없어서 글을 쓰지 못했습니다. 결국 비자 스폰서는 받았습니다. 산업계에 대한 생각 제가 요즘 산업계에 대해서 느끼는 점들이 빅테크 위주로 재편되면서 개인 회사에서 할 수 있는 자유도는 비교적 축소된다는 거 같습니다. 사실 LLM을 개발한다는 건 내가 OpenAI 나 구글, 클로드 등과 정면 승부하겠다는 소리고, 트레이닝이나 데이터셋 수집에 필요한 리소스 양도 장난없어서 차라리 OpenAI 나 클로드 API를 유료로 결제해서 쓰는게 싸고 좋게 먹힐 가능성이 큽니다. 특히 영어처럼 대중화 되어있는 경우는요.컨설턴트로 일하시는 박사분 한분 아는데 그분 역시 허깅페이스에서 LLM 하나 가져다가 Off the shelf 로 쓰..

Data Science! 2025.01.19

[글또 10기] 영국문화원 주관 ELTons상 수상 경험 (아마 한국인 최초일수도?)

원래 연말 이때쯤 되면 GOTY 시상식이 가장 기다려지는데, 이번에는 저희 회사가 제가 작업한 프로젝트를 가지고 ELTons 상 시상식에 결승까지 나가게 되어서 GOTY는 뒷전이고 ELTons 시상식이 더 기대되는 연말이었습니다. 기사 원문은 여기 링크를 타고 가시면 됩니다.ELTons Festival of Innovation | British Council ELTons 상이란? : 영어 교육 혁신의 상징세계적으로 권위 있는 ELTons(English Language Teaching Innovation Awards)는 매년 영어 교육 분야에서 혁신적이고 창의적인 프로젝트를 발굴하고 수상하는 행사입니다. 영국문화원(British Council)이 주최하는 이 상은 영어 학습자와 교사에게 긍정적인 영향을 미..

Data Science! 2024.12.08

[글또 10기] 논문 소개 - LLM vs XGBoost. 머신러닝은 약육강식이 아닌 적자생존!

들어가기 전에 머신러닝, 자연어처리나 인공지능 등에 관심이 있는 사람이라면 제목부터 뭔가 뜬금없다고 생각할 수 있습니다. 분명 XGBoost는 비교적 단순한 머신러닝 알고리즘 아니었나? 하시는 분들이 많으실 겁니다 ChatGPT 를 필두로 세상을 뒤흔든 LLM과 비교적 단순한 통계학 기반 머신러닝 모델의 비교라니, 이 무슨 블랙 위도우랑 스칼렛 위치가 싸우는 소리인가 궁금하실 겁니다. 허나, AI 의 세계는 그렇게 단순하지는 않습니다. 딥 러닝의 대두에도 불구하고 RF, 로지스틱 회귀, SVM 등의 모델들은 여전히 현역입니다. 딥 러닝 알고리즘 끼리만 비교해봐도 RNN, GAN 등이 나왔지만 아직도 영상인식 분야에서는 CNN을 압도하지 못했습니다 (구조상의 이유가 크지만요).  따라서 블랙 위도우와 스칼..

[글또 10기] AI 로드맵 작성하면서 느낀 점

**인공지능(AI)**은 이제 교육, 의료, 비즈니스 등 다양한 분야에서 필수적인 도구로 자리 잡았습니다. 하지만 AI를 효과적으로 통합하기 위해서는 구체적인 계획과 체계적인 접근이 필요합니다. 이번 블로그에서는 AI 로드맵을 구축하는 과정에서 중요한 단계와 고려해야 할 요소들을 소개합니다.1. 목표 설정: 비즈니스와 사용자에게 중요한 문제 해결AI를 도입하기 전에, AI가 해결할 수 있는 문제를 명확히 정의하는 것이 중요합니다. 이는 AI가 실질적인 가치를 제공할 수 있는 지점을 찾는 과정입니다. 예를 들어, 교육 분야에서는 학습자 맞춤형 콘텐츠 제공, 자동 채점 시스템 구축, 성과 분석을 통한 학습 개선 등을 목표로 설정할 수 있습니다. 명확한 목표가 없으면 AI 프로젝트는 방향을 잃기 쉽습니다.2...

Data Science! 2024.10.14

[중고등학생도 이해할 수 있는 AI 이야기] CNN (합성곱 신경망) 2 - 풀링, FC 레이어

양 : 강형ㅇ 동영상 다 봤지? 참 요즘 할거 많아. 우리 어릴땐 그냥 플래시 게임이었는데 ㅋㅋㅋ 조 : 에이 형 피시방가서 친구들하고 카오스, 와우, 그런거 겁나했다면서. 양 : 플래시는 문자 그대로 초등학생때지. 너네 쥬니버 들어가던 거처럼. 그나저나 플래시 너희 어릴때 단종됫다며? 혹시 플래시로 뭐 만들어보고 그랬니? 조 : 나도 게임 만들어 보려고 한번 손대봤어. 그런데 플래시 이야기는 왜? 양 : 딥러닝 이야기 다시 하려고 그런다. 플래시 보면 '레이어' 라는 기능 있지? 조 : 그 층층이 있는거? 양 : 그게 딥러닝에도 사용되. 우리가 사고하는 단계를 레이어로 표현한거야. 아까 그렇게 말하던 합성곱은 그 레이어 중 하나야.위에 사진을 보면 예시가 나와있는데, 주로 합성곱->풀링->합성곱->FC..

[중고등학생도 이해할 수 있는 AI 이야기] CNN (합성곱 신경망) 1 - 커널, 채널, 합성곱 연산

이번부터는 컨셉을 좀 바꿉니다. 조카 (이하 조): 그러니까 머신러닝이면 몸무게 같은 거 넣어서 포메랑 스피츠 구별하게 하는거고, 딥러닝이면 그냥 사진 던져줘서 우리가 배우듯이 배우게 하는거지? 아 근데 형, 컴퓨터가 포메하고 스피츠 구별하게 하려면 어떻게 코딩 해야되? 파이썬으로 if weight

중학생도 이해할 수 있는 AI 이야기 - AI 가 손을 못 그리는 이유 딥러닝 vs 머신러닝

알파고 쇼크 뒤 몇년이 지났는데도 딥러닝과 머신러닝의 차이를 잘 이해하지 못해서 제게 물어보시는 분들이 계십니다. 흔히 딥러닝을 사람들이 언급할때 자주 하는 말이 '사람의 생각을 본따' 라고 하는데, 이 말을 통해서 설명해드릴게요. 머신러닝은 학습할 때 특정 수치를 받습니다. 딥러닝은 결국 숫자로 변환하긴 하지만, 이 수치가 뭔지 직접 사람이 가르치지는 않습니다. 잘 안 와닿으신다고요? 그렇다면 이렇게 생각해 봅시다. AI에게 포메라니안과 (재패니즈) 스피츠를 구분하도록 학습시킨다 해봅시다. 머신러닝의 경우 몸무게, 모색(물론 숫자코드로 받습니다), 체고, 머즐길이 등 수치를 받습니다. 블랙탄, 갈색 스피츠나(적어도 재패니즈 스피츠가 대다수인 한국에서는) 5키로가 넘는 포메라니안은 보신 적이 없을겁니다 ..

[수학] 파이썬으로 배워보는 확률 - 3편 중심극한정리 (난이도 : 중상)

인터넷을 좀 하신 분들이라면, 세상은 정규분포 라는 말을 한번쯤은 들으셨을겁니다. 짤방으로도 유명하죠. 이 현상을 수학적으로 유식하게 말하자면 중심 극한 정리 라고 합니다. 1강에서 확률의 정의 언급할때 나온 수학자 라플라스의 정의를 빌리자면, 수많은 독립 확률 변수 n개의 평균의 분포는 n 이 적당히 크다면 정규분포에 가까워진다는 정리입니다. 어렵게 들리지만, 저번에 했던 부루마불 시뮬레이션으로 돌아가 봅시다. 주사위 하나를 굴릴때, 모든 눈의 확률은 1/6 으로 동일했습니다. 하지만, 주사위 두개를 굴리는 순간 분포가 어떻게 변했나요? 7이 가장 많이 나오는 정규분포 표로 변했던 걸 기억하실 겁니다. 주사위의 눈들은 상호간에 영향을 주지 않는 독립 확률을 따르는데, 두개만 굴려도 정규분포 표로 변하는..

[수학] 확률론 - 파이썬으로 짜는 부루마불 시뮬레이터 (난이도 : 중상)

모든 수업은 파이썬 (Python 3 이상) 으로 진행됩니다. Pycharm 등 IDE 사용도 좋지만, Jupyter Notebook 이나 Google Colab 사용을 더욱 권장드립니다. Google Colab 에 있는 전체 컴필레이션은 확률편 마지막 강의에 올릴 예정입니다. 저도 게임 좋아했고, 이 글 읽으시는 분들도 IT에 관심 있고 게임과 완전 거리가 머실 분들은 아니시기 때문에 오늘은 게임 썰 한번 풀어봅시다. 리그 오브 레전드나, 배틀그라운드, 둠 이터널, 워해머 3 이런 좀 복잡한 최신 게임 말고... 남녀노소라면 다 아실 부루마불이요! 확률론을 배웠으니까, 우리는 주사위를 n 번 던지면 다음에는 어느칸에 있을지 시뮬레이팅 하는 프로그램을 짜 볼 예정입니다. 아시다시피 주사위는 등기 확률입니..