본문 바로가기

나름분류해서써보기175

강화학습Reinforcement learning 데이터셋을 미리 준비하지 않고, 환경과 상호작용하면서 데이터를 수집하고 학습 지도학습/비지도학습 예시코드는 이전 글로 갈음하고 강화학습부터 정리를 해보자. (작성중~)지도학습(Supervised Learning)에서 분류(Classification)와 회귀(Regression)의 차이점분류(Classification)와 회귀(Regression)의 주요 차이점:출력값의 유형:분류: 이산적인 범주나 클래스를 예측합니다 (예: 스팸/정상 이메일, 개/고양이/말 이미지)회귀: 연속적인 값을 예측합니다 (예: 주택 가격, 온도, 주가)목적:분류: 입력 데이터를 미리 정의된 범주 중 하나로 할당하는 것회귀: 입력 변수와 출력 변수 사이의 관계를 모델링하여 연속적인 값을 예측하는 것일반적인 평가 지표:분류: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1.. 2025. 3. 12.
앤트로픽 MCP 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 클로드를 애용하는 사람들의 방에서 MCP얘기를 나누다가 눈으로 글만 보다가 한번 써봐야겠다는 생각이 들었다.여튼 쉽게 쓰는 툴이 최고고, 그 툴로의 유입을 높이는게 BM이라는 생각은 변함이 없다.클로드데스크탑, gpt오퍼레이터 이게 자리를 잡을지 이외 서비스와 플랫폼을 들고있던 기존 플랫폼 회사들이 툴이 아닌 다른 방향으로 플랫폼으로써 다시 자리매김할지 궁금해진다. (이미 그들이 데스크탑을 만들어버려서 이게 슈퍼앱이 된거 아닌가 싶다.)MCP는 앤트로픽에서 더 우수하고 관련성 높은 응답을 생성하는데 도움을 줄수 있는 MCP를 오픈소스로 공개했는데, MCP를 사용하면 앤트로픽뿐만 아니라 모든 모델이 비즈니스 도구 및 소프트웨어와 같은 소스에서 데이터를 가져와 작업을 완료하고, 콘텐츠 저장소 및 앱 개발 환.. 2025. 3. 7.
직장인 대학원생 위한 맞춤 논문세미나 육아랑 회사랑 잘 병행해보고자 논나를 듣고있다. 첫번째 나의 논문을 위하여^^툴도 좀 익숙해보자조테로라는 툴이있네https://chanmuzi.tistory.com/489https://www.youtube.com/watch?v=91VUt5I1SKQ&list=PLXwZM4oxLDeM9L8_hmo7n_nnYkXAol3Jk옵시디언도 좀 써봐야겠다canvasgraph view[[연결]]scispacechrome-extension://cipccbpjpemcnijhjcdjmkjhmhniiick/authConfirmation.htmlhttps://www.sci-hub.se/Consensushttps://consensus.app/Litmapshttps://effortlessacademic.com/litmaps-vs-r.. 2025. 2. 8.
DeepSeek Aha-moment부분만 남겨봅니다 DeepSeek Aha moment부분만 남겨봅니다.DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.Aha Moment of DeepSeek-R1-Zero A particularly intrig.. 2025. 2. 5.