본문 바로가기

전체 글173

직장인 대학원생 위한 맞춤 논문세미나 육아랑 회사랑 잘 병행해보고자 논나를 듣고있다. 첫번째 나의 논문을 위하여^^툴도 좀 익숙해보자조테로라는 툴이있네https://chanmuzi.tistory.com/489https://www.youtube.com/watch?v=91VUt5I1SKQ&list=PLXwZM4oxLDeM9L8_hmo7n_nnYkXAol3Jk옵시디언도 좀 써봐야겠다canvasgraph view[[연결]]scispacechrome-extension://cipccbpjpemcnijhjcdjmkjhmhniiick/authConfirmation.htmlhttps://www.sci-hub.se/Consensushttps://consensus.app/Litmapshttps://effortlessacademic.com/litmaps-vs-r.. 2025. 2. 8.
DeepSeek Aha-moment부분만 남겨봅니다 DeepSeek Aha moment부분만 남겨봅니다.DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.Aha Moment of DeepSeek-R1-Zero A particularly intrig.. 2025. 2. 5.
DeepSeek 정리해보자 지친 심신을 달래며 수강신청도 준비하고 오랜만에 https://www.youtube.com/watch?v=PKaSOnYLiHg 라이브를 듣는 중이다. 들으면서 미뤄뒀던 DeepSeek정리해 봐야겠다.DeepSeek R1의 깨달음의 순간(Aha moment)R1은 모델이 문제 해결 접근 방식을 일시 중지, 재평가 및 최적화 하는 깨달음의 순간을 보여주는 능력으로 관심을 끌었다. 이런 행동은 딥식R1이 단순히 정보를 처리하는 것이 아니라, 자신의 문제 해결 전략을 반영하고 그에 따라 구체화하는 능력인 메타인지에 적극적으로 참여하고 있음을 시가한다. 엔지니어들은 이런 발전이 사전 훈련된 패턴에만 전적으로 의존하는 대신 과거 경험을 기반으로 의사결정 프로세스를 최적화 하는 강화 학습 프레임워크 덕분이라고 한다... 2025. 2. 5.
Building effective agents 25년은 에이전트 해가 될거라고 하지만 Agent서비스나 플랫폼들이 나오는걸 보면 아직은 잘 모르겠다는 생각이 든다.리뷰논문을 작성해보고 하는 일을 되돌아보면서 드는 생각은.. 현재 니즈는 '대화'를 통해서 봇,에이전트라는 개념이 하이브리드의 접근이 비용이나 속도 측면에서도 효율적이지 않을까 싶다.하이브리드 측면의 접근이 라우팅이라는 개념으로 나오게된것 같다는 생각이다. 플래닝과 수행능력이 있는 모델을 선택하는것인데 이 비율을보면 현 시대를 사는 사용자들의 행동패턴이 보일것같다.여튼.. 그렇게 생각하는 이유는 나 역시도 난이도가 높거나 또는 맞춤형과 같은 요구사항을 하고 있진 않다. 아마도 검색에 익숙한 세대이기 때문이지 않나 싶다. 검색을 해서 정보를 이해하는 세대였으니까 말이다.그래서 궁금한걸 물어보.. 2025. 1. 3.