이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: Transformer‑XL: Attentive Language Models Beyond a Fixed‑Length Context저자 / 소속: Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov출판 연도 / 학회: 2019년 / arXiv, ACL 2019링크: arXiv:1901.02860 ✍🏻 TL;DR – 한 줄 요약Transformer‑XL은 세그먼트 간..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks저자 / 소속: Nils Reimers, Iryna Gurevych / Technische Universität Darmstadt (UKP 연구실)출판 연도 / 학회: 2019년 / EMNLP링크: arXiv:1908.10084 ✍🏻 TL;DR – 한 줄 요약BERT의 비효율적인 유사도 계산 구조를 개선하기 위해 siamese BERT 구조를 활용한 Sen..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: Sequence to Sequence Learning with Neural Networks저자 / 소속: Ilya Sutskever, Oriol Vinyals, Quoc V. Le / Google Brain 등출판 연도 / 학회: 2014년 / coRR링크: arXiv:1409.3215 ✍🏻 TL;DR – 한 줄 요약입력 시퀀스를 LSTM 인코더로 고정된 벡터로 압축하고 이를 바탕으로 디코더가 출력 시퀀스를 생성하는 end-to-end seq2seq 구조를 제안하여..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: Llama 2: Open Foundation and Fine‑Tuned Chat Models저자 / 소속: Hugo Touvron, Louis Martin, Kevin Stone 외 / Meta AI출판 연도 / 학회: 2023년 7월 / arXiv링크: arXiv:2307.09288 ✍🏻 TL;DR – 한 줄 요약Meta는 7B부터 70B까지 다양한 크기의 LLM을 공개하고, 인간 피드백 기반 튜닝을 통해 Llama 2-Chat 모델이 오픈소스 챗 모델 중 최고 ..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: LLaMA: Open and Efficient Foundation Language Models저자 / 소속: Hugo Touvron, Thibaut Lavril, Gautier Izacard 외 / Meta AI출판 연도 / 학회: 2023년 2월 / arXiv링크: arXiv:2302.13971 ✍🏻 TL;DR – 한 줄 요약Meta는 공개 데이터만으로 훈련된 LLaMA 시리즈(7B~65B)를 제안하였으며, 13B는 GPT‑3보다, 65B는 PaLM‑540B나 C..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: Direct Preference Optimization: Your Language Model is Secretly a Reward Model저자 / 소속: Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn / Stanford 등출판 연도 / 학회: 2023년 / NeurIPS 2023링크: arXiv:2305.18290 ✍🏻 TL;DR – ..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: Training language models to follow instructions with human feedback저자 / 소속: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida 외 / OpenAI출판 연도 / 학회: 2022년 arXiv 게재, NeurIPS 워크숍 발표링크: arXiv:2203.02155 ✍🏻 TL;DR – 한 줄 요약Supervised 학습과 RLHF(Reinforcement Learning from Hu..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: LoRA: Low-Rank Adaptation of Large Language Models저자 / 소속: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen / Microsoft, University of Washington 등출판 연도 / 학회: 2021년 / arXiv, NeurIPS Workshop 2021 발표링크: arXi..
이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다. 📌 논문 정보논문 제목: SimCSE: Simple Contrastive Learning of Sentence Embeddings저자 / 소속: Tianyu Gao, Xingcheng Yao, Danqi Chen / Princeton University & Tsinghua University출판 연도 / 학회: 2021년 arXiv 발표, 2022년 최종 배포링크: arXiv:2104.08821 ✍🏻 TL;DR – 한 줄 요약SimCSE는 드롭아웃을 활용하여 문장 간 의미 유사도를 효과적..