Company

Textscope®

Business

Insight

Career

사람처럼 문서를 이해하는 AI, 어떻게 만들까요?

ML Engineer Son

사람처럼 문서를 이해하는 AI를 어떻게 만드는 지 Son의 이야기를 들어볼까요?

사람처럼 문서를 이해하는 AI를 어떻게 만드는 지 Son의 이야기를 들어볼까요?

Son avatar
Son avatar
Son avatar

간단한 자기소개를 부탁드려요

안녕하세요. 로민에서 ML 엔지니어로 일하고 있는 Son입니다. 저는 석사 과정 동안 자연어처리(NLP) 분야를 연구했고 로민에 입사 후 Multi-modal AI 연구를 시작했어요. 지금은 문서 이해를 위한 VLM(Vision Language Model) 연구 개발을 진행하고 있습니다.

로민의 ML팀 엔지니어는 어떤 일을 하나요?

저희 ML팀은 문서 이미지에서 정보를 추출하는 다양한 기술을 수행해요. 문서 이미지에서 Key-value 정보와 표 정보를 추출하는 등 데이터를 구조화하기 위한 모델을 개발하고 있어요. 추론 파이프라인을 설계하고 전처리, 후처리 알고리즘을 구현하는 일도 함께하고 있고요.


최근에는 모든 종류의 문서에서 정보를 추출할 수 있도록 대규모 VLM에 대한 모델 학습, 추론 파이프라인과 모델 서빙까지 전반적인 과정을 진행하고 있답니다.


새로운 서비스를 시작할 땐 데이터팀과 협력해 라벨링 방식을 정하고 데이터를 받은 후에 가장 적합한 모델을 학습시켜 백엔드팀에 배포하는데요. 이 과정에서 발생하는 문제들을 해결하며 모델의 성능을 개선하는 것도 중요한 업무 중 하나예요.



로민의 조직문화나 분위기는 어떤가요?

로민은 자유롭고 수평적인 팀 문화를 갖고 있어요. 서로를 배려하고 존중하며 일하고 있어서 누구든 자신의 의견을 자유롭게 이야기할 수 있죠. 다양한 사람들과 편하게 소통하며 아이디어를 나눌 수 있다는 점이 큰 장점이라고 생각해요.


그리고 로민에서는 분기마다 타운홀 미팅을 열어 그동안 진행했던 프로젝트를 되돌아보고 목표를 함께 설정해요. 이때 좋은 성과를 낸 우수 로민인을 선정해 특별 휴가를 주고 있는데요. 모두가 함께 성과를 축하하며 동기부여를 얻고 있어요.



엔지니어로서 느끼는 로민의 매력이 궁금해요.

로민 ML팀의 가장 큰 매력은 자기 주도적인 프로젝트 진행과 빠른 성장이에요. 대부분의 프로젝트에는 정해진 정답이 없어서 스스로 개발 계획을 세우고 구현하면서 주도적으로 끌어 나갈 수 있죠. 문제 정의부터 모델 개발, 서빙까지 전 과정을 직접 경험하면서 빠르게 성장하는 것을 경험할 수 있을 거예요.



Son님의 스트레스 해소법이 있나요? 

취미로 클라이밍을 하고 있어요. 클라이밍은 출발 지점부터 여러 돌을 잡아 올라가면서 도착 지점까지 도달해야 하는데요. 이 과정을 반복하면서 성장하고 있다는 걸 체감할 수 있고 성공과 실패가 명확한 스포츠라서 성취감이 있어요. 덕분에 업무 스트레스도 해소하면서 다시 달려갈 힘을 얻곤 해요.



로민에 입사하게 된 계기는 무엇인가요?

석사 과정에서 자연어 처리를 연구하면서 언어만으로는 세상을 온전히 이해하는 데 한계가 있다는 것을 많이 느꼈어요. 그래서 멀티모달(Multi-modal) 연구에 큰 관심을 갖게 되었고 자연스레 Document AI를 연구하는 로민에 입사하고 싶었어요. 실제로 서비스되는 제품 개발에 참여해 실무 경험을 쌓고 싶은 마음도 컸고요.



머신러닝 엔지니어라는 직무를 선택한 이유가 궁금해요.

제 궁극적인 목표는 사람에게 도움이 되는 AI를 만드는 거였어요. 개발자, 연구자로서 다양한 직무가 있겠지만 실질적으로 사람에게 도움을 줄 수 있는 AI를 직접 개발하며 다양한 경험을 하고 싶어서 머신러닝 엔지니어라는 직무를 선택하게 되었어요.



가장 보람을 느낀 순간은 언제인가요?

무역 서류 처리 프로젝트에 VLM을 도입했던 경험이 가장 기억에 남아요. 기존 모델의 한계를 극복하기 위해 새로운 접근 방식을 시도했는데요. 이때 모델 탐색부터 학습, 서빙 파이프라인 구축까지 수개월간 도전했어요. 결국 높은 인식률로 프로젝트를 성공적으로 완수했을 때 큰 보람을 느꼈죠.



최근 관심 있는 업무 관련 기술이 있나요?

최근 DPO(Direct Preference Optimization) 기술에 관심이 많아요. 지도 학습은 모델이 정답을 그대로 출력하도록 학습하는 방식을 말하는데요. 사람의 선호나 맥락을 충분히 반영하지 못하는 한계가 있어요. 반면에 DPO는 사람이 더 선호하는 응답을 직접 모델에 반영하는 학습 방식이고요. 이를 문서 이해 및 정보 추출 VLM 학습에 활용한다면 사용자가 원하는 방향으로 모델을 최적화할 수 있을 거라 생각해 관련 연구를 관심 있게 보고 있습니다.



로민의 ML팀 엔지니어에게 가장 필요한 역량은 무엇일까요?

가장 중요한 건 문제 정의 및 해결 능력이에요. 실제 ML 서비스에서는 예상치 못한 다양한 문제가 자주 발생하거든요. 예를 들어 모델이 특정 문서를 잘 인식하지 못할 때 빠르게 해결책을 찾아야 하는데요. 이때 합성 데이터를 만들거나 모델 구조를 바꾸는 등 다양한 시도를 통해 문제를 해결해야 하죠. 이를 위해 최신 기술과 연구 동향을 꾸준히 학습하고 새로운 시도를 두려워하지 않는 태도가 필요해요.



로민의 ML 엔지니어로 입사하기 위해 무엇을 준비하면 좋을까요?

실제로 문제를 해결했던 프로젝트 경험이 있다면 좋을 것 같아요. 문제를 해결하기 위해 어떤 노력과 시도를 했었는지 논문이나 보고서 등 다양한 형식으로 보여주는 것이 중요해요. 어떤 형태이든 AI 기술 개발 능력과 문제 해결 능력을 보여줄 수 있다면 충분해요.



예비 로민들에게 한 마디 부탁드려요.

로민은 '사람처럼 문서를 이해하는 AI'라는 하나의 목표를 갖고 모두가 함께 나아가고 있어요. 다양한 사람들과 협업하며 성장할 수 있으니 주저하지 말고 로민과 함께했으면 좋겠습니다!

Copyright © 2024 Lomin.ai. All Rights Reserved

서울시 서초구 방배천로2길 10 JBI빌딩 7층

제품문의 및 기술 상담

일반문의

Copyright © 2024 Lomin.ai. All Rights Reserved