빅데이터 엔지니어링 분야의 지식은 방대하기 때문에 처음부터 공부를 시작하기 쉽지 않습니다. 하둡이 뭔지, 스파크가 대세라고 하는데 그건 또 뭔지, 무엇을 알아야 데이터 엔지니어가 될 수 있는건지... 빅데이터 분야의 커리어를 시작하고 싶으나, 자신이 무엇을 모르는지도 모르는 상태로 느껴질 수 있습니다.

작년 말 쯤 저도 이와 비슷한 느낌을 가지고 있었습니다. 하지만, 올 해 배운 것들이 쌓여 점차 블랙박스처럼 느껴졌던 것들이 보이기 시작했고 무엇을 모르는지를 아는 상태가 되었습니다. 빅데이터 엔지니어링이 뭔지 대충 감이 오는 개발자로 거듭난 것이죠.

이번 글에서는 2019년도의 스스로를 회고하며 저의 생각과 느낌 점을 두서 없이 적어보겠습니다.

아쉬운 점, 좋았던 점

입사 초 저는 데이터 엔지니어링 관련 지식이라곤 몇 가지 용어를 주워들은 정도 뿐이었습니다. 그러나 운이 좋게도 취업에 성공해서 데이터 플랫폼 운영 조직에 합류하게 되었습니다. 초반에는 회사 사정으로 인해 데이터 인프라를 통째로 마이그레이션하는 대규모 작업을 했는데, 이후 안정기를 거쳐 현재는 약 15 페타바이트의 데이터와 이를 처리하기 위한 플랫폼을 운영하게 되었습니다.

이러한 과정은 고작 6개월이 채 안 된 기간 동안 이뤄졌는데, 그 동안 정말 많은 것을 공부해야만 했습니다. (기술적인 것, 레거시, 업무 히스토리 등) 공부하는 과정은 여유있지 않았고, 기반 지식이 없던 저로써는 페이스를 쫓아가기 위해 큰 그림을 이해하고 다음으로 넘어가는 방식으로 접근했습니다. 덕분에 실무적인 흐름을 비교적 빠르게 터득했지만, 근본 지식이 부족했습니다.

아쉬운 점

아쉬운 점은 데이터 엔지니어라고 자신 있게 말할 만큼의 지식이 각인되지 않았다는 것입니다. 위에서 언급한 것 처럼, 저는 데이터 플랫폼을 이해하면서 큰 그림을 위주로 빠르게 이해하고 넘어가기 바빴습니다. 하둡 에코시스템의 복잡성 뿐만 아니라, 이를 엮어서 무언가의 기능을 제공하고 있는 레거시 시스템을 이해하기 위해서는 기술 하나 하나에 집중해서 공부를 할 수 없었습니다. 최대한 추상화하고, 최대한 키워드 위주로 이해하며 머릿 속으로 시스템 구성도를 숙지해야만 했습니다.

결국, 그래서 어떤 기술을 잘 다루시나요? 라고 물어본다면 이걸 잘 합니다! 라고 자신있게 대답하기가 어려웠습니다. 물론 빠른 변화에 대응하여 다양한 지식들을 스스로 접하고 빠르게 터득하는 것이 중요한 덕목이라고 할 수 있습니다. 하지만, 변화하지 않는 메인스트림이라는 것은 분명 존재한다고 생각하기 때문에 특정 기술 혹은 언어 정도는 문서를 참고하지 않고도 설명 가능한 수준으로 머릿속에 탑재하고 있어야 한다고 생각합니다.

좋았던 점

좋았던 점은 내가 무엇을 모르고 무엇을 공부해야 하는지 방향성을 얻었다는 것입니다. 큰 규모의 기업에서 운영되는 데이터 인프라의 A to Z를 얕지만 넓게 경험하면서, 실무에서 데이터 인프라가 운영되기 위해서 발생하는 어려움들이 무엇이고, 스스로 모르는 것이 무엇인지 알 수 있었습니다. 이를 기반으로 제가 어떤 부분에 흥미가 있는지를 알게 되었고, 스스로의 커리어 방향성을 잡아나가는 데 조금이나마 도움이 되지 않을까 생각합니다.

개인적으로 도움이 된 것

많이 부족했지만, 그나마 한 해의 여정을 버티고 따라갈 수 있도록 저에게 도움이 되었던 것들이 어떤 게 있었는지 두 가지 정도 생각해봤습니다.

1. 리눅스

저는 개인적으로 리눅스를 좋아하는 유저 중 한 명입니다. 과거에 리눅스를 처음 접하고, 공부해야겠다는 생각에 윈도우 노트북을 밀고 우분투를 설치해서 개인 랩탑으로 사용하기도 했습니다. (물론 지금은 맥을 씁니다.) 당시에는 왜 이런 삽질을 하면서 사서 고생을 하고있나... 하며 생각할때도 많았지만, 막상 그 때의 경험들이 지금까지도 저에게 많은 도움을 주고 있는 것 같습니다.

본론으로 돌아가서, 리눅스는 서버를 다루는 경우 숙지해야 하는 필수적인 시스템입니다. 데이터 엔지니어도 마찬가지인데요, 지금 생각해보면 제가 리눅스를 편하게 쓴다는 점이 매우 큰 이점으로 작용한 것 같습니다. 뭔가를 하나 하려고 해도, 기본적으로 리눅스 서버에 친숙하지 않다면 그 위에서 도는 데이터 플랫폼과도 친숙할 수가 없는 것 같습니다.

2. 네트워킹 활동

이번 한 해는 저에게 있어서 가장 활발하게 스터디를 참여했던 해이기도 합니다. 저는 동기부여 목적으로 커뮤니티를 통해 빅데이터 스터디를 구해서 시작했는데요, 시작할 때는 공부하는 것에 목적이 있었다면, 지금은 각자의 실무 고민과 경험을 공유하고 나아가 인맥 유지의 목적도 생긴 것 같습니다.

이런 활동에서 가장 좋았던 점은 다른 기업의 실무적인 고민을 들어볼 수 있었다는 점입니다. 데이터 플랫폼의 큰 뼈대는 비슷할 수 있으나, 현실 세계에서는 회사마다 각각의 비즈니스와 유즈 케이스에 따라 다양한 프랙티스와 노하우가 존재한다고 생각합니다. 정말 잘 하는, 혹은 인사이트가 뛰어난 개발자들은 이러한 활동에서 얻은 지식을 통해 자신의 상황에 맞게 적용할 수 있는 사람이라는 생각이 들었습니다.

결론

  • 데이터 엔지니어링 관련 지식은 아직 미약하지만, 방향성을 얻은 한 해다
  • 리눅스를 할 줄 알았던 점과 네트워킹 활동이 크게 도움되었다

'기타' 카테고리의 다른 글

데이터 엔지니어란?  (0) 2019.09.18
지식에도 유통기한이 있다  (0) 2019.05.12
2019 구글 머신러닝 스터디잼 후기 - 초급반  (0) 2019.03.01
성당과 시장의 한 구절  (0) 2018.12.02
티스토리 시작하기  (0) 2018.11.27