프로그램은 오래 짜왔지만 경력에 비하여 코딩 실력은 그리 뛰어나지 않다고 생각됩니다.
다만 제가 잘하는 걸 생각해보면 
나름 버그 없는 프로그램 (제가 개발한 제품들은 보통 24시간 꺼지지 않거나 하루 12시간 이상
계속적으로 사용되는 금융 데이터 처리하는 제품) 을 만들고, 
문제 발생시 디버깅 대처 능력이 매우 빠르다는 것입니다.
 
펌웨어 변경시마다 수십억 이상의 배상건이 발생할 가능성이 있는 시스템을 다루면서
극도의 긴장감과 공포속에서 나날을 보냈던 기억이 납니다. 
펌웨어 오류로 옆동네에서 회사 파산하고 개발자 도망가고 그런 모습들을 보면서 나한테도 그런일이 생길까
노심초사하던 시절이 있었습니다. 이 일도 익숙해지면 그냥 그렇더라구요. 
 
그런 와중에 살기위한 대책으로 자연스레 학습이 되었는데
버그 없는 코딩 이전에 버그 찾는 방법을 알려드립니다. 대부분 이걸 필요로 하실 겁니다.
 
펌웨어의 경우 문제가 발생하면 보통 2가지중 하나입니다.
   하드웨어냐 펌웨어냐!
   1) 펌웨어 엔지니어는 하드웨어를 의심하고 하드웨어 엔지니어는 펌웨어를 의심합니다.
   2) 답은 자신을 의심하세요. 남을 의심하는 것은 나에 대한 완벽한 논거가 확립된 뒤에야 
      의심하시면 됩니다.
 
제가 디버깅 하는 순서로 주로 현장 시스템인 경우입니다.
너무 원론적인 거라 잘 적용이 안될 수는 있지만 해결 방법은 대동소이합니다.
 
사례를 들면 좋은데 너무 전문적으로 가게 되어서 일반적인 방법론으로 풀어봅니다.
 
1. 전체를 파악한다.
   보고자가 말하는 의중을 제외하고 사실 데이터만 수집한다.
   직접 현상을 확인해본다. 책상머리에서 상상으로는 해결이 불가하다.
   참고로 보통 보고자들은 이상 발생에 대하여 과장보고하는 경우가 일반적입니다.
2. 그 중에서 확실한 것은 제외한다. 확실하다는 것은 이론과 실증을 통하여 자기 확인이 아닌
   정확한 데이터에 기반한 확실한 것을 말합니다.
   정확하게 이론과 실증입니다. 10년동안 잘 돌던 코드는 약간의 실증만 있는 코드 입니다. 
   이론으로 바탕되지 않은 코드죠. 해당 코드 부분을 잘라서 거의 모든 경우의 데이터 입력을 통한 
   시뮬레이션 후 일치를 확인하고 믿어야 합니다.
3. 2번을 생각하면 거의 모든게 의심스러워 집니다. 왜냐하면 데이터시트도 제대로 안보고 만든게 많기 때문이죠.
   이제서야 보기 시작합니다.
4. 발생 빈도를 확인한다.
   단 한번 발생하고 안했느냐. 지금도 계속 발생하느냐. 특정 조건에만 발생하느냐(이 경우는 해피한 경우입니다)
5. 약간은 좁혀진 범위에서 의심가는 부분을 과도하게 반복시켜서 재현이 되는지 확인한다.
   여기서 과도한 반복이 어려운 경우가 제일 문제가 되긴 합니다만 세상에 방법이 없는 건 없습니다.
   3개월에 한번 발생한다면 배포한 단말기들의 프로그램을 변경(의심부분 로그만 확인)하고 
    재현될때까지 정말 3개월동안 기다린 적도 있습니다. 총 수정까지 1년이 걸렸구요.
6. 과도한 반복을 통한 재현이 되면 거의 그 부분이 확실한 겁니다.
   그럼 재현이 잘 되니 점차 함수의 범위를 좁힐 수 있습니다.
   계속 큰데서 작은데로 범위를 좁혀갑니다.
   일반적으로 여기서 실수하는데 처음부터 의심가는 부분 작은데서만 집중하면 해결이 안됩니다.
   의외로 내가 확신했던 부분에서 오류가 발생합니다.
7. 확실한 코드 부분을 찾으면 동일한 상황을 만들어서 정확히 재현시켜 봅니다.
   그러면 100% 확인이 된 겁니다.
8. 이상하게도 재현이 안된다 라는 상황이 있습니다. 그러면 5번 참조. 재현이 됩니다.
   몇달만에  한번 생기더라도 그물을 쳐놓고 몇달 기다리면 됩니다.   
   이 문제로 회사가 망하는 게 아니라면 내부적으로 그 부분을 과도하게 동작하도록 처리하고
    최대한 많은 단말기에 다운로드해서 상황을 지켜봅니다. 발생이 더 잘되면 기뻐하면 됩니다.
9. 그럼에도 나는 완벽하다면 슬슬 하드웨어를 의심해야 됩니다.
   모든 데이터를 수집하세요. 날짜별 발생 빈도, 단말기 위치, 그날의 온도 습도 까지도 등등 
   빅데이터 처럼 모을 수 있으면 찾기가 더 쉽습니다.
10. 통신문제 처럼 되었다 안되었다 하면 통신관련 소자의 클럭이나 크리스탈에 달린 커패시터 값을 확인하세요.
11. 펌웨어가 운영 중 소자 다운시 리셋을 걸어주고 초기화 과정을 다시 잘 실행하는 지 확인하세요.
12. 해당 하드웨어가 노이즈 테스트 및 정전기 테스트는 하였는지 확인하고 안했다면 테스트 해보세요.
    라이터 부싯돌로도 단말기가 죽는 수도 있습니다.
13. 보드의 여러 소자들의 최대 주파수 범위내로 동작시키고 있는지, 데이터 시트를 몽땅 다시 다 확인해보세요.
14. 역시 보드의 여러 소자들의 리셋 타이밍도 맞게 동작시키고 있는데 확인해보세요.
15. 그래도 못찾으면 펌웨어가 와치독을 제대로 사용하고 있는지 확인하세요. 
    최악의 경우 재부팅은 되어야 겠지요. 그렇게 해서 가끔씩 재부팅하는 체로 동작하게 하세요. 
   시간도 벌고 일단 살고 봐야 되니깐. 
   그 다음에 퇴사하세요. (농담입니다 ㅎㅎ)
 
    
다음번에는 죽은 하드웨어도 인공호흡으로 살리는 
"PCB 노이즈 대책 코딩 기법"에 대하여 한번 올려드리겠습니다.
이런게 이론으로 있는지는 모르겠지만 저는 효과가 있다고 봅니다.
 
하드웨어 엔지니어가 엉망이라도 우리 펌웨어 엔지니어는 살려 낼 수 있습니다.
너무 하드웨어만 탓하지 마세요. 담에는 하드웨어 엔지니어가 펌웨어 엔지니어를 살려 줄껍니다.

 

+ Recent posts