주철 미세조직 분석을 위한 합성곱 신경망에서의 중간층 시각화

Mid-Layer Visualization in Convolutional Neural Network for Microstructural Images of Cast Irons

Article information

Korean J. Met. Mater.. 2021;59(6):430-438

Publication date (electronic) : 2021 May 26

doi : https://doi.org/10.3365/KJMM.2021.59.6.430

Hyun-Ji Lee ¹, In-Kyu Hwang ¹, Sang-Jun Jeong ¹, In-Sung Cho ², Hee-Soo Kim ¹^,

¹Department of Advanced Materials Engineering, Chosun University, Gwangju 61452, Republic of Korea

²Digital Manufacturing Process Group, Korea Institute of Industrial Technology, Gyeonggi 15014, Republic of Korea

이현지¹, 황인규¹, 정상준¹, 조인성², 김희수¹^,

¹조선대학교 첨단소재공학과

²한국생산기술연구원

^*Corresponding Author: Hee-Soo Kim Tel: +82-62-230-7194, E-mail: heesoo@chosun.ac.kr

- 이현지·황인규: 석사과정, 정상준: 박사과정, 조인성: 연구원, 김희수: 부교수

Received 2021 February 23; Accepted 2021 March 30.

Trans Abstract

We attempted to classify the microstructural images of spheroidal graphite cast iron and grey cast iron using a convolutional neural network (CNN) model. The CNN comprised four combinations of convolution and pooling layers followed by two fully-connected layers. Numerous microscopic images of each cast iron were prepared to train and verify the CNN model. After training the network, the accuracy of the model was validated using an additional set of microstructural images which were not included in the training data. The CNN model exhibited an accuracy of approximately 98% for classification of the cast irons. Typically, CNN does not provide bases for image classification to human users. We tried to visualize the images between the network layers, to find out how the CNN identified the microstructures of the cast irons. The microstructural images shrank as they passed the convolutional and pooling layers. During the processes, it seems that the CNN detected morphological characteristics including the edges and contrast of the graphite phases. The mid-layer images still retained their characteristic microstructural features, although the image sizes were shrunk. The final images just before connecting the fully-connected layers seemed to have minimalized the information about the microstructural features to classify the two kinds of cast irons. Matrix phases such as ferrite and pearlite did not show prominent effects on the classification accuracy.

Keywords: machine learning; convolutional neural network; image recognition; microstructure; cast iron

1. 서 론

재료의 미세조직 관찰은 금속과 합금을 포함한 재료공학 연구의 가장 기초가 되는 도구이다. 그중 광학현미경에 의한 관찰은 시편의 준비가 간단하며 방법이 용이하고 고찰이 직관적인 방법이다. 연마와 광택 과정을 거친 시편을 화학적으로 부식시켜 결정립계와 제2상 입자들의 관찰이 가능하다. 확대 배율은 대략 × 50~× 1000 정도이다. 이때 관찰된 금속의 미세조직은 합금의 성분과 제조 공정에 의하여 결정되며, 최종적인 물리적 기계적 특성을 설명하는데에 사용된다. 그러므로 미세조직 관찰은 현재까지의 금속 재료의 연구에서 없어서는 안될 가장 중요한 분석 기법 중의 하나이다 [1].

광학현미경을 통하여 얻어진 미세조직 이미지는 정량적, 정성적 방법으로 분석한다. 결정립이나 제2상의 크기와 분포 등의 정량적 분석은 화상분석(image analysis) 소프트웨어를 통하여 비교적 쉽게 자동적으로 분석할 수 있다. 또한 추가적인 주사전자현미경(scanning electron microscope)과 투과전자현미경(transmission electron microscope), 전자 프로브 미량 분석기(electron probe micro-analyzer) 등을 통하여 정량적인 화학 성분 분석이 가능하다. 한편 정성적인 분석은 일차적으로 육안(肉眼)으로 이루어지고 있으며 인간의 경험과 직관을 필요로 한다.

컴퓨터를 이용한 정성적인 미세조직 분석의 자동화는 최근 각광받고 있는 기계학습을 이용하면 가능할 것으로 예상되며 이에 대한 연구가 진행되어왔다 [2-4]. 4차 산업에 접어들면서 컴퓨터의 발전은 인간의 오감을 기준으로 발달되고 있으며, 특히 이미지 데이터를 토대로 시각적 감각 실현을 구현하고자 만들어진 알고리즘을 이용하여 인공지능 및 기계학습이 주로 발달하였다. 이미지 데이터를 통해 만들어진 딥러닝 알고리즘 중 이미지 인식 및 분류에 효과적인 성능을 보여준 합성곱 신경망(convolutional neural network, CNN)[5]은 여러 분야에 적용하여 손글씨 분류, 피부암 검진 및 CT 촬영본을 학습 데이터로 이용하여 진단 서비스를 예측하거나 CCTV 속 행동 인식을 통해 방범 활동 등 우리 생활 속 편리함 및 문제 발전에 큰 도움이 되고 있다. 이 CNN을 기초로 하여 인셉션(Inception) [6]과 구글넷(GoogLeNet) [7], 레스넷(ResNet) [8] 등의 알고리즘이 파생되었다. 일반적으로 인공신경망(artificial neural network) [9-11]은 숫자 데이터를 기반으로 다수의 노드로 구성된 은닉층 혹은 중간층과 입력을 담당하는 입력층, 출력 결과를 나타내는 출력층으로 구성된다. 층 사이는 선형 함수로 연결되며, 각 노드에서는 활성화 함수를 갖게 된다. 기계학습은 이 신경망에서 사용하는 함수의 계수를 수치적으로 계산하는 형태로 진행된다. 기계학습 결과의 출력은 회귀된 수치 결과나 분류로 나타난다. 전술한 바와 같이 인공신경망은 숫자 데이터를 기반으로 하는데, CNN 기반 알고리즘은 이미지를 처리하기 위해서 층 사이를 연결하는 선형 함수를 대신하여 합성곱(convolution)을 사용한다는 특징이 있다. CNN을 포함한 인공신경망을 이용한 기계학습은 사용이 용이하고 정확도가 매우 높으나 중간층에서의 과정은 사용자에게 노출되지 않는다는 어려움이 있다. 즉, 컴퓨터가 미세조직 이미지를 처리하는 과정에서 이미지의 어떤 특징을 기준으로 이미지를 분류하는지는 알기 쉽지 않다. 본 연구진은 이전 연구에서 CNN 중 하나인 인셉션v3 (Inception-v3) 모델을 이용하여 Al-Si 합금의 조성별로 분류하였다 [12]. 인셉션v3 모델은 중간층 구조가 복잡하여 이미지 분류의 기준을 알 수 없었다.

본 연구에서는 간단한 CNN을 구축하고, 기계학습을 통하여 주철의 미세조직을 분류하고자 하였다. 이때 사용한 시편은 구상흑연주철과 회주철이며 이 두 가지 시편의 미세조직을 구별하여 분류하도록 하였다. 구상흑연주철과 회주철은 육안으로도 어렵지 않게 구별된다. 그럼에도 불구하고 이 연구를 진행하는 목적은, 우리가 익히 구별할 수 있는 쉬운 미세조직을 인공신경망이 어떻게 인지할 것인가를 알기 위함이다. 본 연구에서 사용한 CNN의 중간층에서의 이미지를 시각화하여 과연 인공신경망이 주철의 미세조직을 구별하는 것에 있어서 어떤 점에 중점을 두는지 알고자 하였다. 또한 기계학습이 인간의 인지를 제대로 모방하고 있다는 가정하에, 인간이 미세조직을 어떻게 인지하는지에 대한 문제의 통찰에도 적용할 수 있으리라 예상한다.

2. 인공신경망

2.1 합성곱신경망(CNN)

기계학습에 일반적으로 사용되는 인경신경망은 Fig 1에 나타낸 바와 같이 입력층(input layer)과 은닉층(hidden layer), 출력층(output layer)로 구성된다. 입력층에서는 변수가 숫자 형태로 입력되며, 출력층에서는 분류나 회귀에 따라 그 결과값을 얻는다. 은닉층은 여러 층으로 이루어질 수 있으며, 각 층에는 1개 이상의 노드(node)로 구성된다. 각 노드에는 비선형의 활성화함수(activation function)가 존재한다. 또한 각 노드는 이전 층의 모든 노드 값을 변수로 하는 선형함수로 정의된다. 이와 같이 모든 노드가 선형함수로 연결되어 있는 연결형태를 완전연결계층(fully-connected layer)이라고 한다. 각층의 활성화 함수는 별다른 계수가 존재하지 않으며 항상 일정하다. 반면 선형함수의 계수는 학습초기에는 확정되어 있지 않는데 기계학습과정에서 이 계수의 값이 확정된다.

Fig. 1.

Schematic structure of artificial neural network for image classification.

인공신경망을 바탕으로 한 이미지 인식의 가장 기본적인 예는 MNIST (Modified National Institute of Standards and Technology) 데이터베이스 [13]를 이용하는 것이다. MNIST는 숫자 0~9에 대한 손글씨에 대한 이미지의 모음이다. 이미지는 28 × 28 픽셀의 흑백이미지로서, 데이터베이스에는 60,000개의 학습용 데이터와 10,000개의 시험용 데이터가 축적되어 있다. 이 손글씨 이미지를 분류하는 가장 단순한 방법은, 각 픽셀의 명암을 일반적인 숫자(0~255)로 변환하고 2차원 배열로 표시된 이미지를 순차적인 1차원 배열로 변환한 다음, 위에서 설명한 일반적인 인공신경망의 입력층 노드에 각 픽셀의 숫자를 입력하여 학습하는 것이다 [14]. 이것은 직관적인 방법이긴 하지만, 이미지 내의 사물의 공간적인 관계에 대한 추론이 부족하고, 해상도가 큰 이미지, 예를 들어 1000 × 1000 픽셀 이상의 큰 이미지의 경우 인공신경망의 규모가 지나치게 커져서 컴퓨터의 용량이나 속도가 크게 영향을 미칠 수 있다.

CNN도 기본적으로 위에서 설명한 인공신경망과 유사한 구조를 갖는다. 입력층에서는 변수로서 이미지를 대입한다. 출력층에서는 기본 인공신경망과 같이 분류나 회귀에 따라 그 결과값을 얻는다. 은닉층은 기본 인공신경망의 노드와 유사하게 채널을 가지며 각 채널에는 이미지 정보가 저장된다. 이전층과 현재층이 합성곱(convolution)으로 연결된다는 것이다. 합성곱은 인공신경망의 층간 선형함수와 유사한 역할을 하는데, 선형함수 대신 작은 크기의 이미지인 필터(filter)로 이루어져 있다. 이 필터 이미지의 형태는 CNN의 학습과정 중 확정된다. 합성곱이 이루어지면 입력데이터로부터 특징이 추출된다. 합성곱 중에 이미지의 크기는 변화가 가능한데 일반적으로는 이미지를 축소한다. 합성곱 연산시 이미지의 축소과정을 조절하기 위하여 추가적으로 패딩(padding)과 스트라이드(stride)를 적용하기도 한다. 이 과정에서 입력된 이미지(W_I × H_I)로부터 필터(W_F × H_F)를 이용하여 축소된 이미지의 크기(W_O × H_O)는 다음과 같이 계산할 수 있다 [15].

(1) WO = WI+2P-WFS + 1, Ho = HI+2P-HFS + 1

이 식에서 P와 S는 각각 패딩과 스트라이드이다. 합성곱 연산을 마친 데이터는 활성화함수를 거쳐 풀링(pooling)연산으로 연결된다. 풀링은 추가적으로 이미지를 축소시키는 역할을 하며, 풀링 구역 내에 최대값으로 지정하는 최대풀링(max pooling)과 평균값을 지정하는 평균풀링(average pooling)이 있다. 풀링을 할 때에도 패딩과 스트라이드를 지정할 수 있는데, 이때 축소된 이미지의 크기는 위의 Eq. 1에서 필터에 풀링 구역의 크기를 대입하면 얻을 수 있다. 각 연산에 관한 자세한 내용은 참고문헌 [15,16]을 참조한다.

본 연구에서는 지금까지 설명한 합성곱과 활성화함수, 풀링 연산을 합쳐 편의상CP 계층으로 칭한다. 이러한 CP 계층을 중복 연결하고 이미지가 충분히 축소되면, 위에서 설명한 MNIST와 같이 일반 인공신경망인 완전결합계층(FC)을 통하여 최종 출력층으로 연결된다. 이와 같이 CNN을 사용하면, 일반신경망을 이용한 이미지 분석에서 단점으로 지적되었던 이미지 내의 사물의 공간적인 관계에 대한 추론과 높은 해상도 이미지의 처리가 효과적으로 해결될 수 있다.

본 연구에서 사용된 CNN의 인공신경망은 기본적으로 Fig 2와 같다. 입력층에서는 미세조직 이미지는 512 × 512 픽셀을 가지고 있으며, 각 픽셀은 RGB 색상정보 채널을 가지고 있다. 은닉층은 네 개의 CP 계층이 중첩되어 있으며, 각 CP 계층은 각각의 필터 개수와 동수의 채널과 중간층 이미지를 가지고 있다. 출력 이미지의 크기를 조절하기 위한 패딩은 추가하지 않았다. 합성곱에서의 패딩은 이미지 주위에 0으로 채워진 픽셀을 추가하는 작업인데, 추출하고자 하는 특정 사물이 이미지 중앙에 위치할 때에는 패딩을 추가해도 무방하나 재료의 미세조직과 같이 패턴의 형태로 나타내는 이미지에서는 특징 추출에 방해요소로 작용할 가능성이 있다. 풀링은 최대풀링을 사용하였다. 이후 2차원 이미지 정보를 1차원 수치 정보로 변환하는 평탄화(flatten) 과정을 거쳐 두 개의 FC 계층으로 연결된다. 이때 FC 계층 사이에서는 과적합을 방지하기 위한 드롭아웃(dropout)을 50% 적용하였다. 출력층은 입력 이미지에 따라 구상흑연주철인지 회주철인지 분류하는 값인 0 혹은 1이 출력된다. 활성화함수는 은닉층에 대해서 ReLU (Rectified Linear Unit) 함수를 사용하였으며, 최종적으로 이미지를 분류하는 출력층에서는 시그모이드(sigmoid) 함수를 사용하였다. 본 연구에서의 은닉층의 층수와 채널수 및 노드수 등은 가장 단순한 형태로 CNN이 구성됨과 동시에 최소의 손실과 최대의 정확도를 유지하도록 시행착오를 거쳐 결정하였다. 합성곱 계층에서 사용한 연산에 관한 조건은 Table 1에 정리하였다. 학습은 에포크(epoch) 단위로 진행되는데, 1 에포크는 준비된 입력데이터 전체를 모두 사용하여 한 번 훈련된 상태를 뜻한다. 손실(loss)로서는 이진 크로스엔트로피(binary crossentropy)를 사용하였으며, 최적화 방법으로는 RMSProp [17]을 사용하였다. 지금까지 설명한 CNN은 파이썬(python)과 케라스(keras)를 이용하여 구현하였다.

Fig. 2.

Schematic structure of convolutional neural network used in this study.

Table 1.

Model of CNN used in this study for microstructural images.

2.2 미세조직 이미지의 준비

본 연구에서 사용된 시편은 상용 구상흑연주철 GCD450과 회주철 GC250을 사용하였다. 이 두 가지 시편은 미세조직 관찰을 위하여 조연마와 미세연마를 거쳐 나이탈 5% 용액으로 부식하였다. 이때 각 주철은 이미지 숫자의 확보를 위하여 다수의 시편을 사용하였다. 광학현미경을 이용하여 미세조직 이미지를 얻었는데, 이때 현미경의 배율은 × 50이었으며, 디지털 이미지의 크기는 2048 × 1536 픽셀이었다. 이때 축척 표시 없이 촬영하였다. 이 이미지를 512 × 512 크기로 분할하는 방식으로 한 번 촬영을 통해 미세조직 이미지 12개를 얻을 수 있었다. 이러한 방법으로 얻어진 이미지 중에서 구상흑연주철과 회주철 각각 3,000장 이상의 이미지를 학습과 테스트 데이터로 구축하였다.

3. 결과 및 고찰

3.1 학습에 대한 손실 및 정확도

구상흑연주철과 회주철의 미세조직 이미지 각각 3,000장 중 무작위로 추출한 60%의 이미지(3,600 장)를 훈련용(training)으로 사용하였으며, 30%의 이미지(1,800 장)를 검증용(validation)으로 사용하였다. 나머지 10%의 이미지는 테스트 용도로 남겼다.

학습을 100 에포크 수행한 결과를 Fig 3에 나타내었다.

Fig. 3.

Graphs of (a) loss and (b) accuracy for training and validation data during the network training.

두 그래프의 x축은 학습 횟수를 나타내며, y축은 훈련과 검증의 손실과 정확도를 나타낸다. 파란 실선과 빨간 점은 각각 훈련데이터와 검증데이터에 대한 결과를 표시한다. 손실은 이진 크로스엔트로피로 산출하였는데, 손실이 작을수록 학습이 잘 수행되었다고 판단할 수 있다. Fig 3(a)에 나타낸 바와 같이 훈련데이터는 학습 초기에 급격하게 감소하다가 대략 20 에포크 이후에 매우 낮은 수치로 유지되는 것을 관찰할 수 있었다. 반면 검증데이터의 손실은 20 에포크까지 감소하다가 다시 증가하였다. 이러한 증가는 훈련데이터의 과적합(overfitting)으로 간주된다. Fig 3(b)는 입력된 데이터와 출력된 결과물의 일치도를 나타내는 정확도이다. 학습데이터는 손실에서 예측된 바와 유사하게 학습 초기에 급격하게 상승하여 20 에포크 이후에는 100%에 가까운 정확도를 나타내었다. 손실에서 과적합 양상을 나타낸 검증데이터는 20 에포크 이후에 과적합에도 불구하고 98% 정도의 높은 정확도를 유지하였다.

본 연구에서는 20 에포크 이후의 학습이 과적합 현상을 보여, 이 이상의 학습은 무의미하다고 판단하였다. 그러므로 이후의 결과와 고찰은 20 에포크 학습결과로서 이루어졌다.

3.2 초기 미세조직

중간층 이미지를 분석하기 위해, 훈련데이터와 검증데이터에 포함되지 않은 구상흑연주철과 회주철의 미세조직 이미지(512 × 512)를 한 장씩 준비하였다. 이때 이미지는 Fig 4에 나타내었다. 각 이미지는 흑백으로 보이지만 RGB의 색상정보를 가지고 있는 3개의 채널을 가진 데이터로 간주할 수 있다. 단, 흑백으로 보이는 것으로 보아 RGB의 각 수치는 일정하다고 판단할 수 있다. 구상흑연주철에는 Fig 4(a)에서 보는 바와 같이 크고 작은 구상흑연조직이 페라이트 기지 상에 분포되어 있다. 회주철에는 펄라이트 기지 상에 굽어진 형태의 편상흑연조직이 분포되어 있다. 사진에서 보는 바와 같이 구상흑연주철과 회주철의 미세조직은 육안으로도 쉽게 판별할 수 있다. 직관적으로 판단하면, 구상흑연주철은 미세조직 이미지상의 원형 구상흑연조직으로 구상흑연주철임을 판단할 수 있고, 회주철에서는 편상흑연조직을 인지함으로써 회주철임을 판단할 수 있다. 기지상이 펄라이트 혹은 페라이트로 이루어져 있는 것을 판별하기에는 어려우며, 보다 섬세한 에칭과 고해상도 이미지를 통해서는 가능할 것이다.

Fig. 4.

Microstructures of (a) spheroidal graphite cast iron GCD450, and (b) grey cast iron GC250 used for mid-layer image analysis in this study. The size of the images was 512 × 512 pixels.

3.3 구상흑연주철에서의 중간층 이미지 분석

본연구에서는, CNN에서 위의 두 가지 종류의 미세조직을 분별함에 있어서 어떤 중간 과정을 거치는지 알기 위하여, Fig 4의 이미지를 위에서 학습된 기계학습 시스템에 입력하였다. 먼저 구상흑연주철의 미세조직 이미지 Fig 4(a)를 입력하였고, 이에 대해서 고찰하고자 한다.

첫번째 합성곱-활성화-풀링의 복합계층(CP1)을 통과한 특성맵(feature map)에서는 총 8개의 중간층 이미지가 생성되었으며 이는 해당 계층의 데이터를 형성하기 위하여 8개의 필터가 사용되었다는 것을 뜻한다. 8개의 이미지 중 이중 4개를 추출하여 Fig 5에 나타내었다. 중간층의 이미지는 회색톤의 이미지로 나타내지 못할 수 있다. 즉 회색톤 이미지는 각 픽셀의 수치가 0(흑색) ~ 255(백색)의 값을 갖게 되는데, 합성곱 과정에서는 이 범위를 벗어날 가능성이 있다는 뜻이다. 이 문제를 해결화하기 위하여 각 픽셀의 수치는 모든 픽셀의 평균값과 표준 편차를 이용하여 표준화(standardization)한 후 0 ~ 255의 값을 갖도록 범위를 조정하였다. 실제 출력된 이미지는 사진에 나타난 것보다 더욱 어두웠는데, 편의를 위하여 이미지를 약간 밝게 보정하였다. 합성곱과 활성화, 패딩 과정을 통과하면서 이미지의 크기는 최초 512 × 512 픽셀에서 255 × 255 픽셀로 축소되었다. 이 이미지들은 CNN 훈련과정을 통하여 최적화된 필터(3 × 3 픽셀)와 반응하여 생성된 이미지들이다. 본 연구에서 필터의 사이즈가 작은 관계로 필터의 형태는 파악하지 못했지만, 그 역할에 대해서는 그 효과를 짐작할 수 있다. Fig 5에서 A는 입력 데이터 Fig 4(a)의 명암을 거의 그대로 유지하고 있으나, B에서는 명암이 반전되어 있는 것을 확인하였다. C와 D에서는 기지상과 구상흑연상의 명암구별이 무시되어 있는 것을 알 수 있다. A의 경우 입력이미지의 명암을 유지하지만, 화살표로 표시한 바와 같이 구상흑연상의 5시 방향 윤곽선이 밝은 색으로 강조되어 있다. 명암이 반전된 B에서는 이러한 현상을 인지하기 어려웠으나, C와 D에서는 화살표로 표시한 바와 같이 각각 6시 방향과 10시 방향으로 테두리가 밝은 색으로 강조되어 있다. 이러한 결과로 미루어 볼 때, A는 입력 이미지와 필터와의 합성곱을 통하여 원래 명암 상태에서 곡률에 따른 윤곽선을 추출하는 것으로 판단된다. B의 경우에는 명암 반전 효과로 원래 이미지에서 찾을 수 없는 이미지 검출을 시도한 것으로 예상된다. C와 D의 경우에는 기지상과 구상흑연상의 명암보다는 윤곽선 추출에 초점을 맞추었다.

Fig. 5.

Mid-layer images after CP1 layer for spheroidal graphite cast iron GCD450 shown in Fig. 4(a). These four pictures were selected from total eight images. The size of the images was 255 × 255 pixels.

Fig 6은 두번째 합성곱계층(CP2)을 통과한 후의 특정맵으로부터 각 채널의 데이터를 이미지로 나타낸 것이다. CP2에서는 총 16개의 채널을 사용하므로 16개의 중간층 이미지가 생성되었으며 이중 6개를 그림에 나타내었다. CP1은 한 개의 3채널 입력 데이터 이미지를 갖는 반면, CP2에서는 이전 계층에서 형성된 8개의 이미지를 8채널 입력 데이터로 처리하였다. 결과적으로 CP2를 통과하면서 이미지의 크기는 입력데이터의 255 × 255 픽셀에서 126 × 126 픽셀로 축소되었다. CP2에서의 이미지는 CP1에서와 유사하게 명암의 변화를 나타낸 이미지들(B와 D, F)이 발견되었고 윤곽선(A와 B, C, E, F)이 여전히 강조되어 있다. 단지 윤곽선 부분의 강조는 CP1 보다 더욱 영역이 확대되고 높은 명암비를 나타내는 것을 알 수 있다.

Fig. 6.

Mid-layer images after CP2 layer for spheroidal graphite cast iron GCD450 shown in Fig. 4(a). These six pictures were selected from total 16 images. The size of the images was 126 × 126 pixels.

이 경향은 이미지의 크기가 62 × 62 픽셀로 축소된 CP3 직후의 이미지에서도 발견된다. 명암비와 테두리의 강조가 반복되다가 최종적으로 30 × 30 픽셀로 축소된 CP4 직후의 이미지는 Fig 7에 나타내었다. CP4에서는 총 32개의 채널을 가진 특성맵으로부터 32개의 중간층 이미지가 생성되었다. 이중 6개의 이미지를 그림에 나타낸 것이다. CP4에서 출력된 이미지들은 더 이상 합성곱 계층을 거치지 않고, 평탄화 가정을 거쳐 완전결합 계층으로 연결된다. Fig 7와 최초의 입력 데이터인 Fig 4를 비교해보면, 비록 이미지의 크기가 많이 축소되긴 했지만, 구상흑연상의 위치나 형태 등의 특성들이 고스란히 추출되어 있는 것을 확인할 수 있다. Fig 7의 각 이미지들은 단순화된 형태의 미세조직의 특성을 제각기 보유하고 있다. 전체적인 흐름으로 판단해 볼 때 CNN에서는 구상흑연상의 형태에 대한 분석이 주로 이루어진다는 것으로 결론지을 수 있다.

Fig. 7.

Mid-layer images after CP4 layer for spheroidal graphite cast iron GCD450 shown in Fig. 4(a). These six pictures were selected from total 32 images. The size of the images was 30 × 30 pixels.

3.4 회주철에서의 중간층 이미지 분석

CNN에 의한 회주철 미세조직 이미지의 식별에 대한 중간층 이미지는 Fig 8에 나타내었다. 구상흑연주철 미세조직에 대한 분석은 전 절에서 비교적 자세하게 논의하였으므로, 이 그림에서는 CP1과 최종적인 CP4에서의 이미지만을 나타내었다. CP1 직후의 이미지인 Fig 8(a)에서는 구상흑연주철의 이미지와 비슷하게 미세조직 이미지의 명암 변경과 함께, 편상흑연조직의 테두리에 대한 분석이 이루어짐을 알 수 있다. 주의해야할 점은 이 이미지는 구상흑연주철의 이미지 분석시 사용되었던 필터가 동일하게 적용되었다는 것이다. 즉, 구상흑연주철과 회주철의 미세조직 이미지를 동시에 학습하였기 때문에 마지막으로 최적화되었던 필터가 적용된 것이다. 단순한 원형에 가까운 구상흑연조직의 중간층 이미지에서는 윤곽선 인식의 방향을 쉽게 파악할 수 있었으나, 회주철의 편상흑연조직은 여러 방향으로 굴곡되어 있어 윤곽선 인식의 방향의 파악이 쉽지 않다.

Fig. 8.

Mid-layer images after (a) CP1 and (b) CP4 layers for grey cast iron GC250 shown in Fig. 4(b). The size of the images was 255 × 255 pixels for (a), and 30 × 30 pixels for (b).

네 번의 합성곱 계층을 통과하여 생성된 최종적인 중간층 이미지인 Fig 8(b)를 살펴보면, 이미지의 화소수가 크게 줄어들어 구상흑연조직과는 달리 편상흑연조직을 파악하기는 어렵다. 단지, 초기 입력 이미지 Fig 4(b)와 비교해볼 때 편상흑연조직의 위치와 형태를 대략적으로 짐작할 수 있을 뿐이었다. 그러나, 이러한 이미지도 각 편상흑연조직의 특성을 잘 추출하여 나타낸 것이기 때문에 CNN에서의 이미지 분류에는 큰 지장이 없을 것이다.

이상의 중간층 이미지 분석으로 미루어 보아, 주철 미세조직 이미지의 분석에서는 주로 구상흑연상과 편상흑연상의 형태를 중심으로 주철의 종류를 파악할 수 있다고 판단된다. 계층이 심화될수록 흑연상의 형태에서 가장 특징적인 것을 추출하여 전체적인 이미지를 단순화하고 축소하는 것으로 판단된다. CNN으로 변환된 이미지를 사람이 봤을때 그 의미를 직접 파악하기는 힘들지만, 기계학습의 입장으로 봤을 때에는 컴퓨터가 더 잘 학습할 수 있는 이미지 및 숫자들로 축소 및 변환되었으므로 학습이 더 효율적으로 될 수 있는 것이라고 예상된다. 그 외 기지상인 페라이트와 펄라이트 조직은 흑연상에 비해 특징이 약해 이에 대한 특징추출은 거의 이루어지지 않은 것으로 판단된다.

이전 연구들에서 보면 CNN에서는 계층이 깊어질수록 추출되는 정보가 더욱 구체화된다고 알려져 있다. 초기의 합성곱 계층에서는 단순한 윤곽선에 반응하고, 이어서 텍스처에 반응하고, 더욱 복잡한 사물의 일부에 반응하도록 변화한다고 한다[18,19]. 이전 CNN 연구는 재료의 미세조직 분야가 아닌 동물이나 사물 등 일반적인 물체의 이미지에 대한 연구가 진행되어 왔다. 예를 들어 자동차나 시계 등의 이미지 식별에 CNN을 이용할 때에는 대부분 사물 한 개만 존재하는 이미지만을 분석하였다. 그러나, 재료의 미세조직은 결정립이나 흑연상 등의 제2상이 불규칙한 패턴으로 이루어져 있다. 미세조직 이미지에서는 이러한 제2상이 단 한 종류, 단 한 개만 존재하는 것이 아니므로, 복합적인 식별에 대한 학습이 수행되었다고 판단된다. 본연구의 경우와 같이 석출물과 정출물 등 제2상이 주로 관찰되는 합금의 미세조직에서는 각 제2상 종류에 따른 학습이 중요하며, 이에 대한 이미지 분석 데이터 베이스가 구축되면 제2상의 형태로 합금의 종류를 분류하는 연구가 가능할 것으로 보인다. 이를 위해서는 단순한 CNN뿐만아니라 제2상의 사물식별(object detection) [20]과 의미분할(semantic segmentation) [21]에 관한 연구도 필요하다. 한편, 본 연구에서는 기지상이 단순하여 결정립계나 수지상정 등의 미세조직 패턴은 전혀 고려가 되지 않았는데, 이에 대한 추가적인 연구도 요구된다.

4. 결 론

본 연구에서는 구상흑연주철과 회주철의 미세조직 이미지를 분류하기 위하여 단순한 형태의 합성곱 신경망을 구축하여 기계학습을 수행하였다. 기계학습 중 시스템이 어떤 근거로 미세조직 이미지를 인식하는지 가늠하기 위하여 합성곱 계층 직후의 중간층 이미지를 추출하여 분석하였다. 이에 다음과 같은 결론을 얻었다.

1) 기계학습 후 분석하고자 하는 시편, 즉 구상흑연주철과 회주철 시편의 미세조직 이미지를 입력하였을 때, 98% 이상의 높은 정확도로 시편의 종류를 분류할 수 있었다.

2) 합성곱신경망에서 합성곱계층과 풀링계층을 통과할 때 연산의 특성에 따라 이미지는 계속 축소되어, 최종적으로는 완전결합계층에 연결될 수 있는 적절한 작은 크기로 줄어들었다. 이때 이미지는 초기 이미지의 단순 축소가 아닌, 미세조직에서 가장 특징적인 부분을 추출하여 축소하는 것으로 판단된다.

3) 합성곱신경망은 중간과정에서 어떠한 방법으로 이미지를 분류하는지 그 근거를 사용자에게 제시하지 않지만, 본 연구에서는 중간층에서의 이미지를 추출하여 이를 분석하였다. 이러한 이미지를 근거로 미루어보면, 본 연구에서 구축한 합성곱신경망은 주철의 미세조직 중 주로 각 흑연상의 형태에 대한 특징을 추출하여 분류의 기준으로 삼는 것으로 판단된다.

Acknowledgements

이 논문은 2019학년도 조선대학교 학술연구비의 지원을 받아 연구되었습니다.

References

1. Wikipedia contributors, Microstructure, https://en.wikipedia.org/wiki/Microstructure. 2021.

2. Bostanabad R., Zhang Y., Li X., Kearney T., Brinson L. C., Apley D. W., Liu W. K., Chen W.. Prog. Mater. Sci 95:1. 2018;

3. Chowdhury A., Kautz E., Yener B., Lewis D.. Comput. Mater. Sci 123:176. 2016;

4. Gola J., Britz D., Staudt T., Winter M., Schneider A. S., Mücklich F.. Comput. Mater. Sci 148:324. 2018;

5. Cun Y. L., Huang F. J., Bottou L.. Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit 97. IEEE; Washington DC, USA: 2004.

6. Szegedy C., Vanhoucke V., Ioffe S., Shlens J., Wojna Z.. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit 2818. IEEE; Las Vegas, USA: 2016.

7. Szegedy C., Liu W., Jia Y. q., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A.. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit 1. IEEE; Boston, USA: 2015.

8. He K., Zhang X., Ren S., Sun J.. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit 770. IEEE; Las Vegas, USA: 2016.

9. Wasserman P. D.. Advanced methods in neural computing Van Nostrand Reinhold. New York: 1993.

10. Reddy N. S., Lee Y. H., Park C. H., Lee C. S.. Mater. Sci. Eng. A 492:276. 2008;

11. Park C. H., Cha D., Kim M., Reddy N. S., Yeom J.-T.. Met. Mater 25:768. 2019;

12. Jeong S.-J., Hwang I.-K., Cho I.-S., Kim H.-S.. Korean J. Met. Mater 57:184. 2019;

13. Deng L.. IEEE Signal Process. Mag 29:141. 2012;

14. Baldominos A., Saez Y., Isasi P.. Appl. Sci 9:3169. 2019;

15. Goki Saito. Deep learning from scratch O’Reilly Japan. Tokyo: 2016.

16. Chollet F.. Deep learning with Python Manning Publications Co, Shelter Island. New York: 2018.

17. Bushaev V.. Understanding RMSprop - faster neural network learning. https://towardsdatascience.com/understandingrmsprop-faster-neural-network-learning-62e116fcf29a. 2018.

18. Mahendran A., Vedaldi A.. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit 5188. IEEE; Boston, USA: 2015.

19. Fergus M. D. Zeiler R.. 13th European Conf. Comput. Vis 818. ECCV; Zurich, Switzerland: 2013.

20. Zhao Z.-Q., Zheng P., Xu S.-T., Wu X.. IEEE Trans. Neural Netw. Learning Syst 30:3212. 2019;

21. Garcia-Garcia A., Orts-Escolano S., Oprea S., Villena-Martinez V., Garcia-Rodriguez J.. A Review on Deep Learning Techniques Applied to Semantic Segmentation :ArXiv:1704.06857. 2017;

Article information Continued

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Layer	Sublayer	Input shape	Channels/Nodes	Filter/Pooling	Padding	Stride	Activation	Output shape
Input	–	–	3	–	–	–	–	512 × 512 × 3
CP1	Convolution	512 × 512 × 3	8	3 × 3	0 × 0	1 × 1	ReLU	510 × 510 × 8
CP1	Max pooling	510 × 510 × 8	–	2 × 2	0 × 0	2 × 2	–	255 × 255 × 8
CP2	Convolution	255 × 255 × 8	16	3 × 3	0 × 0	1 × 1	ReLU	253 × 253 × 16
CP2	Max pooling	253 × 253 × 16	–	2 × 2	0 × 0	2 × 2	–	126 × 126 × 16
CP3	Convolution	126 × 126 × 16	32	3 × 3	0 × 0	1 × 1	ReLU	124 × 124 × 32
CP3	Max pooling	124 × 124 × 32	–	2 × 2	0 × 0	2 × 2	–	62 × 62 × 32
CP4	Convolution	62 × 62 × 32	32	3 × 3	0 × 0	1 × 1	ReLU	60 × 60 × 32
CP4	Max pooling	60 × 60 × 32	–	2 × 2	0 × 0	2 × 2	–	30 × 30 × 32
Flatten	–	30 × 30 × 32	–	–	–	–	–	28800 × 1
FC1	–	28800 × 1	512	–	–	–	ReLU	512 × 1
FC2	–	512 × 1	512	–	–	–	Sigmoid	1
Output	–	–	1	–	–	–	–	(0 or 1)