기계학습 모델 복잡도에 따른 템퍼드 마르텐사이트 경도 예측 정확도 비교 연구

A Comparative Study of the Accuracy of Machine Learning Models for Predicting Tempered Martensite Hardness According to Model Complexity

Article information

Korean J. Met. Mater.. 2022;60(9):713-721

Publication date (electronic) : 2022 August 30

doi : https://doi.org/10.3365/KJMM.2022.60.9.713

Junhyub Jeon ¹^,^†, DongEung Kim ²^,^†, Jun-Ho Hong ², Hwi-Jun Kim ², Seok-Jae Lee ¹^,

¹Division of Advanced Materials Engineering, Jeonbuk National University, Jeonju 54896, Republic of Korea

²Research Institute of Advanced Manufacturing & Materials Technology, Korea Institute of Industrial Technology, Incheon 21999, Republic of Korea

전준협¹^,^†, 김동응²^,^†, 홍준호², 김휘준², 이석재¹^,

¹전북대학교 신소재공학부

²한국생산기술연구원 뿌리기술연구소

^*Corresponding Author: Seok-Jae Lee Tel: +82-63-270-2298, E-mail: seokjaelee@jbnu.ac.kr

- 전준협: 박사과정, 김동응 · 홍준호 · 김휘준: 수석연구원, 이석재: 교수

^†

These authors equally contributed to this work.

Received 2022 June 3; Accepted 2022 July 8.

Trans Abstract

We investigated various numerical methods including a physical-based empirical equation, linear regression, shallow neural network, and deep learning approaches, to compare their accuracy for predicting the hardness of tempered martensite in low alloy steels. The physical-based empirical equation, which had been previously proposed with experimental data, was labelled and used in the present study. While it had a smaller number of coefficients, the prediction accuracy of the physical-based empirical equation was almost similar to that of the regression model based on the response surface method. The prediction accuracy of the machine learning models clearly_improved as the number of layers increased and became more complicated in structure before the model began to overfit. The key point we found was that a single layered neural network model with optimized hyperparameters resulted in similar or better hardness prediction performance compared to deep learning models with a more complex architecture. We also analyzed 18 research papers from the literature which used neural network models to predict the hardness of steels. Only two recent papers adopted a convolutional neural network, as a kind of deep learning model, in a new attempt to predict hardness. The other 16 papers from 1998 to 2021 commonly chose shallow neural network models because a more complicated model is less effective than a simple model for regression problems with well-labeled experimental data in materials science and engineering.

Keywords: prediction accuracy; model complexity; machine learning; model regression; tempered martensite hardness

1. 서 론

인공지능(artificial intelligence, AI)이라는 단어는 21세기 들어 과학기술 분야에서 세부 기술을 설명하는데 빠지지 않는 핵심어가 되었다. 인공지능의 하위 분야로 기계학습(machine learning, ML)이 위치하며 기계학습이 적용되는 문제의 복잡성과 다뤄지는 데이터 수준에 따라 학습되는 모델의 크기도 결정된다. 기계학습의 여러 모델 중 하나인 인공신경망(artificial neural network, ANN) 모델은 입력 데이터를 나타내는 입력층(input layer)와 출력 데이터를 나타내는 출력층(output layer) 사이에 은닉층(hidden layer)라 불리는 연결층으로 구성된다[1]. 은닉층의 개수가 1개 혹은 2개인 경우를 일반적으로 ANN 혹은 얕은 신경망 (shallow neural network)이라고 부른다. 은닉층의 개수가 3개 이상인 인공신경망 모델을 사용하는 기계학습의 경우를 일반적으로 딥러닝(deep learning) 혹은 DNN(deep neural network)이라고 부르는데 이를 기계학습의 독립된 하나의 하위 분야로 구분하는 이유는 딥러닝을 이용하여 매우 다양하고 복잡한 분야에서 인공지능 기술들이 적용되고 발전해 나가고 있기 때문이다.

최근에 발표되고 각광을 받고 있는 기계학습을 이용한 연구의 많은 부분은 딥러닝 영역에 속한 기술들을 활용할 수 있는 새로운 분야의 탐색과 관련 학문 발전에 집중되고 있다. 재료 분야의 경우 새로운 합금설계와 같이 기존에 존재하지 않은 미지의 성분을 찾는 연구 분야에서는 딥러 닝을 통한 접근법이 기존의 시행착오법(trial and error)을 통해 연구하는 것에 비해 매우 효과적인 것으로 보고 되고 있다[2-6]. 하지만 딥러닝이 기계학습을 모두 대표하는 것은 아니며 딥러닝은 기계학습의 부분집합이기 때문에 재료 분야에 관련된 모든 문제를 딥러닝으로 해결하는 것이 효과적일지는 생각해볼 필요가 있다.

전통적으로 재료 또는 재료와 관련된 분야를 연구하는 학문에서는 관심있는 재료의 성분을 체계적으로 변화시키면서 재료 자체의 물성이나, 재료를 이용해서 만든 샘플 혹은 부품 수준에서의 특성을 비교 평가함으로써 기존 재료를 개선하거나 새로운 재료를 설계한다. 혹은 동일 재료인 경우 온도나 외부 응력과 같은 공정 변수를 변화시켰을 경우 만들어지는 샘플이나 부품의 특성 변화를 비교 평가하면서 제조 공정에 관한 연구를 수행한다. 이 과정에서 현미경을 통해 미세조직 특성을 관찰하거나 원자 단위의 구조적 특성부터 기계적 물성에 이르는 평가까지 다양한 분석이 진행된다. 분석 결과들을 정량적으로 정리하여 일정한 경향성을 찾아서 간단한 수식으로 표현하게 되면 우리는 이를 경험적 수식(empirical equation or model)이라 부르고 지금까지 오랜 기간 동안 수많은 재료 논문들로부터 다양한 경험적 수식들이 보고되고 있다. 예를 들어 인장시험을 통한 항복강도와 시험편의 결정립 크기를 측정하여 이를 그래프로 표현했더니 잘 알려져 있는 Hall-Petch 관계를 보이고, 비록 적은 수의 데이터이지만 충분히 높은 R 2 값을 가진다면 이는 분명히 물리적으로 의미 있는 분석이고 수식일 것이다[7,8]. 하지만 동일한 데이터를 최근에 연구된 새로운 딥러닝 모델을 적용하여 해석하는 것이 과연 바람직한 것인가에 대한 의문을 가질 수 있다. 더군다나 데이터의 수가 한정적이고 이전부터 사용되던 경험적 수식을 통해서도 해석이 가능한 경우라면 굳이 딥러닝 기법을 적용할 필요가 있는지에 대한 의문이 생긴다. 많은 연구 논문들이 딥러닝을 이용하여 우수한 결과들을 계속하여 발표하고 있지만[9-15], 재료 또는 재료와 관련된 분야에 대한 연구에서 딥러닝을 적용하는 것이 필수적인지에 관해 구체적으로 분석한 논문은 찾기 어렵다.

템퍼링은 철강 소재의 높은 강도를 얻기 위해 빠르게 급냉된 철강 소재에 적절한 인성을 부여하기 위한 열처리 방법으로 소위 Q/T(Quenching/Tempering) 열처리 제품을 만들기 위한 필수 공정이다. 이때 기계적 물성은 Q/T 처리된 철강 소재의 경도를 측정함으로써 평가할 수 있다. 원하는 경도를 얻기 위한 템퍼링 처리 온도와 유지 시간을 조절하는 것은 매우 중요하다. 따라서 다양한 화학조성과 템퍼링 열처리 조건에 의해 얻어진 템퍼드 마르텐사이트의 경도를 예측할 수 있는 모델에 대한 연구들이 진행되어 왔다. 이번 연구에서는 기존에 출판된 논문에서 저합금강의 합금원소를 고려하여 새로운 템퍼링 상수(tempering parameter, TP)를 제시하고 템퍼드 마르텐사이트의 경도를 예측할 수 있는 경험적 수식을 유도하는데 사용되었던 실험 데이터를 기계학습적 접근법에 사용했을 경우 그 유용성에 대해 조사하고자 하였다. 다양한 모델들을 적용하여 상대적인 모델의 복잡성과 예측 정확도 사이의 관계를 비교해 보았다. 본 논문에서는 기존의 재료 분야 논문에서 일반적으로 서술되는 방식인 실험 및 결과 분석이 아닌, 재료 데이터 분석의 수치적 방법론 비교에 초점을 맞추어 연구를 진행하였다.

2. 모델 설명

본 연구에서는 Kang과 Lee [16]가 발표했던 저합금강의 템퍼드 마르텐사이트 경도예측 모델에 사용했던 1,926개실험 데이터를 사용하였다. 입력 데이터는 화학성분(C, Mn, SI, Ni, Cr, Mo), 템퍼링 온도, 유지 시간이며 출력 데이터는 측정 경도이다. 사용된 실험 데이터들은 문헌에서 수집되었으며 구체적인 데이터 정보들은 참고한 문헌[16]에 자세히 설명되어 있다.

마르텐사이트의 템퍼링이라는 복잡한 현상 가운데 템퍼드 마르텐사이트의 경도를 템퍼링 정도에 따라 예측하기 위해 Hollomon과 Jaffe에 의해 처음 다음과 같은 템퍼링 상수(TP)가 제안되었다[17].

(1) TP = T(logt+k)

여기서 T는 절대온도, t는 유지시간, k는 상수이다. Kang과 Lee [16]가 발표한 논문에서 상수 k가 합금 종류에 따라 결정됨을 착안하여 합금원소를 고려하여 다음과 같이 확장된 수식으로 제안하였다.

(2) TP = T(logt+(17.396-6.661C-16.04Mn-3.412Si-0.248Ni-1.112Cr-4.355Mo))

합금원소들은 wt.% 함량을 의미한다. 식 (2)로부터 구한 템퍼링 상수와 경도 사이의 관계를 다음과 같은 경험적 수식으로 나타냈다.

(3) PEM=(1542.97-25.31/C)·exp(-1.23×10-4TP)

이후 본문에서는 식 (3)을 물리적인 템퍼링 상수를 고려한 경험적 모델을 의미하는 PEM(physical-based empirical model)으로 부르겠다. PEM 및 이후 비교되는 회귀 모델이나 인공신경망 모델을 이용하여 계산된 경도 결과가 실험 데이터와 비교하여 얼만큼의 정확도를 갖는지 평가하기 위해 식 (4)와 같이 결정계수(coefficient of determination, R 2)와 식 (5)와 같이 평균 제곱근 오차(root mean square error, RMSE)를 사용하였다.

(4) R2=1-∑i=1n(yi-pi)2∑i=1n(yi-y¯)2

(5) RMSE=∑i=1n(yi-pi)2n

위 두 식에서 y_i는 측정값, y¯는 측정값들의 평균, p_i는 예측값을 의미한다. 회귀 모델에서 독립변수가 종속변수를 완벽하게 표현할수록 결정계수는 1에 가깝게 된다 . 또한 회귀 모델에 의한 예측된 값과 실제 측정된 값의 차이인 잔차(residual)가 줄어줄수록, 즉 회귀 모델이 관찰값을 정확하게 예측할수록 평균 제곱근 오차는 0에 수렴하게 된다.

본 연구에서는 논문에서 보고된 PEM의 예측 결과와 비교하기 위해 일반적인 선형 회귀(linear regression)에 사용되는 몇 가지 수식들을 선택해 보았다. 이들 수식들은 PEM과는 달리 템퍼링이라는 금속학적 현상과 관련된 어떠한 물리적 의미도 가지고 있지 않다.

(6) LR1=k0+∑ikiXi

(7) LR2=k0+∑ikiXi+∑ikiiXi2+∑i∑jkijXiXj

(8) LR3=k0+∑ikiXi+∑ikiiXi2+∑ikiiiXi3+∑i∑jkijXiXj+∑i∑jkijXiXj2+∑i∑j∑lkijlXiXjXl

식(6)부터 식(8)을 선형 회귀(linear regression)을 의미하는 LR로 표시했고 최고차항의 차수로 각 식을 구분하였다. LR1의 경우 독립변수 간의 상호작용이 없는 반면 LR2와 LR3은 독립변수 사이의 상호작용을 고려하고 있다.

인공신경망 모델은 상용 소프트웨어 MATLAB (Release 2020b) Neural Network Toolbox를 이용하였다[18]. 신경망/데이터 관리자 GUI(graphical user interface) 사용이 가능한 nntool 명령어를 사용하여 레이블이 지정된 1,926개의 경도 실험 데이터를 불러오고 신경망 모델의 layer수와 layer의 노드(node) 수를 인위적으로 조절하였다. 그 외 인공신경망 학습에 필요한 모든 하이퍼파라미터 (hyperparameter)들은 소프트웨어에서 정해진 기본(default)값들을 사용하였다. 가장 기본이 되는 1개 은닉층을 갖는 ANN 모델에 대해 몇 가지 사전 테스트를 실시한 결과 노드가 14개인 모델에서 비교적 우수한 결과를 얻을 수 있었다. 사전 테스트에 사용된 노드 수는 최소 8개에서 최대 16개까지 설정하였다. 이는 노드 개수의 범위를 실험 데이터의 입력 성분의 최대 2배까지로 설정했기 때문이다.

Fig. 1.

Coefficient of determination according to the number of nodes.

이후 각 은닉층의 노드 수는 동일하게 14개로 고정하였다. 입력층과 출력층은 각각 8개와 1개의 노드 수를 공통적으로 갖는다. 이는 실험 데이터 8가지의 입력 성분(C, Mn, SI, Ni, Cr, Mo, 템퍼링 온도, 유지 시간)과 1가지의 출력 성분(경도)에 해당된다. 참고로 사용된 실험 데이터는 인공신경망의 예측 성능 향상을 위해 0에서 1사이의 값으로 정규화(normalizing) 작업을 실시하였다[19]. 본 연구 에서는 최대 4개의 은닉층을 갖는 DNN 모델까지 비교하였으며 다음과 같은 이름으로 모델을 구분하였다.

(9) [ANN1] 1 layer 구조: 8 – 14 – 1

(10) [ANN2] 2 layers 구조: 8 – 14 – 14 – 1

(11) [DNN3] 3 layers 구조: 8 – 14 – 14 – 14 – 1

(12) [DNN4] 4 layers 구조: 8 – 14 – 14 – 14 – 14 – 1

본 연구에서는 식 (2)와 (3)으로 표현된 물리적 모델, 식 (6)~(8)과 같이 표현된 선형 회귀 모델, 그리고 식 (9)~(12)의 은닉층 구조를 갖는 신경망 모델까지 총 8가지 서로 다른 모델을 사용하여 개별 모델의 복잡도(complexity)와 해당 모델을 이용한 템퍼드 마르텐사이트 경도의 예측 정확도 사이의 관계를 분석하고자 하였다. 이에 가장 우수한 예측 정확도를 갖는 최적의 모델을 선별하고 그 모델을 얻기 위한 방법에 대한 접근은 이번 연구에서는 크게 비중을 두어 다루지 않았다.

3. 결과 및 고찰

그림 2는 기존 논문에서 제시한 PEM과 선형회귀 모델 LR1부터 LR3을 이용한 경도 예측 결과를 비교하고 있다. 정량적 비교를 위해 사용된 결정 계수와 평균 제곱근 오차를 비교했을 때 LR3 모델로 얻은 경도 예측 결과가 97.21%의 결정 계수와 24.09 HV의 낮은 오차를 가지면서 가장 높은 예측 정확도를 보였다. LR2 모델의 경우 소위 반응표면법(response surface method, RSM)으로도 불리는 표현 형태[20]로 템퍼링 상수를 사용한 PEM과 비교하여 미세하게 결정 계수와 평균 제곱근 오차에서 수치적으로 우수하나 거의 유사한 성능의 결과를 보인다고 할 수 있다. 상대적으로 가장 낮은 예측 정확도와 높은 오차를 보인 것은 LR1 모델을 적용했을 경우이다. 89.67%의 결정 계수로 회귀 모델로서는 결코 낮은 수치는 아니지만 비교 대상 가운데 가장 낮은 값을 보였으며 특히 경도가 200 HV 이하나 600 HV 이상인 데이터에 대해 예측 경도가 실제 값보다 낮게 예측되는(underestimated) 경향이 나타난다. 이는 독립변수간 상호작용이 고려되지 않은 LR1 모델의 구조적 한계로 보이며 금속학적으로는 저온에서 생성되는 천이 탄화물로 인한 경도 상승[21]이나 Mo나 Cr의 합금 함량이 높은 강종의 500°C 이상의 고온 템퍼링시 2차 탄화물을 만드는 과정에서 추가적으로 상승하는 경도[22]를 독립변수 간 상호작용이 고려되지 않았기[23]에 제대로 반영되지 못했을 것으로 생각된다.

Fig. 2.

Comparison of the hardness of tempered martensite predicted by (a) PEM, (b) LR1, (c) LR2, and (d) LR3 models.

인공신경망 모델을 이용하여 템퍼드 마르텐사이트 경도를 예측한 그림 3의 결과들은 신경망 구조에 무관하게 모두 PEM과 LR과 비교하여 우수한 예측 정확도를 보이고 있다. 가장 단순한 ANN1 모델의 경우도 96.86%의 결정 계수와 25.58 HV의 오차를 보이고 있다. ANN2 모델은 이보다 다소 향상된 결과를 보이고 있다. 은닉층이 3개인 DNN3 모델을 사용한 경우가 가장 우수한 결과를 보였다. 98.70%의 결정 계수와 16.48 HV라는 오차는 전체 사용한 데이터의 개수가 1,926개로 빅 데이터라고 하기엔 부족하지만 적지 않은 데이터 수이기에 성공적으로 학습된 결과라 판단할 수 있다. 참고로 Neural Network Toolbox를 이용하여 신경망/데이터 관리자에서는 신경망 학습을 진행할 때 기본적으로 사용되는 데이터를 무작위로 70%는 training, 15%는 validation, 나머지 15%는 test에 할당한다[18]. 이번 연구에서 사용된 1,926개 데이터 중 임의로 선택된 70%의 데이터는 모델을 만드는데 사용되었고, 15%는 만들어진 모델이 과적합(overfit)의 발생여부를 판단하기 위한 validation 데이터로 사용되었다. 나머지 15%는 사용되지 않은 데이터에 대한 최종 모델의 예측 정확도를 검증하기 위한 목적으로 사용되었다. 개별적으로 사용된 데이터들의 예측 정확도 98.70%는 모델이 잘 훈련되었으며 새로운 데이터에 대한 예측 정확도도 우수하다고 평가 가능하다. 오히려 가장 많은 4개의 은닉층을 사용한 DNN4 모델의 예측 결과는 결정 계수 98.19%로 DNN3 모델의 결과보다 약간 낮은 값을 보였다. 인공신경망의 구조가 복잡해질수록 예측 결과에 대한 과적합 문제가 발생할 확률이 높아진다는 연구는 여러 연구자들에 의해 보고되고 있다[24].

Fig. 3.

Comparison of the hardness of tempered martensite predicted by using the different neural network models: (a) ANN1, (b) ANN2, (c) DNN3, and (d) DNN4.

흔히 인공신경망을 블랙박스로 표현하는 이유는 수식 구조가 복잡한 이유도 있지만 정해진 최적의 구조가 없이, 주어진 문제와 데이터에 따라서 적합한 모델과 필요한 하이퍼파라미터들이 유기적으로 변화하기 때문이다. 이를 결정할 수 있는 규칙은 아직까지도 제대로 확립된 바가 없으며 모든 경우를 만족할 수 있는 단일 모델을 만들기란 거의 불가능에 가깝다. 이 영역이야 말로 인공지능이 아닌 사람의 경험과 결정이 큰 영향을 미치는 부분이다. 최근에 이러한 어려움을 극복하고자 자동화된 머신러닝(automated machine learning)에 대한 연구들이 활발히 진행되고 있으며 관련하여 최적화에 대한 관심도 높아지고 있다[25,26]. 그림 4는 가장 단순한 ANN1 모델과 동일한 8 – 14 – 1 구조를 가지는 얕은 신경망 모델에서 하이퍼파라미터 등을 조율하여 동일한 1,926개의 경도 데이터를 예측했을 때 정확도가 높아진 결과를 보이고 있다. 동등한 조건에서의 성능 비교를 위해 training 데이터와 validation 데이터와 test 데이터의 비율도 그림 3의 인공신경망 모델에서 사용한 비율과 동일한 70% : 15% : 15%를 유지하였다. 그림 4에 사용된 맞춤형(tailored) 신경망 모델[27]은 DNN3 모델 결과보다는 다소 낮은 결정 계수와 평균 제곱근 오차를 보이지만 DDN4 모델의 결과보다 높은 98.53%의 결정 계수와 17.47 HV의 오차로 동일한 구조의 ANN1과 비교하여 훨씬 우수한 예측 정확도를 보이고 있다. 가장 높은 예측 정확도를 갖는 하이퍼파라미터는 자동화된 기계 학습 (automated ML, AutoML)등의 모델 최적화 프로세스를 통해 도출하였다.

Fig. 4.

Predicted hardness of tempered martensite by using the tailored neural network model with optimized hyperparameters.

좀더 객관적인 비교를 위해 각 모델에서 얻은 결정 계수와 평균 제곱근 오차를 해당 모델에서 사용된 계수의 개수로 나타냈다. 예를 들어 식 (6)의 LR1 모델은 상수항을 포함하여 입력값으로 사용되는 독립변수 8개(조성, 온도, 시간)에 대한 계수 1개씩을 고려하여 총 9개의 항이 선형적으로 연결되어 있으며 따라서 계수의 개수는 9이다. 논문에서 구한 PEM의 경우 식 (2)와 식 (3)에서 총 10개의 계수가 사용됨을 알 수 있다. 이런 방식으로 LR2, LR3, ANN1, ANN2, DNN3, DNN4 모델들, 그리고 ANN1과 동일 구조인 tailored NN 모델까지 계수의 개수를 계산하여 그림 5에 비교해 보았다. 자세한 값들은 표 1에 정리하였다. 몇 가지 흥미로운 사실들을 확인할 수 있었다. 우선 기존 논문에서 제시된 식 (2)와 식 (3)을 이용한 PEM 모델의 경우 총 10개의 계수를 사용했는데 45개의 계수를 사용한 LR2 모델(반응표면법)과 유사한 결과를 보였다. 이는 단순 독립변수 사이의 상호작용을 고려하여 기계적으로 조합 및 반복 나열된 계수가 45개 항인 수식으로 얻을 수 있는 수준의 회귀 예측 정확도를 템퍼링 상수라는 금속학적 물리 개념의 관계식을 사용함으로써, 예측 모델에 필요한 계수의 수를 약 75% 줄일 수 있음을 보여준다. 분명 LR1 모델보다 LR2 모델이, LR2 모델보다 LR3 모델이 더 우수한 예측 정확도를 보인다. 만약 LR4 모델이나 LR5 모델을 설계하면 이들 모델이 심지어 실질적으로 의미 없는 항을 가질지라도 계속해서 결정 계수는 조금씩 올릴 수 있을 것이다. 하지만 결국 예측 정확도가 가장 높으면서도 가장 간단한 구조의 모델을 결정해야 하는데, 이분야에서도 역시 계속해서 많은 연구들이 진행되어 오고 있으나 모든 경우를 만족시킬 수 있는 최적의 조건을 제시할 수 있는 해답을 제시하는 것은 지금까지도 매우 어려운 일이다[28].

Fig. 5.

Correlation between the number of coefficient and the (a) coefficient of determination and (b) root mean square error depending on predictive model.

Table 1.

Summary of the number of coefficient (NOC), coefficient of determination (R²), root mean square error (RMSE) for the predictive models used in this study.

계수의 개수가 147개인 LR3모델의 결정 계수나 평균 제곱근 오차가 노드 사이에 사용된 계수의 개수가 127개인 ANN1 모델의 결정 계수나 평균 제곱근 오차와 연결할 때, 하나의 연속적인 곡선으로 표현될 가능성이 보이는 점도 흥미롭다. 최소 회귀 문제에 있어서 인공신경망 모델은 비선형 문제를 효과적으로 해결하기 위한 방법으로 매우 많은 항들의 조합으로 이루어져 있다. 그림 5a와 5b에서 보이는 LR3 모델과 ANN1 모델의 결정 계수나 평균제곱근 오차가 교차하는 것은 본 연구에서 나타난 우연의 결과일 수도 있으며 이에 대해서는 향후 모델들의 노드 개수 변화에 따른 추가적인 조사가 필요하다. 또 한가지 중요한 포인트는 DNN4 모델의 계수가 757개로 심지어 Tailored NN 모델의 계수보다 거의 6배 가량 많은, 즉 더 복잡한 신경망 구조를 가지고 있음에도 상대적으로 낮은결정 계수와 높은 오차를 보인다는 점이다. 물론 이들 값은 전체 1,926개 데이터의 평균 값으로 일부는 무작위로 training 데이터로, 일부는 validation 데이터로 사용되었다. 그리고 일부는 모델 구축에 관여하지 않은 채 최종 모델 확인용인 test 데이터로 사용되었다. 만약에 이들 무작위로 선택하는 데이터 비율을 원하는 방향으로 조절하거나 데이터 수의 부족으로 인해 일부를 생략하는 방법 등을 택하게 된다면 숫자상으로 보이는 결과는 높은 값을 얻을 수 있다. 하지만 그렇게 구축된 모델이 실제 효과적으로 새로운 입력 데이터로부터 신뢰성 높은 결과를 도출할 수 있을지에 대한 의문은 계속해서 남게 된다. 참고로 Tailored NN 모델의 경우 전체 1,926개 데이터에 대한 결정 계수는 98.53%였으며, 세부적으로 training 데이터(70%)는 98.58%, validation 데이터(15%)는 98.54%, test 데이터(15%)는 98.27%로 확인되었다. 또한 Tailored NN 모델의 경우 127개의 계수만을 사용한 1개 layer 구조이지만 개발자의 모델 조율 정도에 따라 layer 개수가 3개 혹은 4개인 DNN3 모델이나 DNN4 모델과 비교하여 동등하거나 우수한 성능을 가질 수 있음을 보여준다. 이는 분명 복잡하고 거대한 구조의 모델보다 단순하지만 잘 조율된 모델이 더 효율적일 수 있다는 의미이기도 하다.

앞서 Kang과 Lee [16]가 발표했던 논문의 데이터를 중심으로 다양한 모델들을 비교해 보았다. 이와 유사한 다른 논문들에 대해서도 비교해 보고자 논문검색 사이트인 SciencecDirect의 Advanced Search 기능을 통해 제목, 초록, 키워드 동시 검색에서 ‘neural network hardness steels’이라는 검색어로 논문을 검색해 보았다. 1998년도 논문을 시작으로 2022년도까지 총 64편의 논문이 검색되었다. 이들 논문을 검토하여 인공신경망을 이용하여 철강 소재의 경도를 예측한 논문 18편[29-46]을 구별하여 분석하였다. 소재가 철강이 아니거나, 박막 경도, 표면 거칠기 예측 등과 같이 소재나 목표 물성이 정확하게 일치하지 않는 논문들은 분석에서 제외하였다. 정리된 결과는 그림 6에 나타냈다. 분석에 사용한 18편의 논문 중 은닉층이 1개인 모델을 사용한 논문이 12편[29-33,35-37,39,41,43,44], 은닉층이 2개인 모델을 사용한 논문이 4편[34,38,39,42]이었다. 최근 2019년도[45]와 2021년도[46]에 발표된 2편의 논문은 딥러닝의 대표적인 방법인 CNN을 이용하여 경도를 예측한 논문이었다. 그림 6a는 은닉층의 개수가 1개 혹은 2개인 ANN 논문 16편에 보고된 사용 데이터 수와 해당논문들의 분포를 보여주고 있다. 사용한 데이터의 수가 50개 미만인 논문이 7개로 가장 많았으며 심지어 16개 데이터로 머신러닝 해석을 실시한 논문도 있다. 물론 이 논문에서는 GRNN(generalized regression neural network)이라는 일반회귀신경망을 적용하였지만 이는 기존 경험적 수식을 통해서도 충분히 높은 정확성을 보이는 회귀식 도출이 가능할 것으로 생각된다. 구조용 강재에 대한 논문[29]과 마레이징강에 대한 방대한 실험 데이터를 조사한 논문[31]을 제외하면 평균 사용 데이터는 300여개에 지나지 않는다. 이 경우 빅 데이터로 구분될 수 있는 수준이 되기 어렵고 얕은 신경망 혹은 물리적 수식이나 경험식에 기반한좀더 직관적으로 데이터 특성을 확인할 수 있는 수식을 선택하는 것이 좋다고 생각된다. 그림 6b는 18개 분석 논문중, 사용된 신경망 모델로 예측한 경도의 결정 계수와 사용한 데이터 수가 보고된 9개 논문[31,34,35,38,41,42,45,46]과 본 연구에서 ANN1 모델과 ANN2 모델, 그리고 Tailored NN 모델로 구한 결정 계수를 이번 모델에 사용한 데이터수(1,926개)를 기준으로 함께 표시하였다. 정확한 사용 데이터 수가 언급되지 않은 CNN 논문 2편은 점선으로 결정 계수만 표시하였다. CNN과 cGAN(conditional generative adversarial networks)을 함께 사용한 경우 공구강의 경도 예측에서 94.4%의 높은 결정 계수를 기록하였다[45]. 열간 다이강에서 경도와 인장특성을 동시에 예측하는 은닉층이 2개인 모델을 연구한 논문[46]에서 경도에 해당하는 결정계수가 89.7%로 상대적으로 낮을 뿐 나머지 6개 논문에서 보고된 경도 관련 결정계수는 95.1%에서 99.1%의 높은 정확도를 보였다.

Fig. 6.

(a) distribution of study case to predict hardness using ANN model according to number of dataset and (b) comparison of the prediction accuracy by_individual neural network models.

4. 결 론

이번 연구에서는 최근 재료 분야에서 활발하게 연구되고 있는 인공지능, 그 중에서도 딥러닝을 포함한 머신러닝 기법을 이용한 데이터 예측의 유용성에 대해 기존의 경험적 수식에 기반한 방법들과 비교해 보았다. 새로운 템퍼링 상수와 템퍼드 마르텐사이트 경도 예측을 위해 문헌에서 사용된 1,926개 실험 데이터를 활용하여 데이터 예측 유용성을 평가하였다. 반응표면법으로 불리는 표현 형태를 가진선형 회귀식을 사용하여 재료 물성을 예측한 결과보다 금속의 물리적 거동을 반영한 템퍼링 상수가 반영된 경험식이 약 1/4의 계수를 사용하면서도 더 우수한 예측 정확도를 가짐을 확인하였다. 은닉층이 1개나 2개인 얕은 신경망 모델보다 딥러닝에서 예측 정확도가 향상되었으나 가장 복잡한 구조의 DNN4 모델에서는 과적합 문제로 인해 오히려 예측 정확도가 다소 낮아진 것으로 생각된다. 오히려 동일하게 1개의 은닉층만을 갖고 있지만 하이퍼파라미터를 최적화함에 따라 은닉층이 3, 4개인 딥러닝 모델과 동등하거나 이상의 예측 정확도를 보이는 맞춤형 신경망 (tailored NN) 모델을 통해 주어진 문제에 따른 최적의 모델 구조와 잘 조율된 파라미터 혹은 하이퍼파라미터의 중요성을 다시금 확인하였다. 또한 최근까지 보고된 문헌들의 머신러닝을 통한 소재 물성 예측 결과들을 분석한 결과 지도 학습을 통한 회귀와 관련된 예측은 복잡한 구조의 딥러닝을 적용하는 것보다 단순한 구조의 얕은 신경망 모델을 이용하는 것이 더 효율적인 연구 방법임을 확인할 수 있었다.

Acknowledgements

본 논문은 한국생산기술연구원 기본사업 "제조혁신지원사업 (KITECH JH-22-0003)" 의 지원으로 수행한 연구입니다.

References

1. Abiodun O.I., Jantan A., Omolara A.E., Dada K.V., Mohamed N.A.E., Arshad H.. Heliyon 4e00938. 2018;

2. Shen C., Wang C., Wei X., Li Y., van der Zwaag S., Xu W.. Acta Mater 179:201. 2019;

3. Han Z.K., Sarker D., Ouyang R., Mazheika A., Gao Y., Levchenko S.V.. Nat. Commun 12:1833. 2021;

4. Jeon J., Seo N., Kim H.J., Lee M.H., Lim H.K., Son S.B., Lee S.J.. Metals 11:729. 2021;

5. Eren B., Guvenc M.A., Mistikoglu S.. Met. Mater. Int 27:193. 2021;

6. Jeon J., Kim G., Seo N., Choi H., Kim H.J., Lee M.H., Lim H.K., Son S.B., Lee S.J.. J. Mater. Res. Tech 16:129. 2022;

7. Hansen N.. Scr. Mater 51:801. 2004;

8. Liu W.H., Wu Y., He J.Y., Nieh T.G., Lu Z.P.. Scr. Mater 68:526. 2013;

9. Lee J.W., Park W.B., Lee J.H., Singh S.P., Sohn K.S.. Nat. Commun 11:86. 2020;

10. Hong D., Kwon S., Yim C.. Met. Mater. Int 27:298. 2021;

11. Lee H.J., Hwang I.K., Jeong S.J., Cho I.S., Kim H.S.. Korean J. Met. Mater 59:430. 2021;

12. Hong T.W., Lee S.I., Shim J.H., Lee M.G., Lee J., Hwang B.. Met. Mater. Int 27:3935. 2021;

13. Lee J.W., Park C., Lee B.D., Park J., Goo N.H., Sohn K.S.. Sci. Rep 11:11012. 2021;

14. Hwang I.K., Lee H.J., Jeong S.J., Cho I.S., Kim H.S.. Korean J. Met. Mater 59:838. 2021;

15. Eren B., Guvenc M.A., Mistikoglu S.. Met. Mater. Int 27:193. 2021;

16. Kang S., Lee S.J.. Mater. Trans 55:1069. 2014;

17. Hollomon J.H., Jaffe L.D.. Trans. AIME 162:223. 1945;

18. MathWorks, MATLAB R2020b - Neural Network Toolbox, Natick, MA, USA (2020).

19. Datta S., Sil J., Banerjee M.K.. ISIJ Int 39:986. 1999;

20. Wang G., Dong Z.. Eng. Optim 33:707. 2001;

21. Saeglitz M., Krauss G.. Metall. Mater. Trans. A 28:377. 1997;

22. Delagnes D., Lamesle P., Mathon M.H., Mebarki N., Levaillant C.. Mater. Sci. Eng. A 394:435. 2005;

23. Jeon J., Seo N., Son S.B., Lee S.J., Jung M.. Metals 11:1159. 2021;

24. Bejani M.M., Ghatee M.. Artif. Intell. Rev 54:6391. 2021;

25. Waring J., Lindvall C., Umeton R.. Artif. Intell. Med 104:101822. 2020;

26. Zöller M.A., Huber M.F.. J. Artif. Intell. Res 70:409. 2021;

27. Solutions Prediction & Optimization. Material Design Calculator. 2022;

28. Green S.B.. Multivar. Behav. Res 26:499. 1991;

29. Dobrzański L.A., Sitek W.. J. Mater. Proc. Tech 78:59. 1998;

30. Dobrzański L.A, Sitek W. J. Mater. Proc. Tech 92-93:8. 1999;

31. Guo Z, Sha W. Comput. Mat. Sci 29:12. 2004;

32. Sitek W., Dobrzański L.A., Zacłona J.. J. Mater. Proc. Tech 157-158:245. 2004;

33. Sterjovski Z., Nolan D., Carpenter K.R., Dunne D.P., Norrish J.. J. Mater. Proc. Tech 170:536. 2005;

34. Xu L., Xing J., Wei S., Zhang Y., Long R.. Mater. Des 28:1425. 2007;

35. Ozerdem M.S., Kolukisa S.. J. Mater. Proc. Tech 199:437. 2008;

36. Mirzadeh H., Najafizadeh A.. Mater. Chem. Phys 116:119. 2009;

37. Sidhu G., Bhole S.D., Chen D.L., Essadiqi E.. Mater. Des 41:99. 2012;

38. Taghizadeh S., Safarian A., Jalali S., Salimiasl A.. Mater. Des 51:530. 2013;

39. Powar A., Date P.. Mater. Sci. Eng. A 628:89. 2015;

40. Jiang M., Ma C., Xia F., Zhang Y.. Surf. Coat. Technol 286:191. 2016;

41. Razavi S.A., Ashrafizadeh F., Fooladi S.. Mater. Sci. Eng. A 675:147. 2016;

42. Liu Y., Zhu J.C., Cao Y.. J. Iron Steel Res. Int 24:1254. 2017;

43. Qiao L., Wang Z., Zhu J.. Mater. Sci. Eng. A 792:139845. 2020;

44. Khalaj O., Ghobadi M., Zarezadeh A., Saebnoori E., Jirková H., Chocholaty O., Svoboda J.. Mater. Today Commun 26:101806. 2021;

45. Oh S., Ki H.. Appl. Therm. Eng 153:583. 2019;

46. Jia X., Li W., Lu Q., Zhang K., Du H., Xu Y., Jin X.. Mater. Des 211:110126. 2021;

Article information Continued

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Model	NOC	R²	RMSE (HV)
PEM	10	0.9410	35.18
LR1	9	0.8967	46.39
LR2	45	0.9476	33.04
LR3	147	0.9721	24.09
ANN1	127	0.9686	25.58
ANN2	337	0.9741	23.24
DNN3	547	0.9870	16.48
DNN4	757	0.9819	19.88
Tailored NN	127	0.9853	17.47