안경잡이개발자

728x90
반응형

다이얼로그 플로우(Dialog Flow)에 엑셀 파일(csv) 등의 데이터를 한 번에 넣는 방법

나동빈


  구글의 다이얼로그 플로우를 이용할 때 우리는 기본적으로 자신이 직접 하나씩 입력(Input) 및 출력(Output)을 넣어서 챗봇(Chat Bot)을 개발해야 합니다. 


  하지만 챗봇을 위해 사전에 많은 양의 데이터를 준비하여 한 번에 넣어야 할 때가 있습니다. 예를 들어 저는 매우 많은 양의 영어 대화(English Conversation) 정보를 한 번에 다이얼로그 플로우에 삽입을 해야 하는 경우가 있었습니다.



  저는 이렇게 엑셀 형태로 챗봇에 들어갈 데이터가 약 3,000 개가 넘는 상황이었습니다.


  다이얼로그 플로우는 대용량 csv 파일을 한 번에 삽입할 수 있는 기능을 제공하고 있지 않습니다. 대신에 JSON 형태의 문서를 삽입할 수 있습니다. 그러므로 csv 파일을 다이얼로그 플로우에 맞는 전용 JSON 형식으로 바꾸어서 업로드(Upload) 해야 합니다. 이번 강에서는 다이얼로그 플로우 전용 JSON 형식으로 바꾸는 방법에 대해서 소개하고자 합니다.



  일단 하나의 에이전트(Agent)를 만들어 봅시다.



  그리고 일단 위와 같이 기본적으로 존재하는 두 개의 인텐트(Intent)를 지워줍니다.



  이제 위와 같이 'Test Intent'라는 이름으로 하나의 인텐트를 만든 뒤에 2개의 입력(Input)을 넣어보겠습니다.



  또한 하나의 출력(Output)을 가지도록 해보겠습니다.



  이후에 저장(Save)을 하고 해당 챗봇 프로젝트를 내보내기(EXPORT AS ZIP) 해봅시다.



  이후에 압축을 풀어 보면 위와 같이 폴더가 구성되어 있는 것을 확인할 수 있습니다. 여기에서 인텐트(Intent) 파일 정보는 intents에 담깁니다.



  위와 같이 intents 폴더에 들어가 보면 두 개의 JSON 파일이 존재하는 것을 알 수 있습니다. 먼저 'Test Intent.json'을 열어봅시다.



  우리가 바꾸어야 할 부분은 두 가지 입니다. 바로 이름(name)과 메시지(message)입니다. 이 부분을 바꾸어서 다시 Import 시키면, 그에 맞는 인텐트가 다이얼로그 플로우에 적용 될 것입니다. 다음으로는 'Test Intent_usersays_ko.json'를 열어 봅시다. 이 파일에는 사용자의 입력(Input) 데이터가 들어가 있습니다.



  위와 같이 입력 값의 개수에 맞게 텍스트(Text) 부분만 바꾸어주면 된 다는 것을 쉽게 이해할 수 있습니다.


  여기에서부터는 자신이 처한 환경에 따라서 구현 방법이 서로 다릅니다. 쉽지 않을 수 있다는 점을 감안하세요! 저는 파이썬(Python)을 이용해서 작업해보았습니다.


import openpyxl


# 한 건의 대화에 대한 정보를 담는 객체입니다.

class Conversation:

    

    # 질문(Question), 응답(Answer) 두 변수로 구성됩니다.

    def __init__(self, contentName, contentType, question, answer):

        self.contentName = contentName

        self.contentType = contentType

        self.question = question

        self.answer = answer


    def __str__(self):

        return "질문: " + self.question + "\n답변: " + self.answer + "\n"


# 영어 대화 데이터가 담긴 엑셀 파일을 엽니다.

wb = openpyxl.load_workbook('Conversation Data.xlsx')

 

# 활성 시트를 얻습니다.

ws = wb.active


conversations = []


# 시트 내에 존재하는 모든 영어 대화 데이터를 객체로 담습니다.

for r in ws.rows:

    c = Conversation(r[0].value, r[1].value, r[2].value, r[3].value)

    conversations.append(c)

    

wb.close()


for c in conversations:

    print(str(c))

    

# 모든 대화 내용을 출력합니다.

for c in conversations:

    print(str(c))

    

print('총 ', len(conversations), '개의 대화가 존재합니다.')



  저는 일단 위와 같이 파이썬을 이용해 엑셀에서 전체 데이터를 뽑아내 리스트(List)에 담았습니다.


# -*- coding: utf-8 -*-


# 파일로 출력하기

i = 1

# 출력, 입력 값 JSON 파일을 생성합니다.

prev = str(conversations[0].contentName) + str(conversations[0].contentType)

f = open(prev + '.json', 'w', encoding='UTF-8')

f.write('{ "id": "10d3155d-4468-4118-8f5d-15009af446d0", "name": "' + prev + '", "auto": true, "contexts": [], "responses": [ { "resetContexts": false, "affectedContexts": [], "parameters": [], "messages": [ { "type": 0, "lang": "ko", "speech": "' + conversations[0].answer + '" } ], "defaultResponsePlatforms": {}, "speech": [] } ], "priority": 500000, "webhookUsed": false, "webhookForSlotFilling": false, "fallbackIntent": false, "events": [] }')

f.close()

f = open(prev + '_usersays_ko.json', 'w', encoding='UTF-8')

f.write("[")

f.write('{ "id": "3330d5a3-f38e-48fd-a3e6-000000000001", "data": [ { "text": "' + conversations[0].question + '", "userDefined": false } ], "isTemplate": false, "count": 0 },')


while True:

    if i >= len(conversations):

        f.write("]")

        f.close()

        break;

    c = conversations[i]

    if prev == str(c.contentName) + str(c.contentType):

        f.write('{ "id": "3330d5a3-f38e-48fd-a3e6-000000000001", "data": [ { "text": "' + c.question + '", "userDefined": false } ], "isTemplate": false, "count": 0 },')

    else:

        f.write("]")

        f.close()

        # 출력, 입력 값 JSON 파일을 생성합니다.

        prev = str(c.contentName) + str(c.contentType)

        f = open(prev + '.json', 'w', encoding='UTF-8')

        f.write('{ "id": "10d3155d-4468-4118-8f5d-15009af446d0", "name": "' + prev + '", "auto": true, "contexts": [], "responses": [ { "resetContexts": false, "affectedContexts": [], "parameters": [], "messages": [ { "type": 0, "lang": "ko", "speech": "' + c.answer + '" } ], "defaultResponsePlatforms": {}, "speech": [] } ], "priority": 500000, "webhookUsed": false, "webhookForSlotFilling": false, "fallbackIntent": false, "events": [] }')

        f.close()

        f = open(prev + '_usersays_ko.json', 'w', encoding='UTF-8')

        f.write("[")

        f.write('{ "id": "3330d5a3-f38e-48fd-a3e6-000000000001", "data": [ { "text": "' + c.question + '", "userDefined": false } ], "isTemplate": false, "count": 0 },')

    i = i + 1


  저는 이후에 이렇게 막가파식으로 JSON 데이터를 생성하는 소스코드를 만들어 보았으며, 여러분은 자신의 입맛대로 소스코드를 작성하시면 됩니다. 제 소스코드는 결과적으로 다음과 같이 모든 영어 대화 내용을 다이얼로그 플로우에 삽입할 수 있는 JSON 파일을 만들어 냅니다.



  재미있는 점은 Intent 파일의 '아이디(id)' 값은 서로 동일하게 해도 다이얼로그 플로우에 적용 될 때 알아서 ID 값이 정상적으로 처리되기 때문에 정말 텍스트(Text) 값만 서로 다르게 해서 적용하면 문제 없이 등록됩니다.



  이제 우리가 처음에 다운로드 받았던 프로젝트 폴더의 intents 폴더 내에 모든 JSON 파일을 넣어주고 다시 압축해줍시다.



  이제 새롭게 만들어 진 챗봇 프로젝트 파일을 다시 삽입해줍시다.




  복구(RESTORE) 버튼을 눌러 프로젝트를 복구하면 다음과 같이 모든 인텐트가 들어가는 것을 알 수 있습니다.



  이로써 대용량 엑셀 파일로부터 다이얼로그 플로우에 인텐트를 삽입하는 방법을 알아보았습니다.


728x90
반응형

728x90
반응형

다변인 선형회귀를 활용한 배추 가격 예측 AI 개발하기 3강 - 다변인 선형회귀 모델 개발하기

나동빈


  이번 시간에는 지난 시간에 수집한 데이터를 이용하여 다변인 선형회귀로 학습 모델을 만들어 볼 것입니다.


※ 데이터 준비하기 ※


  가장 먼저 지난 시간에 정제해 놓은 학습 데이터를 준비합니다.



※ 다변인 선형회귀 ※


  다변인 선형회귀는 모델에 영향을 미치는 변인이 여러 개 일 때 사용하는 모델입니다. 현재 우리의 데이터에서는 변인이 '평균 온도', '최저 온도', '최고 온도', '강수량'이므로 이 모든 변인이 '가격'에 영향을 미친다고 감안해야 합니다. 따라서 가중치(Weight)을 고려했을 때 다음과 같은 수식을 세울 수 있습니다.


  H(x1, x2, x3, x4) = x1w1 + x2w2 + x3w3 + x4w4


  이는 행렬의 곱을 이용하면 다음과 같이 간단하게 표현할 수 있습니다.


  H(X) = XW


  이를 소스코드에 그대로 옮기면 됩니다. 다만 학습의 보폭(Step)을 적절히 선택해야 안정적으로 학습이 가능할 것입니다. 저는 학습률을 0.000005로 설정하여 되도록 짧은 시간에 정확한 결과가 나오도록 구현해보았습니다.


※ 파이썬 소스코드 ※


  파이썬에서 텐서플로우(Tensorflow) 라이브러리를 활용해 다변인 선형회귀 모델을 구현합니다.


import tensorflow as tf

import numpy as np

from pandas.io.parsers import read_csv


model = tf.global_variables_initializer();


data = read_csv('price data.csv', sep=',')


xy = np.array(data, dtype=np.float32)


# 4개의 변인을 입력을 받습니다.

x_data = xy[:, 1:-1]


# 가격 값을 입력 받습니다.

y_data = xy[:, [-1]]


# 플레이스 홀더를 설정합니다.

X = tf.placeholder(tf.float32, shape=[None, 4])

Y = tf.placeholder(tf.float32, shape=[None, 1])


W = tf.Variable(tf.random_normal([4, 1]), name="weight")

b = tf.Variable(tf.random_normal([1]), name="bias")


# 가설을 설정합니다.

hypothesis = tf.matmul(X, W) + b


# 비용 함수를 설정합니다.

cost = tf.reduce_mean(tf.square(hypothesis - Y))


# 최적화 함수를 설정합니다.

optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.000005)

train = optimizer.minimize(cost)


# 세션을 생성합니다.

sess = tf.Session()


# 글로벌 변수를 초기화합니다.

sess.run(tf.global_variables_initializer())


# 학습을 수행합니다.

for step in range(100001):

    cost_, hypo_, _ = sess.run([cost, hypothesis, train], feed_dict={X: x_data, Y: y_data})

    if step % 500 == 0:

        print("#", step, " 손실 비용: ", cost_)

        print("- 배추 가격: ", hypo_[0])


# 학습된 모델을 저장합니다.

saver = tf.train.Saver()

save_path = saver.save(sess, "./saved.cpkt")

print('학습된 모델을 저장했습니다.')



※ 저장된 모델 확인하기 ※


  이제 위 소스코드를 실행하면 됩니다. 결과적으로 향후 사용자가 날씨 정보를 입력했을 때 배추 가격을 바로 보여줄 수 있도록 학습 모델이 파일 형태로 저장된 것을 확인할 수 있습니다.




728x90
반응형

728x90
반응형

다변인 선형회귀를 활용한 배추 가격 예측 AI 개발하기 2강 - 프로젝트 아이디어 및 데이터 수집

나동빈


  지난 시간에는 프로젝트의 개요에 대해 소개하는 시간을 가졌습니다. 이번 시간에는 프로젝트 아이디어를 고려하고 데이터를 수집하는 시간을 가집니다. 다변인 선형회귀는 데이터를 예측할 때 사용할 수 있는 대표적인 모델입니다. 따라서 특정한 대상을 예측해보는 프로젝트 아이디어를 생각해 보면 좋을 것입니다.


※ 프로젝트 아이디어 ※


  최근 태풍이 심해지고 있어 기후 변화가 심한 상태입니다. 이러한 배경에서 채소 중에서 '배추'의 가격은 날씨와 어떠한 변화가 있을지 궁금하여 배추 가격을 예측하는 인공지능을 만들어 보면 어떨까 생각해보았습니다.



  이외에도 우리의 주변에서는 인공지능을 활용해 분석할 수 있는 다양한 주제가 있습니다. 삶을 더욱 윤택하게 만들기 위해 다양한 아이디어를 고민해보는 습관을 기르는 것이 좋을 것 같습니다.


※ 데이터 수집 ※


  기후 데이터와 배추 가격 데이터는 어떻게 수집할 수 있을까요? 우리나라의 정부는 이러한 데이터를 무료로 제공해주고 있답니다. 다만 각 서비스는 데이터를 제공하는 정책이 다를 수 있기 때문에 필요에 따라서 크롤링(Crawling)의 과정이 필요할 수도 있습니다.


기상자료개방포털 다중지점통계: https://data.kma.go.kr/climate/StatisticsDivision/selectStatisticsDivision.do?pgmNo=158



농산물유통정보: https://www.kamis.or.kr/customer/price/retail/period.do?action=daily



※ 데이터 정제 ※


  수집한 데이터는 인공지능 소프트웨어가 인식하기 쉬운 형태로 정제해야 합니다. 배추 가격은 주말에는 책정되지 않는 점이나 몇몇 일자에서 톡톡 튀는 데이터가 있는 점 등을 감안해서 데이터를 쉽게 적용할 수 있는 형태로 바꾸어 주는 작업이 필요합니다.



※ 데이터 파일 ※


  직접 데이터를 추출하고 정제하는 과정이 귀찮으신 분은 다음의 파일을 다운로드 하시면 됩니다.


price data.csv


728x90
반응형

728x90
반응형

다변인 선형회귀를 활용한 배추 가격 예측 AI 개발하기 1강 - 프로젝트 개요 및 데이터 수집 방법

나동빈


  이번에 준비한 시리즈 강의는 <다변인 선형회귀를 활용한 배추 가격 예측 AI 개발하기> 강의 입니다. 본 강의는 초급 수준의 인공지능 프로젝트 강의이며 단순히 인공지능 학습 모델만 개발하는 것이 아니라 웹 서버 개발 과정까지 포함하여 '인공지능이 들어 간 상용 서비스를 만들 수 있을까?'에 대해서까지 인사이트(Insight)를 제공할 수 있는 강의입니다.


대상 독자


- 인공지능이나 웹 서버 동작 원리에 대해 잘 모르지만 따라해보며 빠르게 익히고 싶은 학생

- 인공지능의 기초 과정을 갓 공부한 뒤에 실전 프로젝트를 통해 배운 내용을 다지고 싶은 학생

- 간단한 인공지능을 활용해 기초적인 논문 수준의 실험을 경험 해보고 싶은 학생


다루게 될 기술


- 파이썬(Python)

- 텐서플로우(Tensorflow)

- 학습 모델 저장 및 불러오기

- 플라스크(Flask) 웹 서버

- MDBootstrap 디자인 프레임워크

- 클라우드 호스팅 서비스


시스템 구성도


함께 만들어 볼 결과물


  깃 허브 주소: https://github.com/ndb796/Vegita





728x90
반응형