플레이시티 블록/챗봇: 두 판 사이의 차이

편집 요약 없음
21번째 줄: 21번째 줄:
플레이시티 챗봇의 학습은 주기적인 데이터 수집과 임베딩, 그리고 FAISS 인덱스 재구축을 통해 이루어진다.
플레이시티 챗봇의 학습은 주기적인 데이터 수집과 임베딩, 그리고 FAISS 인덱스 재구축을 통해 이루어진다.


대표적으로 플레이시티 위키 문서를 수집하는 경우, pywikibot을 사용하여 특정 분류<ref>플레이시티 블록으로 분류된 문서 등</ref>에 속한 문서들을 대상으로 수집하며, 본문 텍스트, 틀, 표 등으로 분리하여 파싱, 가공하여 관리한다. 텍스트는 문장 단위로 분할된 후, 설정된 토큰 한도에 맞춰 청크로 그룹화되어 임베딩된다.
대표적으로 플레이시티 위키 문서를 수집하는 경우, pywikibot을 사용하여 특정 분류<ref>플레이시티 블록으로 분류된 문서 등</ref>에 속한 문서들을 대상으로 수집하며, 본문 텍스트, 틀, 표 등으로 분리하여 파싱, 가공하여 관리한다. 텍스트는 문장 단위로 분할된 후, 설정된 토큰 한도에 맞춰 청크로 그룹화되어 임베딩된다. 각 청크 당 토큰 한도는 비용 관리를 위해 최적화되어있다.


수집된 모든 텍스트로된 문서는 text-multilingual-embedding-002 모델을 이용해 고차원 벡터로 임베딩한다.<ref>2025년 6월 기준</ref>
수집된 모든 텍스트로된 문서는 text-multilingual-embedding-002 모델을 이용해 고차원 벡터로 임베딩한다.<ref>2025년 6월 기준</ref>

2025년 7월 6일 (일) 09:54 판

플레이시티 블록 챗봇은 블록 서버의 다양한 정보를 사용자에게 제공하기 위해 구축된 인공지능 기반의 질의응답 시스템이다. 이 챗봇은 위키 문서, 서버 설정 파일 등 여러 출처의 데이터를 학습하여 질문에 답변하며, 웹 인터페이스와 디스코드 봇을 통해 접근할 수 있다.

원리

구글 클라우드 플랫폼의 Vertex AI 서비스를 기반으로 구축되었으며, 자연어 이해 및 정보 검색을 위해 벡터 임베딩과 유사도 검색 기술을 핵심 원리로 사용한다. 플레이시티 챗봇은 사용자의 질문 의도를 파악하고 가장 적절한 답변을 찾아내기 위해 검색 증강 생성(Retrieval-Augmented Generation)과 유사한 접근 방식을 채택하고 있다.

  • 데이터 벡터화: 챗봇이 답변의 근거로 삼는 모든 정보는 사전에 텍스트 조각으로 나뉜다. 이후, 각 텍스트 조각은 임베딩 모델을 통해 수치적인 표현인 벡터로 변환된다. 이 벡터들은 텍스트의 의미론적, 문맥적 정보를 압축하여 담고 있으며, 벡터 데이터베이스에 저장되어 색인을 구성한다.
  • 사용자 질문 벡터화: 사용자가 질문을 입력하면, 해당 질문 텍스트 역시 동일한 임베딩 모델을 통해 벡터로 변환된다.
  • 벡터 유사도 검색: 시스템은 사용자의 질문 벡터와 가장 가깝고 유사한 의미를 가진 벡터들을 미리 구축된 데이터베이스에서 신속하게 찾아낸다. 이 과정은 기하학적으로 벡터 공간 내에서 가장 가까운 이웃을 찾는 것과 같다.
  • 답변 생성: 검색된 최상위 유사도 벡터에 해당하는 원본 텍스트 조각들을 바탕으로, 시스템은 사용자 질문에 가장 적합한 최종 답변을 구성하여 제공한다.

모델

  • VertexAI
  • text-multilingual-embedding-002
텍스트를 고차원의 벡터로 변환하는 역할을 수행하는 텍스트 임베딩 모델이다. 한국어를 포함한 다양한 언어를 지원하는 것이 특징이다. 일관된 성능으로 다양한 언어로 작성된 텍스트의 의미를 이해하고 벡터화할 수 있다.
  • gemini-2.0

데이터 학습 방식

플레이시티 챗봇의 학습은 주기적인 데이터 수집과 임베딩, 그리고 FAISS 인덱스 재구축을 통해 이루어진다.

대표적으로 플레이시티 위키 문서를 수집하는 경우, pywikibot을 사용하여 특정 분류[1]에 속한 문서들을 대상으로 수집하며, 본문 텍스트, 틀, 표 등으로 분리하여 파싱, 가공하여 관리한다. 텍스트는 문장 단위로 분할된 후, 설정된 토큰 한도에 맞춰 청크로 그룹화되어 임베딩된다. 각 청크 당 토큰 한도는 비용 관리를 위해 최적화되어있다.

수집된 모든 텍스트로된 문서는 text-multilingual-embedding-002 모델을 이용해 고차원 벡터로 임베딩한다.[2]

수집 데이터

  • 플레이시티 위키
  • 플레이시티 디스코드 블록서버 관련 토론 채팅방, 토론 참여 유저 목록
  • 한국어 두도 방언(두도어) 언어 모델
  • 이외 필요 정보
  1. 플레이시티 블록으로 분류된 문서 등
  2. 2025년 6월 기준