문서 편집 권한이 없습니다. 다음 이유를 확인해주세요: 요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다: 사용자. 문서의 원본을 보거나 복사할 수 있습니다. 플레이시티 블록 챗봇은 블록 서버의 다양한 정보를 사용자에게 제공하기 위해 구축된 인공지능 기반의 질의응답 시스템이다. 이 챗봇은 위키 문서, 서버 설정 파일 등 여러 출처의 데이터를 학습하여 질문에 답변하며, 웹 인터페이스와 디스코드 봇을 통해 접근할 수 있다. == 원리 == 구글 클라우드 플랫폼의 Vertex AI 서비스를 기반으로 구축되었으며, 자연어 이해 및 정보 검색을 위해 벡터 임베딩과 유사도 검색 기술을 핵심 원리로 사용한다. 플레이시티 챗봇은 사용자의 질문 의도를 파악하고 가장 적절한 답변을 찾아내기 위해 검색 증강 생성(Retrieval-Augmented Generation)과 유사한 접근 방식을 채택하고 있다. * '''데이터 벡터화''': 챗봇이 답변의 근거로 삼는 모든 정보는 사전에 텍스트 조각으로 나뉜다. 이후, 각 텍스트 조각은 임베딩 모델을 통해 수치적인 표현인 벡터로 변환된다. 이 벡터들은 텍스트의 의미론적, 문맥적 정보를 압축하여 담고 있으며, 벡터 데이터베이스에 저장되어 색인을 구성한다. * '''사용자 질문 벡터화''': 사용자가 질문을 입력하면, 해당 질문 텍스트 역시 동일한 임베딩 모델을 통해 벡터로 변환된다. * '''벡터 유사도 검색''': 시스템은 사용자의 질문 벡터와 가장 가깝고 유사한 의미를 가진 벡터들을 미리 구축된 데이터베이스에서 신속하게 찾아낸다. 이 과정은 기하학적으로 벡터 공간 내에서 가장 가까운 이웃을 찾는 것과 같다. * '''답변 생성''': 검색된 최상위 유사도 벡터에 해당하는 원본 텍스트 조각들을 바탕으로, 시스템은 사용자 질문에 가장 적합한 최종 답변을 구성하여 제공한다. === 모델 === * VertexAI * text-multilingual-embedding-002 : 텍스트를 고차원의 벡터로 변환하는 역할을 수행하는 텍스트 임베딩 모델이다. 한국어를 포함한 다양한 언어를 지원하는 것이 특징이다. 일관된 성능으로 다양한 언어로 작성된 텍스트의 의미를 이해하고 벡터화할 수 있다. * gemini-2.0 === 데이터 학습 방식 === 플레이시티 챗봇의 학습은 주기적인 데이터 수집과 임베딩, 그리고 FAISS 인덱스 재구축을 통해 이루어진다. 대표적으로 플레이시티 위키 문서를 수집하는 경우, pywikibot을 사용하여 특정 분류<ref>플레이시티 블록으로 분류된 문서 등</ref>에 속한 문서들을 대상으로 수집하며, 본문 텍스트, 틀, 표 등으로 분리하여 파싱, 가공하여 관리한다. 텍스트는 문장 단위로 분할된 후, 설정된 토큰 한도에 맞춰 청크로 그룹화되어 임베딩된다. 수집된 모든 텍스트로된 문서는 text-multilingual-embedding-002 모델을 이용해 고차원 벡터로 임베딩한다.<ref>2025년 6월 기준</ref> == 수집 데이터 == * 플레이시티 위키 * 플레이시티 디스코드 블록서버 관련 토론 채팅방, 토론 참여 유저 목록 * [[한국어 두도 방언]]([[두도어]]) 언어 모델 * 이외 필요 정보 [[분류:플레이시티 블록]] 플레이시티 블록/챗봇 문서로 돌아갑니다.