1. About

서강대학교 자연어처리 실험실은 국내외의 자연어처리 분야에서 선도적인 역할을 담당해 온 연구실입니다. 초창기부터 자연어처리 기술과 관련하여 형태소 분석, 구문 분석, 의미 분석, 담화 분석, 기계번역, 정보검색 등에 관하여 연구하여 왔습니다. 변화하는 정보사회 환경에서 모든 자연어처리 기술이 중요하지만, 특히 저희 연구실은 대화(Dialogue)처리에 관한 핵심 기술에 연구 방향을 정하고 구체적으로 다음의 분야에서 연구를 수행하고 있습니다.

 

결과 1. 대화 인터페이스 기술

- 대화인터페이스 기술 개발

기술

기술 개발 내용

멀티모달 상호작용 모델 개발

- 멀티모달 대화 말뭉치 수집

- 멀티모달 대용어 현상 분석

- 멀티모달 상호작용을 위한 지식베이스 설계

- 멀티모달 대화모델 설계

사용자 대화목적/의도 인식 및 로봇 의도 생성 모델 개발

- 영역수준(domain level)과 담화수준(discourse level)의 recipe를 각 대화 영역 별로 영역 지식과 담화 지식을 모델링

- 계획인식(plan recognition) 기법을 이용한 대화 모델을 구성

- recipe를 통해 사용자의 의도를 찾아낼 수 있는 추론 엔진을 개발하고 로봇 의도 생성 모델 개발

상태와 행위에 대한 formal representation 결정

- 로봇의 communicative act와 domain act 스펙 결정.

플래닝에 사용할 형식 모델 결정

- 사용자의 의도를 형식 모델 중에 하나로 계획 인식 가능

로봇응답생성

- 프레임 기반 문장 생성을 위한 체계 구축

- 문장 프레임 수집 및 어휘 수집

- 대화 생성을 위한 의미구조 API 정립

- 불규칙 용언 및 음운 합성 규칙 장성

사용자 모델링의 기존 모델의 개선 및 가장 효과적인 모델 선정

- 사용자 모델링과 대화목적/의도인식 모델의 접목을 위한 Inference Engine 설계

- 사용자 계획 인식(plan recogntion)모델에 적합한 유저 모델링 기법의 선정 및 설계


- 대화 예제

화 자

발      화

로봇

사용자

로봇

사용자

로봇

사용자

로봇

사용자

로봇

사용자

로봇

사용자

로봇

안녕하세요. 어떤 제품을 원하십니까?

침대를 알아보려구요.

(single-bed와 double-bed를 보여주며) 이런 품목들이 있습니다. 어떤 품목을 원하십니까?

(single-bed를 누르며) 이것이요.

(bed-612, 613을 보여주며) 이런 모델들이 있습니다. 어떤 모델을 원하십니까?

(bed-612를 누르며) 이건 얼마입니까?

사십삼만삼천 원 입니다.

그걸로 주세요.

더 필요하신 것은 없습니까?

책장도 좀 보여주세요.

(bookshelf-101, 102, 103을 보여주며) 이런 모델들이 있습니다. 어떤 모델을 원하십니까?

(bookshelf-103을 누르며) 이거랑 아까 침대랑 구입할께요.

감사합니다.

 

결과 2. 문서 분류 기술

최근 인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 효율적인 정보 관리 및 검색이 요구되고 있다. 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로서 효율적인 정보관리 및 검색을 가능하게 하는 동시에 전통적으로 문서 분류를 위해 요구되어 왔던 방대한 양의 수작업을 감소시키도록 하는데 그 목적이 있다.

자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반 (supervised learning)으로서 보통 수작업에 의해 범주가 할당된 대량의 학습문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다.

이러한 문제점을 해결하기 위해 비지도 학습 (unsupervised learning) 기반의 문서 자동 범주화 기법을 연구 개발하였다. 수집된 문서를 문장 단위로 나눈 후 각 범주의 핵심어 입력과 문장간 유사도 측정 기법을 사용하여 문장들을 각 범주별로 분류하고 이들을 사용하여 학습하는 방법으로 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행한다.

 

결과 3. 문서 요약 기술

인터넷의 등장과 유무선 통신 서비스의 급속한 성장은 과거보다 훨씬 더 많은 정보의 접근을 가능하게 하였으나, 이러한 환경의 변화는 정보 과잉의 문제를 발생시킨다. 유비쿼터스 시대가 도래함에 따라서 기존의 컴퓨터뿐만이 아니라 IP TV, PDA 등 다양한 전자 장비를 통해 인터넷에 접속이 가능해 짐에 따라서, 다양한 인터페이스를 통한 효율적인 웹 브라우징 기법의 개발이 요구되고 있다.

중요핵심어 추출 및 중요문장 추출을 이용한 문서 요약 기술은 이러한 시대적 요구에 따라 발생하는 문제들을 효과적으로 해결할 수 있는 도구를 제공할 수 있다.

웹 문서의 특성 중 요약에 중요한 특성을 추출하여 요약 시스템의 성능을 향상시키고, HTML문서를 분석하고 추출된 요약의 중요한 특성을 한정된 환경에서 사용하여 각 문서 별로 단계적(핵심어, 중요문장 순) 요약문을 제공한다.


 

결과 4. 소형단말기 텍스트 정보처리기술>

소형 단말기(핸드폰, PDA 등)의 요구가 늘어감에 따라 다양한 문제 해결이 요구되며, 이를 사용자에게 친숙하게 처리하기 위한 관점에서 소형 단말에 대한 자연어처리 기술에 대한 필요가 증대되고 있다.

기존의 언어처리와는 달리 오타/띄어쓰기 등의 오류가 심각하고 언어자원을 충분히 사용할 수 없다는 제약사항으로 인해 상용화에 필요한 성능을 내기 어려운 분야라는 점에서 필요에 비해 해결방법이 명확히 제시되지 않고 있다.

학교간 협동작업과 실제 상용 요구사항을 가지고 있는 기업과의 협동 연구를 통해 소형 단말기에서 언어 처리하는 다양한 기술들을 개발 중이며, 표층적 정보를 이용한 추출 모듈을 개발해 원천기술을 확보하고 있으며, 나아가 언어처리 기반 모듈들에 대한 소형 단말기 포팅을 위한 기술 연구를 추진 중이다.>


 

결과 5. 문체 변환 기술

문체 변환이란 문어체 형식의 문장을 '하삼체'처럼 매스미디어를 통해 새롭게 등장한 문체나 '요체'처럼 상황에 맞는 문체로 변환하는 기술이다.

문체변환 기술은 대화시스템, 기계번역 시스템, 로봇 시스템 등에서 사용자의 흥미를 유발할 수 있는 발화, 다양한 사용자 계층에 맞는 발화, 다양한 영역에서 필요한 다양한 문체의 말뭉치를 생성하는데 적용할 수 있다.



2. Address

저희 연구실은 지난 20년동악 약 60명의 졸업생을 배출하였으며 (석사 50명, 박사 10명), 이들은 현재 대학, 연구소, 대기업, 벤처기업 등에서 자연어 처리 또는 컴퓨터공학에 관련된 중요한 역할들을 담당하고 있습니다.

인간의 언어에 대한 연구, 컴퓨터에 대한 연구, 인간과 컴퓨터의 상호작용에 대한 연구에 관심있는 분들은 seojy@sogang.ac.kr로 연락 주시기 바랍니다.


이메일주소 : seojy@sogang.ac.kr

전화번호 : 02-706-8954

주소 : 서울시 마포구 신수동 1번지 서강대학교 컴퓨터공학과 자연어처리 연구실

R관 (리치 과학관) 908호

#908 Ricci Hall, Sogang Univ., Sinsu-Dong, Mapo-Gu, Seoul, 121-742, Rep. of Korea