우선, 먼저 웹으로 출판된 페이지를 먼저 확인해 보시면, 대륙 중국어의 용어 중에 간화자가 아닌 한국식 한자 표기로 표시된 항목이 없는 것을 확인하실 수 있을 것입니다. YAML 데이터에서 term 필드만이 실제 화면에 표시되는 내용이기 때문에, 말씀하신 것처럼 term에서만 각 지역에서 쓰는 표기 방식으로 적은 것입니다 (단, 한국어의 경우 한글 대신 한국식 한자로 표기).
그렇다면 그보다 위쪽에 쓰인 《강희자전》체의 문자열이 무엇이냐면, 그냥 데이터 안에서 서로 다른 언어 (또는 방언) 사이의 동계어들을 묶기 위한 임의의 그룹 식별자입니다. 임의이기 때문에 굳이 한자일 필요도 없고 그냥 숫자나 해시를 써도 됩니다. 그렇지만 이를테면 일본어 「科学」와 대만 중국어 「科學」은 하나의 동계어로 연결되어서 보여야 하기 때문에, 같은 그룹 식별자를 공유해야 합니다. 비슷하게 한국어 「컴퓨터」와 일본어 「コンピュータ」 역시 같은 그룹 식별자로 묶여야 합니다.
식별자를 그냥 「foobar」 같은 임의의 무의미한 문자열로 해도 되겠지만 편의상 내용을 드러나고 일관된 규칙에 따라 짓는 게 관리하기 편하겠다고 생각했습니다. 따라서 영어 유래어는 로마자로, 한자어는 한자로 표기하는 것이 가장 쉽게 떠올릴 수 있는 규칙이었습니다. 단, 한자 표기도 다양한 방식이 있을 수 있기 때문에, 여러 속자나 이체자 등을 정규화해야 했고 (그룹 식별자이므로 하나로 모아야겠죠), 이 과정에서 자연스럽게 중국의 간화자나 일본의 신체자는 후보에서 탈락했습니다. 각 지역 기준 독음이 같다고 서로 다른 글자를 합친 경우가 꽤 있기 때문에 정규화에 부적합하기 때문입니다 (분류 정보 손실). 따라서 선택지는 홍콩의 번체나 대만의 정체, 한국식 한자 따위 중에 고를 수밖에 없는데, 현존하는 어떤 정치체와 연결된 함의가 없다고 볼 수 있는 《강희자전》체를 기준으로 삼았습니다.
이상의 내용은 저장소 내의 CONTRIBUTING.md 파일을 보시면 이미 기술되어 있는 내용입니다. 그 밖의 부분도 적혀 있으니 참고해주셔도 좋을 것 같습니다.
언중이 같은 뜻을 가르키는 여러 낱말 중 어떤 것을 가장 많이 쓰는지, 즉 어휘의 분포를 폭넓게 파악하는 것은 전문 연구자도 아닌 일개 개인이 조사하기에는 비용도 시간도 너무 많이 필요해서 무리입니다. 컴퓨터 과학 연구에 종사하거나 소프트웨어 개발에 임하는 사람들 사이에서 용어 사용의 분포를 조사한 선행 연구가 있다면 저도 적극적으로 활용하고 싶지만, 그런 것이 딱히 없다면 저로서는 여러 참여자들의 도움, 특히 각 언어의 원어민 화자의 제안이 절실히 필요합니다. 당연히 지금까지는 홀로 조사했기 때문에 중국어 위키백과나 바이두 백과 등을 중심으로 조사할 수밖에 없었습니다.
말씀하신 구체 사례들에 대해서는 풀 리퀘스트를 보내주시면 더 빠르게 반영할 수 있을 것 같습니다.
귀중한 의견 고맙습니다.
우선, 먼저 웹으로 출판된 페이지를 먼저 확인해 보시면, 대륙 중국어의 용어 중에 간화자가 아닌 한국식 한자 표기로 표시된 항목이 없는 것을 확인하실 수 있을 것입니다. YAML 데이터에서 term 필드만이 실제 화면에 표시되는 내용이기 때문에, 말씀하신 것처럼 term에서만 각 지역에서 쓰는 표기 방식으로 적은 것입니다 (단, 한국어의 경우 한글 대신 한국식 한자로 표기).
그렇다면 그보다 위쪽에 쓰인 《강희자전》체의 문자열이 무엇이냐면, 그냥 데이터 안에서 서로 다른 언어 (또는 방언) 사이의 동계어들을 묶기 위한 임의의 그룹 식별자입니다. 임의이기 때문에 굳이 한자일 필요도 없고 그냥 숫자나 해시를 써도 됩니다. 그렇지만 이를테면 일본어 「科学」와 대만 중국어 「科學」은 하나의 동계어로 연결되어서 보여야 하기 때문에, 같은 그룹 식별자를 공유해야 합니다. 비슷하게 한국어 「컴퓨터」와 일본어 「コンピュータ」 역시 같은 그룹 식별자로 묶여야 합니다.
식별자를 그냥 「foobar」 같은 임의의 무의미한 문자열로 해도 되겠지만 편의상 내용을 드러나고 일관된 규칙에 따라 짓는 게 관리하기 편하겠다고 생각했습니다. 따라서 영어 유래어는 로마자로, 한자어는 한자로 표기하는 것이 가장 쉽게 떠올릴 수 있는 규칙이었습니다. 단, 한자 표기도 다양한 방식이 있을 수 있기 때문에, 여러 속자나 이체자 등을 정규화해야 했고 (그룹 식별자이므로 하나로 모아야겠죠), 이 과정에서 자연스럽게 중국의 간화자나 일본의 신체자는 후보에서 탈락했습니다. 각 지역 기준 독음이 같다고 서로 다른 글자를 합친 경우가 꽤 있기 때문에 정규화에 부적합하기 때문입니다 (분류 정보 손실). 따라서 선택지는 홍콩의 번체나 대만의 정체, 한국식 한자 따위 중에 고를 수밖에 없는데, 현존하는 어떤 정치체와 연결된 함의가 없다고 볼 수 있는 《강희자전》체를 기준으로 삼았습니다.
이상의 내용은 저장소 내의 CONTRIBUTING.md 파일을 보시면 이미 기술되어 있는 내용입니다. 그 밖의 부분도 적혀 있으니 참고해주셔도 좋을 것 같습니다.
언중이 같은 뜻을 가르키는 여러 낱말 중 어떤 것을 가장 많이 쓰는지, 즉 어휘의 분포를 폭넓게 파악하는 것은 전문 연구자도 아닌 일개 개인이 조사하기에는 비용도 시간도 너무 많이 필요해서 무리입니다. 컴퓨터 과학 연구에 종사하거나 소프트웨어 개발에 임하는 사람들 사이에서 용어 사용의 분포를 조사한 선행 연구가 있다면 저도 적극적으로 활용하고 싶지만, 그런 것이 딱히 없다면 저로서는 여러 참여자들의 도움, 특히 각 언어의 원어민 화자의 제안이 절실히 필요합니다. 당연히 지금까지는 홀로 조사했기 때문에 중국어 위키백과나 바이두 백과 등을 중심으로 조사할 수밖에 없었습니다.
말씀하신 구체 사례들에 대해서는 풀 리퀘스트를 보내주시면 더 빠르게 반영할 수 있을 것 같습니다.
긴 댓글 읽어주셔서 감사합니다.