dhsung 2021-10-10 | parent | favorite | on: Show GN: 한·중·일 전산학 용어 대조(cjk-compsci-terms.netlify.app)

문의사항이있습니다.
YAML에있는 중국어와 일본어 표기를 보니 한국에서 사용하는 한자 표기를 쓰고 하위에 term으로 번체, 간체, 일본식 약자 표기를 한걸 확인하였습니다.
어떤 의도로 개발하였는지 궁금하네요
예를들어 Source Code에 대해서는
중국 대륙(zh-CN) 한국어 한자표기 표현으로 "源代碼"와 "源程序"를 사용한다고하는데
term에는 간체표기를 제대로 한거보면 일관성이 안맞다고 보여지긴합니다.
참고로 Source Code는
중국대륙에선 源代码、源码、源程序를 주로 사용
대만에선 原始碼、原始程式碼로 사용함
홍콩에서 原始碼, 源碼 를 사용한다고 들었습니다.

그리고, Computer의 경우
중국 대륙에선 공식적으로 "电子计算机"이며, 많은 책과 문서에서 Compuer에 대한 표기를 "计算机"를 씁니다만,
대만, 홍콩의 영향으로 사람들이 "电脑"도 혼용하여 많이 사용합니다.
참고1: https://zh.wikipedia.org/wiki/…
참고2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5
징동닷컴 CPU코너 : https://pcdiy.jd.com/
징동닷컴 노트북코너: https://list.jd.com/list.html?cat=670,671,672

그래서, 이 부분은 정부 공식 표기 위주로 진행할것인지 확인을 해야할 것이 많아보입니다.

중화권에서 사용하는 표기가 제각각이고, 사용하는 사람마다 빈도수가 다른 경우가 있으니 고려해야할 대상도 많을 것으로 보입니다.

귀중한 의견 고맙습니다.

우선, 먼저 웹으로 출판된 페이지를 먼저 확인해 보시면, 대륙 중국어의 용어 중에 간화자가 아닌 한국식 한자 표기로 표시된 항목이 없는 것을 확인하실 수 있을 것입니다. YAML 데이터에서 term 필드만이 실제 화면에 표시되는 내용이기 때문에, 말씀하신 것처럼 term에서만 각 지역에서 쓰는 표기 방식으로 적은 것입니다 (단, 한국어의 경우 한글 대신 한국식 한자로 표기).

그렇다면 그보다 위쪽에 쓰인 《강희자전》체의 문자열이 무엇이냐면, 그냥 데이터 안에서 서로 다른 언어 (또는 방언) 사이의 동계어들을 묶기 위한 임의의 그룹 식별자입니다. 임의이기 때문에 굳이 한자일 필요도 없고 그냥 숫자나 해시를 써도 됩니다. 그렇지만 이를테면 일본어 「科学」와 대만 중국어 「科學」은 하나의 동계어로 연결되어서 보여야 하기 때문에, 같은 그룹 식별자를 공유해야 합니다. 비슷하게 한국어 「컴퓨터」와 일본어 「コンピュータ」 역시 같은 그룹 식별자로 묶여야 합니다.

식별자를 그냥 「foobar」 같은 임의의 무의미한 문자열로 해도 되겠지만 편의상 내용을 드러나고 일관된 규칙에 따라 짓는 게 관리하기 편하겠다고 생각했습니다. 따라서 영어 유래어는 로마자로, 한자어는 한자로 표기하는 것이 가장 쉽게 떠올릴 수 있는 규칙이었습니다. 단, 한자 표기도 다양한 방식이 있을 수 있기 때문에, 여러 속자나 이체자 등을 정규화해야 했고 (그룹 식별자이므로 하나로 모아야겠죠), 이 과정에서 자연스럽게 중국의 간화자나 일본의 신체자는 후보에서 탈락했습니다. 각 지역 기준 독음이 같다고 서로 다른 글자를 합친 경우가 꽤 있기 때문에 정규화에 부적합하기 때문입니다 (분류 정보 손실). 따라서 선택지는 홍콩의 번체나 대만의 정체, 한국식 한자 따위 중에 고를 수밖에 없는데, 현존하는 어떤 정치체와 연결된 함의가 없다고 볼 수 있는 《강희자전》체를 기준으로 삼았습니다.

이상의 내용은 저장소 내의 CONTRIBUTING.md 파일을 보시면 이미 기술되어 있는 내용입니다. 그 밖의 부분도 적혀 있으니 참고해주셔도 좋을 것 같습니다.

언중이 같은 뜻을 가르키는 여러 낱말 중 어떤 것을 가장 많이 쓰는지, 즉 어휘의 분포를 폭넓게 파악하는 것은 전문 연구자도 아닌 일개 개인이 조사하기에는 비용도 시간도 너무 많이 필요해서 무리입니다. 컴퓨터 과학 연구에 종사하거나 소프트웨어 개발에 임하는 사람들 사이에서 용어 사용의 분포를 조사한 선행 연구가 있다면 저도 적극적으로 활용하고 싶지만, 그런 것이 딱히 없다면 저로서는 여러 참여자들의 도움, 특히 각 언어의 원어민 화자의 제안이 절실히 필요합니다. 당연히 지금까지는 홀로 조사했기 때문에 중국어 위키백과나 바이두 백과 등을 중심으로 조사할 수밖에 없었습니다.

말씀하신 구체 사례들에 대해서는 풀 리퀘스트를 보내주시면 더 빠르게 반영할 수 있을 것 같습니다.

긴 댓글 읽어주셔서 감사합니다.