﻿単漢字異体字データテーブルについて
2022年12月1日
更新 2022年12月20日
人間文化研究機構人間文化研究創発センター

1．データについて
人間文化研究機構研究資源共有化統合検索システム（nihuINT）でのデータベース横断検索用に作成・実装した異体漢字対応テーブル。2012年作成。nihuINTで機構内6機関のデータベースを横断検索する際に、異体漢字を同一視して検索する「異体字検索」を実装するために作成した。日本語表記における新字体と旧字体に加えて、中国の標準的な簡体字・繁体字をも範囲として編集した。日本の文字表には、常用漢字表（2010年）、戸籍法施行規則別表第二（2010年）、JIS X 0213:2004を用い、中国の文字表には簡化字総表（1964年）を用いた。

データテーブルは、左から「整理番号」「異体1」「Unicode1」「異体2」「Unicode2」「異体3」「Unicode3」「異体4」「Unicode4」のデータ項目で構成され、一つの整理番号に最大４つの異体漢字が関係付けられている。個々の漢字文字はUnicodeのコードポイントで指定される。データのレコード数は2,368件、漢字数は4,903字。
データテーブルの提供フォーマットは、1) CSV形式のTXTファイル、2)TSV形式のTXTファイル、3)ExcelのXLSX形式がある。1)及び2)の文字符号化形式はUTF-8。3つのファイルはいずれも同じ内容である。

2．利用について
本データテーブルは、CC-BY 4.0 （https://creativecommons.org/licenses/by/4.0/deed.ja）で提供します。
クレジットは、「人間文化研究機構, 異体漢字対応テーブル, https://www.bridge.nihu.jp/researchdata/file/20221125_ITOBYb」を例として、提供者（人間文化研究機構）、データテーブルの名称、所在情報（URL）を適切に記載してください。

本データテーブルは、研究成果の一部として公開・提供するもので、このデータの利用について、提供者はいかなる保証もしていません。正確性、完全性、有効性、安全性、第三者の知的財産権の非侵害性については利用者自身の確認と責任のもとで利用してください。
本データテーブルの利用に関連して生じた損害等についても、提供者は一切の責任を負いません。

3．参考文献
網羅性を志向しない異体漢字対応テーブル. 研究報告人文科学とコンピュータ（CH）, 2012-CH-93, 2号, pp.1-7, 2012ｰ01ｰ20. http://id.nii.ac.jp/1001/00080310/

4．問合せ先
人間文化研究機構人間文化研究創発センター
（人間文化研究機構本部 研究企画課広報・社会連携係）
nihubridge_info@nihu.jp

以上

