tunciは、アイヌ語↔日本語の双方向翻訳を行うWebアプリです。現在、アイヌ語学習者に向けて試験的に公開しています。
当然ながら、誤った翻訳を生成することがあります。アイヌ語初学者の方は、結果を鵜呑みにせず、かならず講師や上級者に確認してください。
このWebサイトのソースコードは、GitHubで公開されています。自然言語処理のためのモデルはHugging Face Hubに公開しています。
作者に連絡したい場合は、Xを使ってください。@TheGodOfNeet
スコア
2024年7月時点で、アイヌ語↔日本語の翻訳において以下のBLEUスコアを達成しています。
翻訳元 | 翻訳先 | BLEUスコア |
---|---|---|
日本語 | アイヌ語 | 39.06 |
アイヌ語 | 日本語 | 31.83 |
AI活用について
tunciの翻訳は機械学習によって実現されており、アイヌ語および日本語の教師データを利用して訓練されています。
教師データに関しては、著作権法第30条の4、および文化庁『AIと著作権に関するチェックリスト&ガイダンス』に基づいて利用しています。
著作者の意図に反する利用を行わないよう細心の注意を払っておりますが、万が一問題がある場合はご連絡ください。
用例機能について
著作権法47条の5に基づき、元資料のうちキーワードに一致した部分のみを表示しています。(参考:情報検索サービス提供に関する注意点 | IT法務.COM)
著作者の意図に反する利用を行わないよう細心の注意を払っておりますが、万が一問題がある場合はご連絡ください。
データ出典
tunciの翻訳モデルは、以下のデータを利用して訓練されています。
データ名 | 形式 | 単語数 | 文字数 |
---|---|---|---|
アイヌ語アーカイブ | Web | 600,770 | 2,107,984 |
アイヌタイムズ | 書籍 | 148,843 | 519,040 |
アイヌ語口承文芸コーパス | 135,649 | 492,484 | |
AA研アイヌ語資料公開プロジェクト | Web | 95,379 | 299,630 |
アイヌ語口承文芸コーパス | Web | 76,550 | 243,696 |
アイヌ語鵡川方言 日本語-アイヌ語辞典 | Web | 66,386 | 247,637 |
アイヌ語テキスト | 25,067 | 84,905 | |
北海道立アイヌ文化研究センター研究紀要 | 14,724 | 48,092 | |
アイヌ語会話辞典 | Web | 13,831 | 49,776 |
アイヌ神謡集 | 書籍 | 10,364 | 38,153 |
ニューエクスプレスプラス アイヌ語 | 書籍 | 4,418 | 14,812 |
カムイユカㇻを聞いてアイヌ語を学ぶ | 書籍 | 3,028 | 11,177 |
アコㇿイタㇰ | 書籍 | 2,005 | 5,903 |
その他論文など | - | - | - |
関連プロジェクト
- kampisos:アイヌ語コーパス検索アプリ