-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Translate UN Maps Learning Hub
contents
#267
Comments
「この文書の日本語版を作りたいのだけど、話を繋いでくれるか」という問いですと、私あたりが繋いでいくということで貢献できそうです。 SMG で日本語版を作りましょう、ということになるとすれば、例えば Open-source LLM でサクサク翻訳しながら作っていきましょう、といったアプローチなら可能でしょうか。 私もこの文書の内容には多少興味があるので、翻訳作業への多少の参加についても興味があります。 作業量の見積もりや作業ルールの検討をしていくと前に進みそうですね。 |
興味深いアイデアです!国連の関連文書の翻訳にOSS LLMを活用しました!(単純な全自動機械翻訳ではなく、人間による適切な校正をしています)!みたいに言えると、インパクトありますね!! 「ぜひ一緒にDWG-7 Smart Mapsでこの文書の日本語版を作りませんか!」と誘ってみるのもアリなのではないか?と思いました。 「OSS LLMを使って国連の関連文書の翻訳にチャレンジしよう!」というテーマだと、関心を持って貢献してくれる人も集まる予感がします。 ところで、 https://mappers.un.org/learning/login/index.php で、どうやったらログインできるのかサッパリわかりませんでした……(笑) |
私は 2023-07 に https://mappers.un.org/learning/login/index.php のアカウントを作っていました。 フィージビリティを確認するために、open-source LLMs である程度翻訳ができるか試してみるとよさそうですね。 私は今手元の Mac で 加えて、作業量見積もりのために、対象コンテンツの概略見取りも進めてみますね。 |
UN Maps Learning Hub
UN Maps Learning Hub
contents
本件、かなり有望な貢献候補であるように思えてきました。 作業形成の順序としては、次のような感じでしょうか。
上記のような調整作業を進めながら、正味の作業は上記の調整作業にあまり制約されることなく「できるところから進めていく」というような感じになるでしょうか。 |
1. オープンソースLLMでどのくらい行けるか、フィージビリティの確認非常に参考になりそうなツイートをみつけましたhttps://twitter.com/voleneko/status/1683033439979851776
https://twitter.com/voleneko/status/1683080723912335360
https://twitter.com/goto_yuta_/status/1683100467725996032
GGUFに対応した、最新の
|
MacBook Pro M2Proだと10秒ぐらいで出力されはじめました。 |
macOSでサーバ試して見ました。
https://gyazo.com/ce7d4d552c7fd0e5045eb33d34ee2ab6 https://gyazo.com/55571b62f3b0f125c8d0e6999ecec195 いい感じですね! |
ちょうど下記リンク先で遊んでいて、「繰り返しが発生する場合は、 repetition_penalty を1.05〜1.20など調整する」という文章を読んでいました。 |
「この英語が言おうとしていることを、分かりやすい日本語で書き直してください。」という言い回しが、割と良いような気がしたりしています。 |
私も llama-2-7b.Q4_K_M.gguf に揃えて macOS でサーバモードで稼働することができました! |
input:
output(一部):
4秒以下で終わってます |
オフトピックですが、 Input:
Output(一部):
普通に書けるっぽいです!!しかも早い! ただし、Llama 2はデフォルトはmax 508 tokenで、OpenAIのtext-davinci-003の4000 tokenよりもだいぶ厳しい。 |
翻訳の方でも、「そうだ、課金されないならどんどん長くなっていいじゃないか」という発想で、対訳を一個ずつ継ぎ足していく方法を試してみました。翻訳のクオリティとしては微妙で、翻訳作業のモチベーションを上げてくれるコパイロットとまではいかないかなと思っていますが、ご参考まで共有します。 Getting started with OSMPublished under Creative Commons Attribution – ShareAlike 2.0 Generic https://creativecommons.org/licenses/by-sa/2.0/ If reusing and redistributing this material, you need to mention "source: UN Mappers" and keep the CC-BY-SA 2.0 license IntroductionEnglish: OpenStreetMap (OSM) is a collaborative online mapping project which aims to build a free geographic database of the world. Anyone can contribute to it, with submitted contributions being instantly integrated into the database / appearing online; and anyone can use the data for free, due to the free data license. Japanese: オープンストリートマップ(OSM)は世界全体について無料で使用可能な地理空間データベースの建設を目的とした協働ウェブ地図プロジェクトである。どんな人も参加することが出来、即時に掲載されるように提供される情報を基礎としていく。また、任意の者はそのデータをフリーかつ自由に利用することができる。 English: Considered to be the Wikipedia of cartography, this wiki project started in 2004 in the United Kingdom. A very large number of users have since joined this community, its geographic database sustaining a large ecosystem of actors and becoming a reference, especially in the humanitarian and development fields, where alternatives are limited. Japanese: おおむね「地図版のウィキペディア」と言われているオープンストリートマップ(OSM)プロジェクトは、英国で2004年に始動したコラボレイティブ・ウェブマッピング・プロジェクトであり、多数のユーザーが参加して以来、世界的な地理空間データベースへの様々な関係者の貢献や、特に開発途上国における人道支援活動等において重要な情報源となってきた。また、このプロジェクトを利用する方も自由にフリーかつ無料で使う事が出来る。 English: Constantly updated, mostly from satellite imagery and field collection, the OSM data can be very detailed and of high quality, thanks to a flexible data and attribution model, a wiki documentary source, and numerous control tools. OSM is the source of many services available on the web or on mobile applications. Japanese: 常時更新されていくように、OSMは主に衛星画像や現場集められた情報に基づいている。高品質だったり尺度が非常に明瞭であることは、ウィキドキュメンタリーソースや多数の制御ツールに起因している。OSMデータベースへの参加者も多く、その結果、様々なサービスがWeb上やモバイルアプリケーション向けに提供されている。 English: It is easy to join the OSM mapping community by creating an account (it takes only a few minutes!) and using one of the many existing ways of interaction. Japanese: まずはオープンストリートマップ(OSM)コミュニティを作成する手段として、自分用のアカウント(登録時間はわずか5〜10分程度!)を設立し、それに関連付けられた何千通りもの交流方法を使う事が出来るようだ。 A free and non-sensitive geographic database / 自由でありセンシティブではない地理データベースTranslate English into Japanese. English: From a technical point of view, OSM is not software or a website, but a database. The main one is hosted on a server in Amsterdam and replicated on different servers around the world under the name Planet.osm. The database is operated with the free software PostgreSQL/PostGIS. Currently, in 2022, it contains almost 9 billion point objects and nearly one billion lines or polygons, with a total compressed size of 130 GB. Japanese: このデータベースは無料で利用可能なオープンソース・サーバーである。主要サーバーはオランダのアムステルダムに位置する。また、各地のOSMコミュニティメンバーによって様々な経路で複製されている。そして、このデータベースを管理するツールとしてはフリーソフトウェア(Free Software)のPostgreSQL/PostGISが使われている。現在2022年時点で、ほぼ9兆点以上の点情報と約千万本もの線や面、合計で大きくて約130GBのサイズで保存されている。 English: The data in the OSM database are free, both for access, modification, sharing and reuse to create derivatives. The content of the OSM database has always been subject to a free license: CC-BY-SA between 2004 and 2012, and ODbL (acronym for Open Database License) 1.0 afterwards. These two licenses allow all uses of OSM data, both commercial and non-commercial, on two conditions: Japanese: オープンストリートマップ(OSM)データベースにある全てのデータは無料で利用可能なオープン・ソースだったりしており、その中身をアクセスすることが出来、変更することが出来、共有することが出来、新規作成物への使用も自由に行う事が出来る。また、このデータベース内容は常にフリーライセンスによって保障されている。特定の年月から現在まで、CC-BY-SA やODbL(Open Databse Licence) 1.0の二つの権利が含められている。どちらも商業的活動及び非商業的活動双方で、同時に二つの条件が必要: English: - Attribution. Because the data belongs to its contributors, any product derived from OSM (such as a map using its data) must bear the mention © OpenStreetMap contributors Japanese: - 帰属。データは貢献者に属することから、OSMから作られたあらゆるプロダクト(例えばそのデータを使った地図)は (c) OpenSteetMap contributors という言及をしなければならない。 |
上記の実験結果は https://hackmd.io/@hfu/rkVeNdK0h に置いています。 |
翻訳の叩き台としては充分なのではないかと思いました! そもそも、Llama 2だけで超正確に翻訳することは、かなり難しいと私は考えています。 噂によると70Bにすると翻訳性能含め一気に「賢さ」が上がるらしいのですが、70Bのモデルを動かすためには膨大なメモリが必要で、OpenMPIによって複数台のマシンで分散処理するという機能は主にこの問題のために開発されている様子です。 |
国連憲章について、実験用に入力してみました。これを llama2 にプロンプトとして入れると、意訳的な何かを出力してくれます。 |
#281 でのディエゴ情報によれば、UN Maps Learning Hub をベースに learning platform を作っていくという構想があるようです。引き続き注目していきたいと思いました。 |
UN Maps Learning Hubのお話は非常に興味深かったですね!私もUNのCertificateほしいと思いましたw |
ソウルで Diego Gonzalez と本件打合せができるかもしれませんね。打合せの材料を我々のプロジェクトとして積み上げていく、ということは試してみることができるかも知れません。 |
この件、実施に至る結果にならなさそうな雰囲気がありますね...。 |
+1です |
クローズします! |
From: https://twitter.com/K_Sakanoshita/status/1699200323779461160
ja (Original):
en (by DeepL):
The text was updated successfully, but these errors were encountered: