[lojban] Lojban tokenizer for machine learning, first version

Subject: [lojban] Lojban tokenizer for machine learning, first version

From: Oleg Parashchenko <olpa@uucode.com>

Date: Sun, 12 Jun 2022 01:32:55 -0700 (PDT)

Delivery-date: Sun, 12 Jun 2022 06:31:57 -0700

Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=googlegroups.com; s=20210112; h=sender:date:from:to:message-id:subject:mime-version :x-original-sender:reply-to:precedence:mailing-list:list-id :list-post:list-help:list-archive:list-subscribe:list-unsubscribe; bh=YkhPtTrGVrbdCl2ORsAvZgYz/EEjxvDmXR+Q5njZZ8U=; b=Vnk3dgjm43ByLhcDkXzKSmNBOxHbMYjZ9lbx6t0C9gKzBZOvFlq+FD1VGAz3nkzNSE wMxGYRm0kh3CfCjd7pUJkd0fSlLPbgU5+Wpx7BKBeQ4OLrFQ823HxZhUiQkODH1197Wt Q8H3TvX7f2QYeERpLiVP6fwUAb4RCWFH+rYs1eltIonXHfr/ydFtKba/sQFF6CmXIuNw 3G/SzQhRF83DgNFZj+fKw3Rabnogkr+4ZX1KFa6ktvRyizxzQI8NUe10FJn8yliumEp6 uAJTxgiU+VOpXpkkT1XJi8vf17xZHIuNLeXHCm1kERWXQpqgpKyVK3NXUoLo85NW6FlX gdfQ==

Envelope-to: lojban-list-archive@lojban.org

List-archive: <https://groups.google.com/group/lojba>

List-help: <https://groups.google.com/support/>, <mailto:lojban+help@googlegroups.com>

List-id: <lojban.googlegroups.com>

List-post: <https://groups.google.com/group/lojban/post>, <mailto:lojban@googlegroups.com>

List-subscribe: <https://groups.google.com/group/lojban/subscribe>, <mailto:lojban+subscribe@googlegroups.com>

List-unsubscribe: <mailto:googlegroups-manage+1004133512417+unsubscribe@googlegroups.com>, <https://groups.google.com/group/lojban/subscribe>

Mailing-list: list lojban@googlegroups.com; contact lojban+owners@googlegroups.com

Reply-to: lojban@googlegroups.com

Sender: lojban@googlegroups.com

I've just released the first version of a lojban tokenizer. It is intended for use in machine learning applications and therefore is a bit different from a linguistic tokenizer. In particular, it does sub-word tokenization.

Additionally, there is a lexer, which can be used to develop alternative tokenizers.

Home page: https://github.com/olpa/lojban-mt/tree/master/tokenizer/

Fast start:

```
$ VERSION=1.0.0
$ pip3 install https://github.com/olpa/lojban-mt/releases/download/tokenizer-v${VERSION}/jbotokenizer-${VERSION}.tar.gz

$ echo 'coirodo' | jboparse.py
coi ro do

$ jboparse.py coi ro do
coi ro do

$ jboparse.py coi ro do --lex
(<TokenClass.CMAVO: 2>, 'coi') (<TokenClass.SKIP: 1>, ' ')
(<TokenClass.CMAVO: 2>, 'ro') (<TokenClass.SKIP: 1>, ' ')
(<TokenClass.CMAVO: 2>, 'do')

$ jboparse.py lojbangirz
logji## bangu## girzu

$ python3
>>> from jbotokenizer import text_to_tokens
>>> text_to_tokens('ma nuzba')
['ma', 'nuzba']

Regards,

Oleg

lojban+unsubscribe@googlegroups.com

https://groups.google.com/d/msgid/lojban/d1a72031-b3ed-4164-bfba-bfa5fa65893bn%40googlegroups.com