php-ml/tests/Phpml/Tokenization/WhitespaceTokenizerTest.php

<?php

declare(strict_types=1);

namespace tests\Tokenization;

use Phpml\Tokenization\WhitespaceTokenizer;

class WhitespaceTokenizerTest extends \PHPUnit_Framework_TestCase
{
    public function testTokenizationOnAscii()
    {
        $tokenizer = new WhitespaceTokenizer();

        $text = 'Lorem ipsum dolor sit amet, consectetur   adipiscing elit.
                 Cras consectetur, dui et lobortis auctor. 
                 Nulla vitae  congue lorem.';

        $tokens = ['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit.',
                 'Cras', 'consectetur,', 'dui', 'et', 'lobortis', 'auctor.',
                 'Nulla', 'vitae', 'congue', 'lorem.', ];

        $this->assertEquals($tokens, $tokenizer->tokenize($text));
    }

    public function testTokenizationOnUtf8()
    {
        $tokenizer = new WhitespaceTokenizer();

        $text = '鋍鞎 鳼 鞮鞢騉 袟袘觕, 炟砏 蒮 謺貙蹖 偢偣唲 蒛 箷箯緷 鑴鱱爧 覮轀,
                 剆坲 煘煓瑐 鬐鶤鶐 飹勫嫢 銪 餀 枲柊氠 鍎鞚韕 焲犈,
                 殍涾烰 齞齝囃 蹅輶 鄜, 孻憵 擙樲橚 藒襓謥 岯岪弨 蒮 廞徲 孻憵懥 趡趛踠 槏';

        $tokens = ['鋍鞎', '鳼', '鞮鞢騉', '袟袘觕,', '炟砏', '蒮', '謺貙蹖', '偢偣唲', '蒛', '箷箯緷', '鑴鱱爧', '覮轀,',
                  '剆坲', '煘煓瑐', '鬐鶤鶐', '飹勫嫢', '銪', '餀', '枲柊氠', '鍎鞚韕', '焲犈,',
                  '殍涾烰', '齞齝囃', '蹅輶', '鄜,', '孻憵', '擙樲橚', '藒襓謥', '岯岪弨', '蒮', '廞徲', '孻憵懥', '趡趛踠', '槏', ];

        $this->assertEquals($tokens, $tokenizer->tokenize($text));
    }
}
create whitespace tokenizer 2016-05-03 00:33:18 +02:00			`<?php`

Update php-cs-fixer 2016-11-20 22:53:17 +01:00			`declare(strict_types=1);`
create whitespace tokenizer 2016-05-03 00:33:18 +02:00
			`namespace tests\Tokenization;`

			`use Phpml\Tokenization\WhitespaceTokenizer;`

			`class WhitespaceTokenizerTest extends \PHPUnit_Framework_TestCase`
			`{`
			`public function testTokenizationOnAscii()`
			`{`
			`$tokenizer = new WhitespaceTokenizer();`

			`$text = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.`
			`Cras consectetur, dui et lobortis auctor.`
			`Nulla vitae congue lorem.';`

			`$tokens = ['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit.',`
			`'Cras', 'consectetur,', 'dui', 'et', 'lobortis', 'auctor.',`
			`'Nulla', 'vitae', 'congue', 'lorem.', ];`

			`$this->assertEquals($tokens, $tokenizer->tokenize($text));`
			`}`

			`public function testTokenizationOnUtf8()`
			`{`
			`$tokenizer = new WhitespaceTokenizer();`

			`$text = '鋍鞎鳼鞮鞢騉袟袘觕, 炟砏蒮謺貙蹖偢偣唲蒛箷箯緷鑴鱱爧覮轀,`
			`剆坲煘煓瑐鬐鶤鶐飹勫嫢銪餀枲柊氠鍎鞚韕焲犈,`
			`殍涾烰齞齝囃蹅輶鄜, 孻憵擙樲橚藒襓謥岯岪弨蒮廞徲孻憵懥趡趛踠槏';`

			`$tokens = ['鋍鞎', '鳼', '鞮鞢騉', '袟袘觕,', '炟砏', '蒮', '謺貙蹖', '偢偣唲', '蒛', '箷箯緷', '鑴鱱爧', '覮轀,',`
			`'剆坲', '煘煓瑐', '鬐鶤鶐', '飹勫嫢', '銪', '餀', '枲柊氠', '鍎鞚韕', '焲犈,',`
			`'殍涾烰', '齞齝囃', '蹅輶', '鄜,', '孻憵', '擙樲橚', '藒襓謥', '岯岪弨', '蒮', '廞徲', '孻憵懥', '趡趛踠', '槏', ];`

			`$this->assertEquals($tokens, $tokenizer->tokenize($text));`
			`}`
			`}`