php-ml/tests/Phpml/FeatureExtraction/TokenCountVectorizerTest.php

<?php

declare (strict_types = 1);

namespace tests\Phpml\FeatureExtraction;

use Phpml\FeatureExtraction\TokenCountVectorizer;
use Phpml\Tokenization\WhitespaceTokenizer;

class TokenCountVectorizerTest extends \PHPUnit_Framework_TestCase
{
    public function testTokenCountVectorizerWithWhitespaceTokenizer()
    {
        $samples = [
            'Lorem ipsum dolor sit amet dolor',
            'Mauris placerat ipsum dolor',
            'Mauris diam eros fringilla diam',
        ];

        $vocabulary = [
            0 => 'Lorem',
            1 => 'ipsum',
            2 => 'dolor',
            3 => 'sit',
            4 => 'amet',
            5 => 'Mauris',
            6 => 'placerat',
            7 => 'diam',
            8 => 'eros',
            9 => 'fringilla',
        ];

        $tokensCounts = [
            [0 => 1, 1 => 1, 2 => 2, 3 => 1, 4 => 1, 5 => 0, 6 => 0, 7 => 0, 8 => 0, 9 => 0],
            [0 => 0, 1 => 1, 2 => 1, 3 => 0, 4 => 0, 5 => 1, 6 => 1, 7 => 0, 8 => 0, 9 => 0],
            [0 => 0, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 1, 6 => 0, 7 => 2, 8 => 1, 9 => 1],
        ];

        $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer());

        $vectorizer->fit($samples);
        $this->assertEquals($vocabulary, $vectorizer->getVocabulary());

        $vectorizer->transform($samples);
        $this->assertEquals($tokensCounts, $samples);
    }

    public function testMinimumDocumentTokenCountFrequency()
    {
        // word at least in half samples
        $samples = [
            'Lorem ipsum dolor sit amet',
            'Lorem ipsum sit amet',
            'ipsum sit amet',
            'ipsum sit amet',
        ];

        $vocabulary = [
            0 => 'Lorem',
            1 => 'ipsum',
            2 => 'dolor',
            3 => 'sit',
            4 => 'amet',
        ];

        $tokensCounts = [
            [0 => 1, 1 => 1, 2 => 0, 3 => 1, 4 => 1],
            [0 => 1, 1 => 1, 2 => 0, 3 => 1, 4 => 1],
            [0 => 0, 1 => 1, 2 => 0, 3 => 1, 4 => 1],
            [0 => 0, 1 => 1, 2 => 0, 3 => 1, 4 => 1],
        ];

        $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer(), 0.5);

        $vectorizer->fit($samples);
        $this->assertEquals($vocabulary, $vectorizer->getVocabulary());

        $vectorizer->transform($samples);
        $this->assertEquals($tokensCounts, $samples);

        // word at least once in all samples
        $samples = [
            'Lorem ipsum dolor sit amet',
            'Morbi quis sagittis Lorem',
            'eros Lorem',
        ];

        $tokensCounts = [
            [0 => 1, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 0, 6 => 0, 7 => 0, 8 => 0],
            [0 => 1, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 0, 6 => 0, 7 => 0, 8 => 0],
            [0 => 1, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 0, 6 => 0, 7 => 0, 8 => 0],
        ];

        $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer(), 1);
        $vectorizer->fit($samples);
        $vectorizer->transform($samples);

        $this->assertEquals($tokensCounts, $samples);
    }
}
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`<?php`

			`declare (strict_types = 1);`

			`namespace tests\Phpml\FeatureExtraction;`

			`use Phpml\FeatureExtraction\TokenCountVectorizer;`
			`use Phpml\Tokenization\WhitespaceTokenizer;`

			`class TokenCountVectorizerTest extends \PHPUnit_Framework_TestCase`
			`{`
			`public function testTokenCountVectorizerWithWhitespaceTokenizer()`
			`{`
			`$samples = [`
			`'Lorem ipsum dolor sit amet dolor',`
			`'Mauris placerat ipsum dolor',`
			`'Mauris diam eros fringilla diam',`
			`];`

change token count vectorizer to return full token counts 2016-06-14 09:58:11 +02:00			`$vocabulary = [`
			`0 => 'Lorem',`
			`1 => 'ipsum',`
			`2 => 'dolor',`
			`3 => 'sit',`
			`4 => 'amet',`
			`5 => 'Mauris',`
			`6 => 'placerat',`
			`7 => 'diam',`
			`8 => 'eros',`
			`9 => 'fringilla',`
			`];`

			`$tokensCounts = [`
			`[0 => 1, 1 => 1, 2 => 2, 3 => 1, 4 => 1, 5 => 0, 6 => 0, 7 => 0, 8 => 0, 9 => 0],`
			`[0 => 0, 1 => 1, 2 => 1, 3 => 0, 4 => 0, 5 => 1, 6 => 1, 7 => 0, 8 => 0, 9 => 0],`
			`[0 => 0, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 1, 6 => 0, 7 => 2, 8 => 1, 9 => 1],`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`];`

			`$vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer());`

implement fit fot TokenCountVectorizer 2016-06-17 00:33:48 +02:00			`$vectorizer->fit($samples);`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`$this->assertEquals($vocabulary, $vectorizer->getVocabulary());`
implement fit fot TokenCountVectorizer 2016-06-17 00:33:48 +02:00
			`$vectorizer->transform($samples);`
			`$this->assertEquals($tokensCounts, $samples);`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`}`

			`public function testMinimumDocumentTokenCountFrequency()`
			`{`
			`// word at least in half samples`
			`$samples = [`
			`'Lorem ipsum dolor sit amet',`
			`'Lorem ipsum sit amet',`
			`'ipsum sit amet',`
			`'ipsum sit amet',`
			`];`

change token count vectorizer to return full token counts 2016-06-14 09:58:11 +02:00			`$vocabulary = [`
			`0 => 'Lorem',`
			`1 => 'ipsum',`
			`2 => 'dolor',`
			`3 => 'sit',`
			`4 => 'amet',`
			`];`

			`$tokensCounts = [`
			`[0 => 1, 1 => 1, 2 => 0, 3 => 1, 4 => 1],`
			`[0 => 1, 1 => 1, 2 => 0, 3 => 1, 4 => 1],`
			`[0 => 0, 1 => 1, 2 => 0, 3 => 1, 4 => 1],`
			`[0 => 0, 1 => 1, 2 => 0, 3 => 1, 4 => 1],`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`];`

			`$vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer(), 0.5);`

implement fit fot TokenCountVectorizer 2016-06-17 00:33:48 +02:00			`$vectorizer->fit($samples);`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`$this->assertEquals($vocabulary, $vectorizer->getVocabulary());`

implement fit fot TokenCountVectorizer 2016-06-17 00:33:48 +02:00			`$vectorizer->transform($samples);`
			`$this->assertEquals($tokensCounts, $samples);`

change token count vectorizer to return full token counts 2016-06-14 09:58:11 +02:00			`// word at least once in all samples`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`$samples = [`
			`'Lorem ipsum dolor sit amet',`
change token count vectorizer to return full token counts 2016-06-14 09:58:11 +02:00			`'Morbi quis sagittis Lorem',`
			`'eros Lorem',`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`];`

change token count vectorizer to return full token counts 2016-06-14 09:58:11 +02:00			`$tokensCounts = [`
			`[0 => 1, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 0, 6 => 0, 7 => 0, 8 => 0],`
			`[0 => 1, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 0, 6 => 0, 7 => 0, 8 => 0],`
			`[0 => 1, 1 => 0, 2 => 0, 3 => 0, 4 => 0, 5 => 0, 6 => 0, 7 => 0, 8 => 0],`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`];`

			`$vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer(), 1);`
implement fit fot TokenCountVectorizer 2016-06-17 00:33:48 +02:00			`$vectorizer->fit($samples);`
change transformer behavior to reference 2016-06-16 10:01:40 +02:00			`$vectorizer->transform($samples);`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00
change transformer behavior to reference 2016-06-16 10:01:40 +02:00			`$this->assertEquals($tokensCounts, $samples);`
feature extractions tools - TokenCountVectorizez 2016-05-03 23:28:29 +02:00			`}`
			`}`