traxxx/src/fetch-releases.js

'use strict';

const config = require('config');
const moment = require('moment');

const argv = require('./argv');
const knex = require('./knex');
const scrapers = require('./scrapers');

function destructConfigNetworks(networks) {
    return networks.reduce((acc, network) => {
        if (Array.isArray(network)) {
            // network specifies sites
            return {
                ...acc,
                sites: [...acc.sites, ...network[1]],
            };
        }

        return {
            ...acc,
            networks: [...acc.networks, network],
        };
    }, {
        networks: [],
        sites: [],
    });
}

function curateSites(sites) {
    return sites.map(site => ({
        id: site.id,
        name: site.name,
        description: site.description,
        url: site.url,
        networkId: site.network_id,
        parameters: JSON.parse(site.parameters),
    }));
}

async function accumulateIncludedSites() {
    if (argv.networks || argv.sites) {
        const rawSites = await knex('sites')
            .whereIn('id', argv.sites || [])
            .orWhereIn('network_id', argv.networks || []);

        return curateSites(rawSites);
    }

    const included = destructConfigNetworks(config.include);

    const rawSites = await knex('sites')
        .whereIn('id', included.sites)
        .orWhereIn('network_id', included.networks);

    return curateSites(rawSites);
}

async function findDuplicateReleases(latestReleases, _siteId) {
    const latestReleasesShootIds = latestReleases.map(release => release.shootId).filter(release => release !== undefined);
    const latestReleasesEntryIds = latestReleases.map(release => release.entryId).filter(release => release !== undefined);

    return knex('releases')
        .whereIn('shoot_id', latestReleasesShootIds)
        .orWhereIn('entry_id', latestReleasesEntryIds);
}

async function storeReleases(releases) {
    const curatedReleases = releases.map(release => ({
        site_id: release.site.id,
        shoot_id: release.shootId || null,
        entry_id: release.entryId || null,
        url: release.url,
        title: release.title,
        date: release.date,
        description: release.description,
        director: release.director,
        duration: release.duration,
        likes: release.rating && release.rating.likes,
        dislikes: release.rating && release.rating.dislikes,
        rating: release.rating && release.rating.stars,
    }));

    if (curatedReleases.length) {
        console.log(`Saving ${curatedReleases.length} new releases to database`);

        const insertQuery = knex('releases').insert(curatedReleases).toString();
        await knex.raw(insertQuery.replace('insert', 'INSERT OR IGNORE'));

        return curatedReleases;
    }

    return [];
}

async function fetchNewReleases(scraper, site, afterDate, accReleases = [], page = 1) {
    const latestReleases = await scraper.fetchLatest(site, page);

    if (latestReleases.length === 0) {
        return [];
    }

    const duplicateReleases = await findDuplicateReleases(latestReleases, site.id);
    const duplicateReleasesIds = new Set(
        duplicateReleases
            .map(release => release.shoot_id || release.entry_id)
            // exclude accumulated releases to prevent an infinite loop if the next page contains the same releases as the previous
            .concat(duplicateReleases.map(release => release.shoot_id || release.entry_id))
            .concat(accReleases.map(release => release.shootId || release.entryId)),
    );
    const uniqueReleases = latestReleases.filter(release => !duplicateReleasesIds.has(String(release.shootId))
        && !duplicateReleasesIds.has(String(release.entryId))
        && moment(release.date).isAfter(afterDate));

    console.log(`\x1b[90m${site.name}: Scraped page ${page}, ${uniqueReleases.length} unique recent releases\x1b[0m`);

    const oldestReleaseOnPage = latestReleases.slice(-1)[0].date;

    if (uniqueReleases.length > 0 && moment(oldestReleaseOnPage).isAfter(afterDate)) {
        return fetchNewReleases(scraper, site, afterDate, accReleases.concat(uniqueReleases), page + 1);
    }

    return accReleases.concat(uniqueReleases);
}

async function fetchReleases() {
    const sites = await accumulateIncludedSites();

    const scenesPerSite = await Promise.all(sites.map(async (site) => {
        const scraper = scrapers[site.id] || scrapers[site.networkId];

        if (scraper) {
            try {
                const afterDate = moment.utc().subtract(...argv.after.split(' ')).toDate();

                const [newReleases, upcomingReleases] = await Promise.all([
                    fetchNewReleases(scraper, site, afterDate),
                    scraper.fetchUpcoming ? await scraper.fetchUpcoming(site) : [],
                ]);

                console.log(`${site.name}: Found ${newReleases.length} recent releases, ${upcomingReleases.length} upcoming releases`);

                if (argv.save) {
                    await storeReleases(newReleases);
                }

                return [...newReleases, ...upcomingReleases.map(release => ({ ...release, upcoming: true }))];
            } catch (error) {
                if (argv.debug) {
                    console.error(`${site.id}: Failed to fetch releases`, error);
                    return [];
                }

                console.log(`${site.id}: Failed to fetch releases`);
                return [];
            }
        }

        return [];
    }));

    const accumulatedScenes = scenesPerSite.reduce((acc, siteScenes) => ([...acc, ...siteScenes]), []);
    const sortedScenes = accumulatedScenes.sort(({ date: dateA }, { date: dateB }) => moment(dateB).diff(dateA));

    return sortedScenes;
}

module.exports = fetchReleases;
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`'use strict';`

			`const config = require('config');`
			`const moment = require('moment');`

Added Private scraper. Added Vixen scraper to repository. 2019-04-04 02:00:28 +00:00			`const argv = require('./argv');`
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`const knex = require('./knex');`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`const scrapers = require('./scrapers');`

Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`function destructConfigNetworks(networks) {`
			`return networks.reduce((acc, network) => {`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`if (Array.isArray(network)) {`
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`// network specifies sites`
			`return {`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`...acc,`
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`sites: [...acc.sites, ...network[1]],`
			`};`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`}`

Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`return {`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`...acc,`
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`networks: [...acc.networks, network],`
			`};`
			`}, {`
			`networks: [],`
			`sites: [],`
			`});`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`}`

Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`function curateSites(sites) {`
			`return sites.map(site => ({`
			`id: site.id,`
			`name: site.name,`
			`description: site.description,`
			`url: site.url,`
			`networkId: site.network_id,`
Added parameters column to sites database, fixes Perv City scraper. Getting shoot ID from all existing scrapers. 2019-03-26 00:26:47 +00:00			`parameters: JSON.parse(site.parameters),`
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`}));`
			`}`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`async function accumulateIncludedSites() {`
Added Private scraper. Added Vixen scraper to repository. 2019-04-04 02:00:28 +00:00			`if (argv.networks \|\| argv.sites) {`
			`const rawSites = await knex('sites')`
			`.whereIn('id', argv.sites \|\| [])`
			`.orWhereIn('network_id', argv.networks \|\| []);`

			`return curateSites(rawSites);`
			`}`

Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`const included = destructConfigNetworks(config.include);`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`const rawSites = await knex('sites')`
			`.whereIn('id', included.sites)`
			`.orWhereIn('network_id', included.networks);`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`return curateSites(rawSites);`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`}`

Added Blowpass scraper. Split shootId and pageId. 2019-04-06 21:24:26 +00:00			`async function findDuplicateReleases(latestReleases, _siteId) {`
			`const latestReleasesShootIds = latestReleases.map(release => release.shootId).filter(release => release !== undefined);`
Added tag groups. Added MOFOS scraped. Improved entry ID handling. 2019-04-07 00:15:57 +00:00			`const latestReleasesEntryIds = latestReleases.map(release => release.entryId).filter(release => release !== undefined);`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00
Added Private scraper. Added Vixen scraper to repository. 2019-04-04 02:00:28 +00:00			`return knex('releases')`
Added Blowpass scraper. Split shootId and pageId. 2019-04-06 21:24:26 +00:00			`.whereIn('shoot_id', latestReleasesShootIds)`
Added tag groups. Added MOFOS scraped. Improved entry ID handling. 2019-04-07 00:15:57 +00:00			`.orWhereIn('entry_id', latestReleasesEntryIds);`
Added Vixen scraper. Added LegalPorno studio IDs. 2019-04-01 00:45:15 +00:00			`}`

			`async function storeReleases(releases) {`
			`const curatedReleases = releases.map(release => ({`
			`site_id: release.site.id,`
			`shoot_id: release.shootId \|\| null,`
Added tag groups. Added MOFOS scraped. Improved entry ID handling. 2019-04-07 00:15:57 +00:00			`entry_id: release.entryId \|\| null,`
Added Vixen scraper. Added LegalPorno studio IDs. 2019-04-01 00:45:15 +00:00			`url: release.url,`
			`title: release.title,`
			`date: release.date,`
			`description: release.description,`
Added Private scraper. Added Vixen scraper to repository. 2019-04-04 02:00:28 +00:00			`director: release.director,`
Added Vixen scraper. Added LegalPorno studio IDs. 2019-04-01 00:45:15 +00:00			`duration: release.duration,`
			`likes: release.rating && release.rating.likes,`
			`dislikes: release.rating && release.rating.dislikes,`
			`rating: release.rating && release.rating.stars,`
			`}));`

			`if (curatedReleases.length) {`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00			console.log(`Saving ${curatedReleases.length} new releases to database`);
Added Vixen scraper. Added LegalPorno studio IDs. 2019-04-01 00:45:15 +00:00
			`const insertQuery = knex('releases').insert(curatedReleases).toString();`
			`await knex.raw(insertQuery.replace('insert', 'INSERT OR IGNORE'));`

			`return curatedReleases;`
			`}`

			`return [];`
			`}`

Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00			`async function fetchNewReleases(scraper, site, afterDate, accReleases = [], page = 1) {`
			`const latestReleases = await scraper.fetchLatest(site, page);`

Added 21Sextury scraper. Various improvements. 2019-04-07 18:51:14 +00:00			`if (latestReleases.length === 0) {`
			`return [];`
			`}`

Added Blowpass scraper. Split shootId and pageId. 2019-04-06 21:24:26 +00:00			`const duplicateReleases = await findDuplicateReleases(latestReleases, site.id);`
Added tag groups. Added MOFOS scraped. Improved entry ID handling. 2019-04-07 00:15:57 +00:00			`const duplicateReleasesIds = new Set(`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00			`duplicateReleases`
Added Reality Kings scraper. Improved site finder. 2019-04-07 23:49:45 +00:00			`.map(release => release.shoot_id \|\| release.entry_id)`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00			`// exclude accumulated releases to prevent an infinite loop if the next page contains the same releases as the previous`
Added Reality Kings scraper. Improved site finder. 2019-04-07 23:49:45 +00:00			`.concat(duplicateReleases.map(release => release.shoot_id \|\| release.entry_id))`
			`.concat(accReleases.map(release => release.shootId \|\| release.entryId)),`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00			`);`
Added tag groups. Added MOFOS scraped. Improved entry ID handling. 2019-04-07 00:15:57 +00:00			`const uniqueReleases = latestReleases.filter(release => !duplicateReleasesIds.has(String(release.shootId))`
			`&& !duplicateReleasesIds.has(String(release.entryId))`
			`&& moment(release.date).isAfter(afterDate));`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00
Added Reality Kings scraper. Improved site finder. 2019-04-07 23:49:45 +00:00			console.log(`\x1b[90m${site.name}: Scraped page ${page}, ${uniqueReleases.length} unique recent releases\x1b[0m`);
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00
			`const oldestReleaseOnPage = latestReleases.slice(-1)[0].date;`

			`if (uniqueReleases.length > 0 && moment(oldestReleaseOnPage).isAfter(afterDate)) {`
			`return fetchNewReleases(scraper, site, afterDate, accReleases.concat(uniqueReleases), page + 1);`
			`}`

			`return accReleases.concat(uniqueReleases);`
			`}`

Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`async function fetchReleases() {`
Replaced network and tag files with SQLite database. 2019-03-25 02:57:33 +00:00			`const sites = await accumulateIncludedSites();`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00
			`const scenesPerSite = await Promise.all(sites.map(async (site) => {`
Added parameters column to sites database, fixes Perv City scraper. Getting shoot ID from all existing scrapers. 2019-03-26 00:26:47 +00:00			`const scraper = scrapers[site.id] \|\| scrapers[site.networkId];`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00
			`if (scraper) {`
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00			`try {`
			`const afterDate = moment.utc().subtract(...argv.after.split(' ')).toDate();`

			`const [newReleases, upcomingReleases] = await Promise.all([`
			`fetchNewReleases(scraper, site, afterDate),`
			`scraper.fetchUpcoming ? await scraper.fetchUpcoming(site) : [],`
			`]);`

Added Reality Kings scraper. Improved site finder. 2019-04-07 23:49:45 +00:00			console.log(`${site.name}: Found ${newReleases.length} recent releases, ${upcomingReleases.length} upcoming releases`);
Scrapers can now iterate through pages. Filtering unique releases before saving to database. Improved scrapers and rendering. 2019-04-05 01:45:40 +00:00
			`if (argv.save) {`
			`await storeReleases(newReleases);`
			`}`

			`return [...newReleases, ...upcomingReleases.map(release => ({ ...release, upcoming: true }))];`
			`} catch (error) {`
			`if (argv.debug) {`
			console.error(`${site.id}: Failed to fetch releases`, error);
			`return [];`
			`}`

			console.log(`${site.id}: Failed to fetch releases`);
			`return [];`
			`}`
Improved module structure. Added individual scene scrapers for Jules Jordan and XEmpire. 2019-03-23 21:48:39 +00:00			`}`

			`return [];`
			`}));`

			`const accumulatedScenes = scenesPerSite.reduce((acc, siteScenes) => ([...acc, ...siteScenes]), []);`
			`const sortedScenes = accumulatedScenes.sort(({ date: dateA }, { date: dateB }) => moment(dateB).diff(dateA));`

			`return sortedScenes;`
			`}`

			`module.exports = fetchReleases;`