traxxx/src/scrape-release.js

'use strict';

const config = require('config');

const argv = require('./argv');
const scrapers = require('./scrapers/scrapers');
const { storeReleases } = require('./releases');
const { findSiteByUrl } = require('./sites');
const { findNetworkByUrl } = require('./networks');

async function findSite(url, release) {
    const site = (release && release.site) || await findSiteByUrl(url);

    if (site) {
        return site;
    }

    const network = await findNetworkByUrl(url);

    if (network) {
        return {
            ...network,
            network,
            isFallback: true,
        };
    }

    return null;
}

async function scrapeRelease(url, release, deep = true, type = 'scene') {
    const site = await findSite(url, release);

    if (!site) {
        throw new Error('Could not find site in database');
    }

    const scraper = scrapers.releases[site.slug] || scrapers.releases[site.network.slug];

    if (!scraper) {
        throw new Error('Could not find scraper for URL');
    }

    if (type === 'scene' && !scraper.fetchScene) {
        throw new Error(`The '${site.name}'-scraper cannot fetch individual scenes`);
    }

    if (type === 'movie' && !scraper.fetchMovie) {
        throw new Error(`The '${site.name}'-scraper cannot fetch individual movies`);
    }

    const scrapedRelease = type === 'scene'
        ? await scraper.fetchScene(url, site, release)
        : await scraper.fetchMovie(url, site, release);

    const curatedRelease = { ...scrapedRelease, type };

    if (!deep && argv.save) {
        // don't store release when called by site scraper
        /*
        const movie = scrapedRelease.movie
            ? await scrapeRelease(scrapedRelease.movie, null, false, 'movie')
            : null;

        if (movie) {
            const { releases: [storedMovie] } = await storeReleases([movie]);
            curatedRelease.parentId = storedMovie.id;
        }
        */

        const { releases: [storedRelease] } = await storeReleases([curatedRelease]);

        if (storedRelease) {
            console.log(`http://${config.web.host}:${config.web.port}/scene/${storedRelease.id}`);
        }
    }

    return scrapedRelease;
}

module.exports = scrapeRelease;
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`'use strict';`

			`const config = require('config');`

			`const argv = require('./argv');`
			`const scrapers = require('./scrapers/scrapers');`
Scraping actor profiles from FreeOnes. 2019-11-17 02:56:45 +00:00			`const { storeReleases } = require('./releases');`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`const { findSiteByUrl } = require('./sites');`
			`const { findNetworkByUrl } = require('./networks');`

			`async function findSite(url, release) {`
			`const site = (release && release.site) \|\| await findSiteByUrl(url);`

			`if (site) {`
			`return site;`
			`}`

			`const network = await findNetworkByUrl(url);`

			`if (network) {`
			`return {`
			`...network,`
Added bash CLI shorthand. Properly setting parameters in site results. Removed obsolete URL restriction from Reality Kings scraper. 2019-11-16 22:37:33 +00:00			`network,`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`isFallback: true,`
			`};`
			`}`

			`return null;`
			`}`

Experimenting using GraphQL in favor of REST. 2019-12-15 04:42:51 +00:00			`async function scrapeRelease(url, release, deep = true, type = 'scene') {`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`const site = await findSite(url, release);`
Added support for Reality Kings sites 'Look At Her Now' and 'Tranny Surprise'. 2019-12-06 23:42:47 +00:00
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`if (!site) {`
			`throw new Error('Could not find site in database');`
			`}`

Added support for Reality Kings sites 'Look At Her Now' and 'Tranny Surprise'. 2019-12-06 23:42:47 +00:00			`const scraper = scrapers.releases[site.slug] \|\| scrapers.releases[site.network.slug];`

Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`if (!scraper) {`
			`throw new Error('Could not find scraper for URL');`
			`}`

Experimenting using GraphQL in favor of REST. 2019-12-15 04:42:51 +00:00			`if (type === 'scene' && !scraper.fetchScene) {`
Refactored media module to generalize avatar and poster storage into photo storage. 2019-12-13 02:28:52 +00:00			throw new Error(`The '${site.name}'-scraper cannot fetch individual scenes`);
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`}`

Experimenting using GraphQL in favor of REST. 2019-12-15 04:42:51 +00:00			`if (type === 'movie' && !scraper.fetchMovie) {`
Refactored media module to generalize avatar and poster storage into photo storage. 2019-12-13 02:28:52 +00:00			throw new Error(`The '${site.name}'-scraper cannot fetch individual movies`);
			`}`

Experimenting using GraphQL in favor of REST. 2019-12-15 04:42:51 +00:00			`const scrapedRelease = type === 'scene'`
			`? await scraper.fetchScene(url, site, release)`
			`: await scraper.fetchMovie(url, site, release);`

			`const curatedRelease = { ...scrapedRelease, type };`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00
			`if (!deep && argv.save) {`
			`// don't store release when called by site scraper`
Further refactoring. Fixed actor pages and more. 2019-12-31 02:12:52 +00:00			`/*`
Experimenting using GraphQL in favor of REST. 2019-12-15 04:42:51 +00:00			`const movie = scrapedRelease.movie`
			`? await scrapeRelease(scrapedRelease.movie, null, false, 'movie')`
			`: null;`

			`if (movie) {`
			`const { releases: [storedMovie] } = await storeReleases([movie]);`
			`curatedRelease.parentId = storedMovie.id;`
			`}`
Further refactoring. Fixed actor pages and more. 2019-12-31 02:12:52 +00:00			`*/`
Experimenting using GraphQL in favor of REST. 2019-12-15 04:42:51 +00:00
			`const { releases: [storedRelease] } = await storeReleases([curatedRelease]);`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00
Refactored 21sextury scraper. 2019-12-09 04:00:49 +00:00			`if (storedRelease) {`
			console.log(`http://${config.web.host}:${config.web.port}/scene/${storedRelease.id}`);
			`}`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`}`

Refactored media module to generalize avatar and poster storage into photo storage. 2019-12-13 02:28:52 +00:00			`return scrapedRelease;`
Major refactor, cleand up site scrape module, fixed and cleaned up release scrape module. Removed old CLI code 2019-11-16 02:33:36 +00:00			`}`

			`module.exports = scrapeRelease;`