extraction - Code Search

README.md

## Overview

**Fess Crawler** is a powerful, flexible Java-based web crawling framework designed for enterprise-scale content extraction and processing. Built with a modular architecture, it supports multiple protocols (HTTP/HTTPS, File System, FTP, SMB, Cloud Storage) and provides extensive content extraction capabilities from various document formats.

### Key Features

Created: Sun Apr 12 03:50:13 GMT 2026

- Last Modified: Sun Aug 31 05:32:52 GMT 2025

- 15.3K bytes

- Click Count (0)

github.com/apache/maven

impl/maven-cli/src/test/java/org/apache/maven/cling/invoker/mvnup/goals/GAVUtilsTest.java

/**
 * Tests Artifact extraction, computation, and parent resolution functionality.
 */
@DisplayName("GAVUtils")
class GAVUtilsTest {

    @BeforeEach
    void setUp() {}

    private UpgradeContext createMockContext() {
        return TestUtils.createMockContext();
    }

    @Nested
    @DisplayName("Artifact Extraction")
    class GAVExtractionTests {

        @Test

Created: Sun Apr 05 03:35:12 GMT 2026

- Last Modified: Tue Nov 18 18:03:26 GMT 2025

- 17.3K bytes

- Click Count (0)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/crawler/transformer/AbstractFessFileTransformer.java

    /**
     * Get the extracted data.
     * @param extractor The extractor.
     * @param in The input stream.
     * @param params The parameters.
     * @return The extracted data.
     */
    protected ExtractData getExtractData(final Extractor extractor, final InputStream in, final Map<String, String> params) {
        try {
            return extractor.getText(in, params);
        } catch (final RuntimeException e) {

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Fri Nov 28 16:29:12 GMT 2025

- 25.7K bytes

- Click Count (0)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/helper/DocumentHelper.java

import org.codelibs.fess.crawler.exception.CrawlerSystemException;
import org.codelibs.fess.crawler.exception.CrawlingAccessException;
import org.codelibs.fess.crawler.extractor.Extractor;
import org.codelibs.fess.crawler.extractor.impl.TikaExtractor;
import org.codelibs.fess.crawler.processor.ResponseProcessor;
import org.codelibs.fess.crawler.processor.impl.DefaultResponseProcessor;
import org.codelibs.fess.crawler.rule.Rule;

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Mon Mar 30 14:27:04 GMT 2026

- 17.4K bytes

- Click Count (0)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/crawler/transformer/FessTransformer.java

import org.codelibs.fess.mylasta.direction.FessConfig;
import org.codelibs.fess.util.ComponentUtil;

/**
 * Interface for transforming and processing crawled documents in Fess.
 * Provides utility methods for URL processing, site extraction, data mapping,
 * and field configuration handling during the document transformation process.
 */
public interface FessTransformer {

    /**
     * Synchronized LRU cache for storing parent URL encodings.

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Thu Dec 11 09:47:03 GMT 2025

- 14.1K bytes

- Click Count (0)

github.com/codelibs/jcifs

src/test/java/jcifs/pac/PacLogonInfoTest.java

import org.junit.jupiter.api.BeforeEach;
import org.junit.jupiter.api.DisplayName;
import org.junit.jupiter.api.Test;

import jcifs.smb.SID;

/**
 * Unit tests for PacLogonInfo class.
 * Tests the parsing and data extraction from PAC Logon Info structures.
 */
class PacLogonInfoTest {

    private static final long TEST_FILETIME = 130640000000000000L;
    private static final String TEST_USERNAME = "testuser";

Created: Sun Apr 05 00:10:12 GMT 2026

- Last Modified: Thu Aug 14 05:31:44 GMT 2025

- 12.3K bytes

- Click Count (0)

github.com/codelibs/fess-suggest

src/main/java/org/codelibs/fess/suggest/util/MapValueExtractor.java

 */
package org.codelibs.fess.suggest.util;

import java.util.ArrayList;
import java.util.List;
import java.util.Map;

/**
 * Utility class for type-safe value extraction from Map objects.
 * Centralizes map access patterns to reduce code duplication and improve type safety.
 *
 * <p>This class provides methods to safely extract typed values from Map&lt;String, Object&gt;

Created: Fri Apr 17 09:08:13 GMT 2026

- Last Modified: Sun Feb 01 12:48:24 GMT 2026

- 9.8K bytes

- Click Count (0)

github.com/codelibs/fess-suggest

src/main/java/org/codelibs/fess/suggest/util/SuggestUtil.java

        return id;
    }

    /**
     * Parses the given query string and returns an array of keywords.
     *
     * @param q the query string to be parsed
     * @param field the field to be used for keyword extraction
     * @return an array of keywords extracted from the query string, or an empty array if the number of keywords exceeds the maximum allowed or if any keyword exceeds the maximum length
     */

Created: Fri Apr 17 09:08:13 GMT 2026

- Last Modified: Sun Nov 23 11:21:40 GMT 2025

- 17.5K bytes

- Click Count (1)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/crawler/FessCrawlerThread.java

 *
 * <p>Key features include:</p>
 * <ul>
 * <li>Incremental crawling support with last-modified timestamp checking</li>
 * <li>Document expiration handling</li>
 * <li>Child URL extraction and queueing</li>
 * <li>Integration with Fess configuration and permission systems</li>
 * <li>Client selection based on URL patterns</li>
 * </ul>
 *
 * @see CrawlerThread

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Thu Dec 11 09:47:03 GMT 2025

- 19.5K bytes

- Click Count (0)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/helper/CrawlerStatsHelper.java

    }

    /**
     * Key object for statistics tracking that contains an identifier and optional URL.
     * Used when tracking statistics for objects that don't have built-in URL extraction.
     */
    public static class StatsKeyObject {

        /** Unique identifier for this statistics key object. */
        private final String id;

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Thu Aug 07 03:06:29 GMT 2025

- 17.4K bytes

- Click Count (0)

Search Options