tika - Code Search

fess-crawler/pom.xml

			<artifactId>tika-parser-html-module</artifactId>
			<version>${tika.version}</version>
		</dependency>
		<dependency>
			<groupId>org.apache.tika</groupId>
			<artifactId>tika-parser-image-module</artifactId>
			<version>${tika.version}</version>
		</dependency>
		<dependency>
			<groupId>org.apache.tika</groupId>
			<artifactId>tika-parser-mail-module</artifactId>

Created: Sun Apr 12 03:50:13 GMT 2026

- Last Modified: Sun Mar 29 01:35:48 GMT 2026

- 12.5K bytes

- Click Count (0)

github.com/codelibs/fess

src/test/java/org/codelibs/fess/crawler/helper/FessMimeTypeHelperTest.java

        try (InputStream is = new ByteArrayInputStream(SQL_REM_CONTENT.getBytes(StandardCharsets.UTF_8))) {
            final String contentType = mimeTypeHelper.getContentType(is, "test.sql");
            // Without override, Tika detects based on content+filename
            assertNotNull(contentType);
        }
    }

    @Test
    public void test_init_nullConfig() throws IOException {

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Sat Jan 24 09:06:33 GMT 2026

- 12.1K bytes

- Click Count (0)

github.com/codelibs/fess

ADDING_NEW_LANGUAGE.md

3. **Fallback**: English (from `fess_label.properties` and `fess_message.properties`)

### Document Language Detection

During crawling and indexing, Fess:

1. Detects language from document content using Apache Tika
2. Validates against `supported.languages` list
3. Creates language-specific fields (e.g., `content_ja`, `title_en`, `content_sv`)
4. Applies language-specific analyzers for better search results

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Thu Nov 06 11:36:30 GMT 2025

- 10.4K bytes

- Click Count (1)

github.com/codelibs/fess-crawler

README.md

## Technology Stack

- **Java**: 21+ (requires Java 21 or higher)
- **Build System**: Maven 3.x
- **DI Container**: LastaFlute DI
- **HTTP Client**: Apache HttpComponents
- **Content Extraction**: Apache Tika, Apache POI, PDFBox
- **Testing**: JUnit 4, UTFlute, Testcontainers
- **Storage Backends**: OpenSearch, Memory-based

## Quick Start

### Prerequisites

- Java 21 or higher
- Maven 3.6 or higher

Created: Sun Apr 12 03:50:13 GMT 2026

- Last Modified: Sun Aug 31 05:32:52 GMT 2025

- 15.3K bytes

- Click Count (0)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/job/CrawlJob.java

        } else {
            cmdList.add("-Dfess.log.level=" + logLevel);
            if ("debug".equalsIgnoreCase(logLevel)) {
                cmdList.add("-Dorg.apache.tika.service.error.warn=true");
            }
        }
        stream(fessConfig.getJvmCrawlerOptionsAsArray())
                .of(stream -> stream.filter(StringUtil::isNotBlank).forEach(value -> cmdList.add(value)));

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Fri Nov 28 16:29:12 GMT 2025

- 19.6K bytes

- Click Count (0)

github.com/google/guava

guava-tests/test/com/google/common/base/SplitterTest.java

        COMMA_SPLITTER
            .trimResults()
            .withKeyValueSeparator(Splitter.on(':').trimResults())
            .split("boy  : tom , girl: tina , cat  : kitty , dog: tommy ");
    ImmutableMap<String, String> expected =
        ImmutableMap.of("boy", "tom", "girl", "tina", "cat", "kitty", "dog", "tommy");
    assertThat(m).isEqualTo(expected);
    assertThat(m.entrySet()).containsExactlyElementsIn(expected.entrySet()).inOrder();

Created: Fri Apr 03 12:43:13 GMT 2026

- Last Modified: Mon Mar 16 15:59:55 GMT 2026

- 29.7K bytes

- Click Count (0)

Search Options

fess-crawler/pom.xml

src/test/java/org/codelibs/fess/crawler/helper/FessMimeTypeHelperTest.java

ADDING_NEW_LANGUAGE.md

README.md

src/main/java/org/codelibs/fess/job/CrawlJob.java

guava-tests/test/com/google/common/base/SplitterTest.java