tikaExtractor - Code Search

src/main/java/org/codelibs/fess/crawler/transformer/FessStandardTransformer.java

        if (extractor == null) {
            extractor = ComponentUtil.getComponent("tikaExtractor");
            if (extractor == null) {
                throw new FessSystemException("Could not find tikaExtractor.");
            }
        }

        if (logger.isDebugEnabled()) {
            logger.debug("url={}, extractor={}", responseData.getUrl(), extractor);

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Fri Nov 28 16:29:12 GMT 2025

- 3.8K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

README.md

});

// Configure content extraction
container.singleton("tikaExtractor", TikaExtractor.class);
container.singleton("extractorFactory", ExtractorFactory.class, factory -> {
    factory.addExtractor("text/html", container.getComponent("tikaExtractor"));
    factory.addExtractor("application/pdf", container.getComponent("tikaExtractor"));
});

Crawler crawler = container.getComponent("crawler");

Created: Sun Apr 12 03:50:13 GMT 2026

- Last Modified: Sun Aug 31 05:32:52 GMT 2025

- 15.3K bytes

- Click Count (0)

github.com/codelibs/fess

src/test/java/org/codelibs/fess/helper/DocumentHelperTest.java

        ResponseData responseData = new ResponseData();
        Map<String, Object> dataMap = new HashMap<>();

        responseData.getMetaDataMap().put(TikaExtractor.class.getSimpleName(), new TikaExtractor());

        String content = " Test Content ";
        assertEquals("Test Content", documentHelper.getContent(null, responseData, content, dataMap));
    }

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Wed Jan 14 14:29:07 GMT 2026

- 13.2K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

CLAUDE.md

- **Transformer**: `HtmlTransformer`, `XmlTransformer`, `FileTransformer`, etc.
- **Extractor**: Weight-based selection (tries in descending weight order)

### Key Extractors

`TikaExtractor`, `PdfExtractor`, `MsWordExtractor`, `MsExcelExtractor`, `MsPowerPointExtractor`, `ZipExtractor`, `HtmlExtractor`, `MarkdownExtractor`, `EmlExtractor`

### Helpers

Created: Sun Apr 12 03:50:13 GMT 2026

- Last Modified: Thu Mar 12 03:39:20 GMT 2026

- 8.1K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler-lasta/src/main/resources/crawler/extractor.xml

<!DOCTYPE components PUBLIC "-//DBFLUTE//DTD LastaDi 1.0//EN"
	"http://dbflute.org/meta/lastadi10.dtd">
<components namespace="fessCrawler">
	<include path="crawler/container.xml" />

	<component name="tikaExtractor"
		class="org.codelibs.fess.crawler.extractor.impl.TikaExtractor">
		<property name="maxCompressionRatio">1</property>
		<property name="maxUncompressionSize">10000000</property>
	</component>
	<component name="msWordExtractor"

Created: Sun Apr 12 03:50:13 GMT 2026

- Last Modified: Wed Feb 11 01:15:55 GMT 2026

- 50.4K bytes

- Click Count (0)

github.com/codelibs/fess

src/main/java/org/codelibs/fess/crawler/transformer/AbstractFessFileTransformer.java

import org.codelibs.fess.crawler.exception.CrawlerSystemException;
import org.codelibs.fess.crawler.exception.CrawlingAccessException;
import org.codelibs.fess.crawler.extractor.Extractor;
import org.codelibs.fess.crawler.extractor.impl.TikaExtractor;
import org.codelibs.fess.crawler.serializer.DataSerializer;
import org.codelibs.fess.crawler.transformer.impl.AbstractTransformer;
import org.codelibs.fess.crawler.util.CrawlingParameterUtil;

Created: Tue Mar 31 13:07:34 GMT 2026

- Last Modified: Fri Nov 28 16:29:12 GMT 2025

- 25.7K bytes

- Click Count (0)

Search Options

src/main/java/org/codelibs/fess/crawler/transformer/FessStandardTransformer.java

README.md

src/test/java/org/codelibs/fess/helper/DocumentHelperTest.java

CLAUDE.md

fess-crawler-lasta/src/main/resources/crawler/extractor.xml

src/main/java/org/codelibs/fess/crawler/transformer/AbstractFessFileTransformer.java