Extractor - Code Search

fess-crawler/src/test/java/org/codelibs/fess/crawler/extractor/impl/XmlExtractorTest.java

        final InputStream in = ResourceUtil.getResourceAsStream("extractor/test_sjis.xml");
        final String content = xmlExtractor.getText(in, null).getContent();
        CloseableUtil.closeQuietly(in);
        logger.info(content);
        assertTrue(content.contains("テスト"));
    }

    public void test_getXml_entity() {
        final InputStream in = ResourceUtil.getResourceAsStream("extractor/test_entity.xml");

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Sat Mar 15 06:52:00 GMT 2025

- 6.4K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/HtmlXpathExtractor.java

import com.google.common.cache.CacheLoader;
import com.google.common.cache.LoadingCache;

import jakarta.annotation.Resource;

/**
 * {@link HtmlXpathExtractor} is an implementation of the {@link org.codelibs.fess.crawler.extractor.Extractor} interface.
 * It uses XPath expressions to extract text content from HTML documents.
 * <p>
 * This class provides methods to configure the XPath expressions, parser features, and properties.

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Sat Oct 04 08:47:19 GMT 2025

- 10.4K bytes

- Click Count (0)

github.com/gradle/gradle

build-logic/documentation/src/main/groovy/gradlebuild/docs/dsl/source/ClassMetaDataUtil.java

import java.io.File;
import java.util.HashSet;
import java.util.Set;

class ClassMetaDataUtil {
    static void extractFromMetadata(File metaData, Set<String> excludedPackagePatterns, Action<ClassMetaData> extractor) {
        SimpleClassMetaDataRepository<ClassMetaData> repository = new SimpleClassMetaDataRepository<>();
        repository.load(metaData);

        final Set<String> excludedPrefixes = new HashSet<>();

Created: Wed Dec 31 11:36:14 GMT 2025

- Last Modified: Wed Dec 09 08:14:05 GMT 2020

- 2.4K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/EmlExtractor.java

import org.codelibs.fess.crawler.Constants;
import org.codelibs.fess.crawler.entity.ExtractData;
import org.codelibs.fess.crawler.exception.ExtractException;
import org.codelibs.fess.crawler.extractor.Extractor;
import org.codelibs.fess.crawler.extractor.ExtractorFactory;
import org.codelibs.fess.crawler.helper.MimeTypeHelper;

import jakarta.mail.Address;
import jakarta.mail.BodyPart;
import jakarta.mail.Header;
import jakarta.mail.Message;

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Sun Jul 06 02:13:03 GMT 2025

- 12.6K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/transformer/impl/TextTransformer.java

import org.codelibs.fess.crawler.extractor.Extractor;
import org.codelibs.fess.crawler.extractor.ExtractorFactory;

import jakarta.annotation.Resource;

/**
 * TextTransformer is a class that transforms a ResponseData object into a ResultData object containing the extracted text content.
 * It uses an Extractor to extract the text from the response body based on the MIME type.

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Sun Jul 06 02:13:03 GMT 2025

- 6.5K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/FilenameExtractor.java

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND,
 * either express or implied. See the License for the specific language
 * governing permissions and limitations under the License.
 */
package org.codelibs.fess.crawler.extractor.impl;

import java.io.InputStream;
import java.util.Map;

import org.codelibs.core.lang.StringUtil;
import org.codelibs.fess.crawler.entity.ExtractData;

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Wed Nov 19 08:55:01 GMT 2025

- 2.7K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/test/java/org/codelibs/fess/crawler/extractor/impl/LhaExtractorTest.java

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND,
 * either express or implied. See the License for the specific language
 * governing permissions and limitations under the License.
 */
package org.codelibs.fess.crawler.extractor.impl;

import java.io.IOException;
import java.io.InputStream;

import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.codelibs.core.io.CloseableUtil;

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Thu Aug 07 02:55:08 GMT 2025

- 3.4K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/MsExcelExtractor.java

        validateInputStream(in);
        try (final HSSFWorkbook workbook = new HSSFWorkbook(in);
                final org.apache.poi.hssf.extractor.ExcelExtractor excelExtractor =
                        new org.apache.poi.hssf.extractor.ExcelExtractor(workbook)) {
            return new ExtractData(excelExtractor.getText());
        } catch (final IOException e) {

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Mon Nov 24 03:59:47 GMT 2025

- 1.9K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/MsWordExtractor.java

     */
    @Override
    public ExtractData getText(final InputStream in, final Map<String, String> params) {
        validateInputStream(in);
        try (final org.apache.poi.hwpf.extractor.WordExtractor wordExtractor = new org.apache.poi.hwpf.extractor.WordExtractor(in)) {
            return new ExtractData(wordExtractor.getText());
        } catch (final IOException e) {

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Wed Nov 19 08:55:01 GMT 2025

- 1.7K bytes

- Click Count (0)

github.com/codelibs/fess-crawler

fess-crawler/src/test/java/org/codelibs/fess/crawler/extractor/impl/MsExcelExtractorTest.java

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND,
 * either express or implied. See the License for the specific language
 * governing permissions and limitations under the License.
 */
package org.codelibs.fess.crawler.extractor.impl;

import java.io.InputStream;

import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.codelibs.core.io.CloseableUtil;
import org.codelibs.core.io.ResourceUtil;

Created: Sat Dec 20 11:21:39 GMT 2025

- Last Modified: Sat Mar 15 06:52:00 GMT 2025

- 2.1K bytes

- Click Count (0)

Search Options