Форум программистов «Весельчак У»
  *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

  • Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
  • У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
   Начало  
Наши сайты
Помощь Поиск Календарь Почта Войти Регистрация  
 
Страниц: [1]   Вниз
  Печать  
Автор Тема: база данных с поиском с нуля  (Прочитано 8132 раз)
0 Пользователей и 1 Гость смотрят эту тему.
lasa
Гость
« : 09-05-2009 13:59 » 

Всем доброго времени суток!

Очень надеюсь на вашу помощь. Сразу оговорюсь - в программировании можно сказать полный ноль, ибо гуманитарий. Была школа - были бэйсик и паскаль.. да что там.. ноль я Ага

Что у меня есть: большой объем параллельных текстов формата doc (на русском и английском языках). К ним написаны аннотации, которые включают стандартную информацию о названии, авторе, кол-ве знаков, ключевых словах для текста.

Что мне надо: создать что-то в электронном виде (рабочая программа что ли), что выполняло бы запросы пользователя при поиске по стандартным параметрам (с выводом самого текста для чтения) и по ключевым словам (с выводом этого слова во всех контекстах, имеющихся в базе). Примерно так.

Помогите, пожалуйста, осуществить. Что делать? с Чего начать?

Записан
Джон
просто
Администратор

de
Offline Offline
Пол: Мужской

« Ответ #1 : 09-05-2009 17:17 » 

Задача одноразовая?  В смысле надо прото перелопатить существующие тексты и всё, или же тексты величина переменная, постоянно прибывающая?

Формат сохранять обязательно (у ворда свой формат)? Есть некий стандарт формата аннотаций? Куда должен выводится текст? Достаточно ли осуществить поиск по аннотациям и открыть относящийся файл с текстом в стандартном приложении (ворде)?

Вобще-то вопросов ещё куча, но для начала пока хватит.
Записан

Я вам что? Дурак? По выходным и праздникам на работе работать. По выходным и праздникам я работаю дома.
"Just because the language allows you to do something does not mean that it’s the correct thing to do." Trey Nash
"Physics is like sex: sure, it may give some practical results, but that's not why we do it." Richard P. Feynman
"All science is either physics or stamp collecting." Ernest Rutherford
"Wer will, findet Wege, wer nicht will, findet Gründe."
lasa
Гость
« Ответ #2 : 09-05-2009 19:41 » 

Да, количество текстов постоянно.

опишу наверно, как я себе это представляю и параллельно постараюсь ответить на ваши вопросы.
Есть некая база текстов + аннотации к каждому стандартной структуры (включает позиции паспорта текста: автор, название, время создания, объем, тип, тематика, ключевые слова; непосредственно саму аннотацию ). В каком формате представлены тексты и аннотации (сейчас это ворд), значения нет. К этой базе нужен какой-то пользовательский интерфейс (возможно ли размещение на сайте?), позволяющий делать 2 вида поиска:
1й - если пользователь хочет найти текст по названию. программа выводит текст и его английский эквивалент. да, для этого будет достаточно открыть текст
2й - пользователь вводит ключевые слова (которые есть в аннотации к каждому тексту). программа ищет все контексты с введенным ключевым словом и выводит на экран все найденные в таком виде: выделенное ключевое слово и допустим 5-10 словоупотреблений слева и семь справа + название теста, где найден контекст.
пример того, чего я описываю во 2ом поиске: http://lexicol.philol.msu.ru/?q=%F0%E5%E1%E5%ED%EE%EA&wtype=wordform&stype=str&len=10&constfeat=all&changefeat=all&zhenre=all&zhenretype=all   
это из корпусной лингвистики.

ответила как смогла, как понимаю
Записан
Sla
Модератор

ua
Offline Offline
Пол: Мужской

WWW
« Ответ #3 : 10-05-2009 06:39 » 

здесь нужно скорей всего смотреть не в сторону реляционных баз, а попытаться найти и ознакомится с алгоритмами поисковых систем или хотя бы принципами.

Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.
lasa
Гость
« Ответ #4 : 10-05-2009 13:41 » 

упростила и уточнила себе задачу.

решила все делать в html. потихоньку осваиваю. что уже смогла: есть начальная страница. она содержит название документа-гиперссылка на файл в пдф. ниже - аннотация документа в том стандарте, о котором говорила.

хочу сделать, но не знаю как: в каждой аннотации есть раздел Ключевые слова. содержит 10-12 слов к конкретному тексту. хочу сделать их ссылками так, чтобы, нажимая на них, в новом окне (как вариант ниже в том же) выводились все найденные контексты с ключевым словом (примерно так, как описывала ранее).

Пыталась понять исходный код той ссылки, которую отправляла в предыдущем сообщении, но мало что поняла. подскажите путь, операторы, которыми можно сделать то, что я хочу.
   
Записан
Sla
Модератор

ua
Offline Offline
Пол: Мужской

WWW
« Ответ #5 : 10-05-2009 15:10 » 

lasa, Здесь до операторов, еще очень далеко. Сначала нужно определиться с принципами хранения данных и их последующей обработки.
Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.
Dimka
Деятель
Команда клуба

ru
Offline Offline
Пол: Мужской

« Ответ #6 : 10-05-2009 17:42 » new

Если по клику на ссылку должен работать поиск, и результат поиска не является постоянным во времени (т.е. в базу могут добавляться новые и из базы могут удаляться имеющиеся тексты), то по ссылке должна запускаться программа, расположенная на том же сервере, что и все странички. Эта программа должна осуществлять просмотр всех HTML-документов и отбор нужных для вывода.

Вообще HTML - это язык разметки текста для того, чтобы управлять отображением этого текста в браузере, а не язык программирования. Я бы посоветовал тогда хранить данные в XML, а преобразование в HTML осуществлять на сервере "на лету" при помощи XSL-преобразований. Или, как промежуточный вариант, использовать XHTML - это HTML, оформленный по правилам XML. XML как формат данных - более строгий по синтаксису, а потому более простой в обработке внутри программ.
Записан

Программировать - значит понимать (К. Нюгард)
Невывернутое лучше, чем вправленное (М. Аврелий)
Многие готовы скорее умереть, чем подумать (Б. Рассел)
Страниц: [1]   Вверх
  Печать  
 

Powered by SMF 1.1.21 | SMF © 2015, Simple Machines