Фильтрация русского контента, вес фраз, скорость работы.
|
|
pma | Дата: Пятница, 04.05.2012, 10:03 | Сообщение # 16 |
Рядовой
Группа: Пользователи
Сообщений: 18
Статус: Offline
| Quote (Vito) Проверить наличие прав запуска (x) у скрипта или запустить так до редиректора я еще не дошел, это я спросил вас о анализаторе логов http://dansguardian.ucoz.ru/index/analizator_logov/0-15 пакеты установлены, дал права на запуск, но при выполнении команды так же выдает: Добавлено (04.05.2012, 10:03) --------------------------------------------- урезал спойлер предыдущего сообщения из за большого количества символов, но думаю содержания понятно-) Quote (Vito) А адреса записываются таким образом ^http://mail\.ru/news не получается закрыть адрес http://ru.wikipedia.org/wiki/%CC%E0%F0%E8%F5%F3%E0%ED%E0 , т.е. адрес не должен заканчивать такими символами чтобы срабатывало данное правило? в DG действие белых списков перекрывает действие черных - это можно как то обойти, т.е. чтобы к сайта из exception списков применялась фильтрация по фразам? и главный вопрос: на днях привезу новый, довольно мощный компьютер, который будет выполнять роль сервера, сейчас сервер это старенький крехтящий системник. буду устанавливать с нуля ubuntu server и все ПО опираясь на статьи с linformatika.ru и interface31.ru/tech_it/ . Т.е. кэширующий прокси с интернет фильтрацией. Что вы можете посоветовать мне в на этом пути. Уточню что собираюсь сделать: 1) установка и настройка ubuntu server, + dhcp 2) установка и настройка squid 3) установка DG, создание двух групп фильтрации, + настройки фильтрации русских фраз. Это тот минимум который собираюсь сделать. 1 группа фильтра будут ученики с белым списком, вторая все остальные с фильтрацией. В идеале конечно мечтаю о реализации мощной фильтрации по фразам url и т.д. но пока минимум. Что вы посоветуете в такой цепочки действий, учитывая что реализую я все опираясь в основном на статьи т.к. свои навыки только мин. базовые? Спасибо!
|
|
| |
Vito | Дата: Пятница, 04.05.2012, 12:33 | Сообщение # 17 |
Подполковник
Группа: Администраторы
Сообщений: 131
Статус: Offline
| Скрипт выдает HTML-код который выглядит в консоли как текст. Этот скрипт должен размещаться в каталоге cgi-bin веб-сервера, т.е в /usr/lib/cgi-bin (для Ubuntu) И доступ к анализатору будет через браузер по ссылке http://ip-вашего сервера/cgi-bin/имя скрипта
Рекомендации. Давайте я оформлю рекомендации в отдельной теме, так как много начинающих задают этот вопрос.
|
|
| |
pma | Дата: Пятница, 04.05.2012, 16:09 | Сообщение # 18 |
Рядовой
Группа: Пользователи
Сообщений: 18
Статус: Offline
| Здравствуйте! возник тиакой вопрос, возможно ли реализовать фильтрацию силами DG без выделенного прокси? Например есть 5 машин, 1 выделим как прокси(но на ней так же одна сетевая карта), на других ПК в настройках браузера пропишем ip первой машины, как тогда завести squid+DG? в настройках squid в конце заворачивается трафик со всех машин на его порт Code iptables -t nat -A PREROUTING -i eth1 -d ! 10.0.0.0/24 -p tcp -m multiport --dport 80,8080 -j DNAT --to 10.0.0.1:3128. . так и прописать? спасибо!
|
|
| |
Vito | Дата: Пятница, 04.05.2012, 16:26 | Сообщение # 19 |
Подполковник
Группа: Администраторы
Сообщений: 131
Статус: Offline
| Общие рекомендации http://dansguardian.ucoz.ru/forum/13-18-1
|
|
| |
pma | Дата: Пятница, 11.05.2012, 09:43 | Сообщение # 20 |
Рядовой
Группа: Пользователи
Сообщений: 18
Статус: Offline
| Вопрос скорее теоритического плана: DG читает свой конфиг сверху вниз? интересует порядок работы способов фильтрации. Т.е. если в dans.conf2 списки подключаются так Code # Content filtering files location bannedphraselist = '/etc/dansguardian/lists2/bannedphraselist' weightedphraselist = '/etc/dansguardian/lists2/weightedphraselist' exceptionphraselist = '/etc/dansguardian/lists2/exceptionphraselist' bannedsitelist = '/etc/dansguardian/lists2/bannedsitelist' greysitelist = '/etc/dansguardian/lists2/greysitelist' exceptionsitelist = '/etc/dansguardian/lists2/exceptionsitelist' bannedurllist = '/etc/dansguardian/lists2/bannedurllist' greyurllist = '/etc/dansguardian/lists2/greyurllist' exceptionurllist = '/etc/dansguardian/lists2/exceptionurllist' exceptionregexpurllist = '/etc/dansguardian/lists2/exceptionregexpurllist' bannedregexpurllist = '/etc/dansguardian/lists2/bannedregexpurllist' picsfile = '/etc/dansguardian/lists2/pics' contentregexplist = '/etc/dansguardian/lists2/contentregexplist' urlregexplist = '/etc/dansguardian/lists2/urlregexplist' означает ли это что по сначала страница фильтруется на запрещенные фразы, затем на запрещенные фразы с весом, затем разрешенные фразы и т.д.? p.s похоже именно так. страницы с явным порно url блокируется по причине превышения весов фраз.
И вопрос про в этом файле из множества различных вариаций также прописано porn|porno, но если пред словом porn|porno в адресе страницы будут еще символы то фильтрация по регулярному url не сработает? проверено на странице : http://m.gigporno.com/. Спасибо!
Сообщение отредактировал pma - Пятница, 11.05.2012, 09:46 |
|
| |
Vito | Дата: Пятница, 11.05.2012, 13:11 | Сообщение # 21 |
Подполковник
Группа: Администраторы
Сообщений: 131
Статус: Offline
| Quote (Vito) Вопрос скорее теоритического плана: DG читает свой конфиг сверху вниз? интересует порядок работы способов фильтрации. означает ли это что по сначала страница фильтруется на запрещенные фразы, затем на запрещенные фразы с весом, затем разрешенные фразы и т.д.? p.s похоже именно так. страницы с явным порно url блокируется по причине превышения весов фраз. Не изучал исходники Dansguardian, так как слабо разбираюсь в С и С++, Но думаю так, Алгоритмы фильтрации Dansguardian работают в порядке от наиболее быстрого к медленным. Если грубо описать механизм, то сначала идет проверка на черные и белые списки, далее по регуляркам, и потом только по фразам.
Quote (Vito) И вопрос про bannedregexpurllist в этом файле из множества различных вариаций также прописано porn|porno, но если пред словом porn|porno в адресе страницы будут еще символы то фильтрация по регулярному url не сработает? проверено на странице : http://m.gigporno.com/. Спасибо! И не будет срабатывать, все правильно. если на отдельной строке написать (porn|porno) то будет срабатывать. Вы просмотрите строку до конца, чтобы увидеть все регулярное выражения Наверняка регулярное выражение имеет вид (porn|porno|еще слова)+.*(ero|sex|еще слова)+ Что фактически говорит, выражение срабатывает когда обе части присутствуют в URL. Я в десктопной UBUNTU пользуюсь программой Kiki, очень хорошая программа для тестирования регулярных выражений.
|
|
| |
pma | Дата: Пятница, 11.05.2012, 13:16 | Сообщение # 22 |
Рядовой
Группа: Пользователи
Сообщений: 18
Статус: Offline
| Спасибо за информацию. Завтра заберу новенький и шустренький системник, и начну с нуля все устанавливать-)
|
|
| |
Vanchope | Дата: Воскресенье, 11.11.2012, 21:44 | Сообщение # 23 |
Рядовой
Группа: Пользователи
Сообщений: 19
Статус: Offline
| Здравствуйте! Не стал поднимать новую тему, решил написать здесь, так как у меня вопрос про скорость работы. Есть выделенный сервер Intel Celeron 2 ГГц, оперативная память 1 Гб, Alt Linux server 6 Informika. Цель - фильтрация контента силами squid, netpolice и dansguarden. После установки всего этого хозяйства получился ОЧЕНЬ медленный интернет через порт 8080. Переключаю на порт 3128 - всё летает. Сделал откат до установки веб-интерфейса DG - скорость работы вполне приемлемая, вернул веб-интерфейсом - опять страшные тормоза. Неужели это всё из-за работы с базами? Да не может же такого быть, может, что-то неправильно установилось? Я уж все ненужные службы отключил (резервное копированрие, ftp, почту)...
|
|
| |
Vito | Дата: Понедельник, 12.11.2012, 19:42 | Сообщение # 24 |
Подполковник
Группа: Администраторы
Сообщений: 131
Статус: Offline
| Вполне может быть, но не из-за интерфейса, а из-за количества фраз в списках, так как русские фразы присутствуют в трех копиях(соответственно кодировкам). Также можно поиграться с параметрами конфига, так как в веб-интерфейсе по-умолчанию стоят мои настройки, а не те что были по умолчанию. Можете посмотреть это сообщение http://dansguardian.ucoz.ru/forum/4-2-189-16-1351862552
Для проверки можно задать все параметры в веб-интерфейсе из оригинального dansguardian.conf и dansguardianf*.conf А также попробовать отключить большие списки фраз. Celeron 2ГГц это вы имели ввиду Pentium 4 с сокет 486 или DualCore с сокетом 775? У меня тоже Celeron E1600, но двухядерный и проблем пока нет, до этого был AMD c похожей производительностью.
|
|
| |
Vanchope | Дата: Вторник, 13.11.2012, 16:55 | Сообщение # 25 |
Рядовой
Группа: Пользователи
Сообщений: 19
Статус: Offline
| Quote (Vito) Celeron 2ГГц это вы имели ввиду Pentium 4 с сокет 486? Да, это он. Не двухядерный, конечно, но всё же...
Дело в том, что когда я обращаюсь к серверу по порту 8080, он вначале долго думает (секунд 10), а уже потом предлагает окно для логина и пароля авторизации squid. Такое впечатление, что dansguardian знает путь к squid, но какой-то очень далёкий (как в Москву в Питер через Владивосток). Повторяюсь, без интерфейса такого не было. Что-то не похоже, чтобы было только из-за больших списков, хотя попробую их сегодня поотключать. Может всё-таки что-то неправильно установилось?
P.S. Вопрос не по теме: объясните чайнику, как поменять логин и пароль авторизации к веб-интерфейсу DG (тот что user, 123456).Добавлено (13.11.2012, 16:55) --------------------------------------------- Выяснилась одна интересная деталь: на САМОМ СЕРВЕРЕ всё работает хорошо, т.е. на сервере захожу в браузер и через порт 8080 наслаждаюсь веб-сёрфингом с фильтрацией. Пытаюсь зайти в интернет через другой компьютер локальной сети - тормозит, причём ОЧЕНЬ долго появляется окно авторизации squid. Хотя сам веб-сёрфинг пошёл несколько лучше после того, как я отключил все списки фраз кроме руссских и английских. Но всё равно загрузка около минуты, так дело не пойдёт... И это я дома тестирую, где кроме самого сервера в локальной сети один комп и хорошая скорость Интерент 20 МБ/секунду, а что будет в школе... В чём же может быть проблема?
|
|
| |
svetoch | Дата: Среда, 14.11.2012, 10:12 | Сообщение # 26 |
Рядовой
Группа: Пользователи
Сообщений: 10
Статус: Offline
| ответ не по теме Code echo -n '123456' |md5sum |awk '{ print $1 }' где вместо 123456 пишеш свой пароль. на выходе получаеш хэш пароля
логин и получившийся md5 хэш записываеш в /opt/dms/web_interface/include/auth.php
по поводу тормозов: у меня примерно такая же ситуация. сейчас играюсь с настройками которые перечислил Vito http://dansguardian.ucoz.ru/forum/4-2-189-16-1351862552
|
|
| |
Vanchope | Дата: Среда, 14.11.2012, 10:36 | Сообщение # 27 |
Рядовой
Группа: Пользователи
Сообщений: 19
Статус: Offline
| svetoch, спасибо!
Quote (svetoch) по поводу тормозов: у меня примерно такая же ситуация. сейчас играюсь с настройками которые перечислил Vito http://dansguardian.ucoz.ru/forum/4-2-189-16-1351862552
Меня смущает, что на самом сервере всё летает, а из сети при обращении к серверу по порту 8080 очень большая задержка. Откуда она берётся? Такое ощущение, что проблема во взаимодействии dansguardian и squid, но почему же на localhost они понимают друг друга с полуслова?
|
|
| |
Vito | Дата: Среда, 14.11.2012, 19:38 | Сообщение # 28 |
Подполковник
Группа: Администраторы
Сообщений: 131
Статус: Offline
| Задержка наблюдается во всех браузерах? Прокси прописан напрямую или браузер получает параметры автоматически или использует системные настройки прокси? Вы используете LDAP или basic-авторизацию в Squid? Возможно задержка связана с LDAP. Также стоит посмотреть параметры Squid отвечающие за кэширование положительного ответа от хелпера авторизации.
|
|
| |
Vanchope | Дата: Среда, 14.11.2012, 22:19 | Сообщение # 29 |
Рядовой
Группа: Пользователи
Сообщений: 19
Статус: Offline
| Quote (Vito) Задержка наблюдается во всех браузерах? Да, во всех
Quote (Vito) Прокси прописан напрямую или браузер получает параметры автоматически или использует системные настройки прокси? Прокси прописан в каждом браузере в настройках
Quote (Vito) Вы используете LDAP или basic-авторизацию в Squid? basic-авторизацию в Squid, Ldap не использую.
Quote (Vito) Также стоит посмотреть параметры Squid отвечающие за кэширование положительного ответа от хелпера авторизации. Пожалуйста, можно поподробнее, по-моему ,истина где-то рядом
|
|
| |
Vito | Дата: Четверг, 15.11.2012, 16:45 | Сообщение # 30 |
Подполковник
Группа: Администраторы
Сообщений: 131
Статус: Offline
| Например у меня так сделано Squid 3.1.19, в других версиях могут быть другие имена опций. Code # Задаём параметры basic-авторизации: #---------------------------------------------------------------------------------------- # 1. Программа авторизации auth_param basic program /usr/local/bin/auth_mysql.pl # 2. Количество процессов авторизации auth_param basic children 10 # 3. Сообщение выводимое при показе формы логина и пароля auth_param basic realm 'Squid+Dansguardian. School content-filter' # 4. Время кэширования правильной авторизации auth_param basic credentialsttl 1 minutes Программа авторизации у меня самописная работает с Mysql.
А разница во времени задержки есть при вводе правильного или неправильного пароля?
Что-то мне кажется, что задержка кроется в соединении Squid с программой авторизации, либо программа авторизации подтупливает, у меня было что-то подобное когда было настроена авторизация через домен Windows, как правило легко проверяется просто запустив Squid без авторизации.
как вариант можно запустить отдельно программу авторизации ( у меня это /usr/local/bin/auth_mysql.pl) в консоли и посмотреть не вываливает она ошибок, в нормальном состоянии программа простой авторизации должна ожидать ввода строки в виде логин пароль и возращать практически мгновенно ERR или OK в ответ на ввод(нажатие клавиши Enter после ввода строки), в зависимости от статуса проверки(прошла/не прошла), опять же никаких ошибок или предупреждений быть не должно, так как squid ждет только ERR или OK. Также можно попробовать остановить Squid стандартными средствами и запустить от рута командой squid -d10 которая многое может рассказать, в нормальном состоянии ошибок быть вообще не должно, даже warnings(предупреждений)
|
|
| |